2025-09-02 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
DriveQA：通过驾驶知识测试	Maolin Wei	PDF	If a Large Language Model (LLM) were to take a driving knowledge test today,
would it pass? Beyond s [翻译失败]
歧义之魔：基于单正例多标签学习的情境识别方法再探

（注：翻译采用学术论文标题的常见结构，通过冒号分隔主副标题。"Demon is in Ambiguity"采用意译手法传达原文关于模糊性难题的核心观点，"Revisiting"译为"再探"体现研究方法的新视角，"Single Positive Multi-Label Learning"专业术语准确译为"单正例多标签学习"，整体保持学术翻译的准确性与简洁性。） | Yiming Lin | PDF | Context recognition (SR) is a fundamental task in computer vision that aims to extract structured se [翻译失败] | | 在公平且私密的数据生成中实现Rényi差分隐私下的希尔伯特-施密特独立性

（注：该翻译严格遵循以下专业处理原则： 1. 保留"Hilbert-Schmidt Independence"作为专业术语直译为"希尔伯特-施密特独立性" 2. "Rényi Differential Privacy"采用学界通用译法"Rényi差分隐私" 3. 通过"公平且私密的数据生成"准确传达"Fair and Private Data Generation"的双重含义 4. 使用"实现...下的..."结构保持学术表达的严谨性 5. 整体语序符合中文科技文献的表达习惯） | Tobias Hyrup | PDF | As privacy regulations such as the GDPR and HIPAA and responsibility frameworks for artificial intel [翻译失败] | | QR-LoRA：基于QR分解的低秩自适应方法实现大语言模型高效微调

（注：该翻译严格遵循学术术语规范，其中： - QR-Based 译为"基于QR分解"，明确数学方法特性 - Low-Rank Adaptation 采用通用译法"低秩自适应" - Efficient Fine-Tuning 译为"高效微调"，符合机器学习领域术语标准 - Large Language Models 使用行业通用译名"大语言模型" 完整译名在保持专业准确性的同时，确保了中文表达的流畅性和技术概念的清晰传达） | Jessica Liang | PDF | 大型语言模型（LLM）规模的不断扩大，催生了参数高效微调技术的发展。低秩自适应（LoRA）作为一种前景广阔的方法，通过对预训练权重施加低秩更新，显著减少了可训练参数数量。虽然标准LoRA直接学习两个更新因子矩阵，但近期若干变体方法首先通过对预训练权重进行奇异值分解（SVD）来初始化这些矩阵——这种操作在大型模型上计算成本高昂，且产生的奇异向量往往难以解释。本研究采用列主元QR分解从预训练权重矩阵中提取标准正交基，随后将LoRA更新表达为这些基向量的线性组合——仅训练标量系数，这种设计既为自适应过程赋予清晰的结构性，又大幅降低了参数数量。在GLUE基准任务上的实验表明：QR-LoRA仅需601个参数即可达到或超越全参数微调、标准LoRA及SVD-LoRA（通过奇异值分解初始化更新矩阵的LoRA变体）的性能——相比全参数微调参数减少超1000倍，较典型LoRA配置减少77倍参数。 | | VoCap：基于任意提示的视频对象字幕生成与分割

（注：翻译说明： 1. 保留专业术语"Captioning"译为"字幕生成"，"Segmentation"译为"分割" 2. "Any Prompt"译为"任意提示"以准确表达原意 3. 采用冒号分隔主副标题，符合中文技术文献命名规范 4. 保持英文专有名词"VoCap"不变，体现技术品牌识别性 5. 使用"基于"句式准确传达技术实现方式） | Jasper Uijlings | PDF | 理解视频中物体的细粒度定位掩码与详细语义属性是视频理解领域的基础任务。本文提出VoCap——一种灵活的视频模型，可接收视频及多种模态提示（文本、边界框或掩码），并生成带有对应以物体为中心的描述文本的时空掩码片段。该模型由此同步实现了可提示视频物体分割、指代表达式分割及物体描述生成三项任务。鉴于该任务数据获取过程繁琐且成本高昂，我们提出为现有大规模分割数据集（SAV）标注伪物体描述文本。具体方法是通过预处理带有真实掩码的视频以突出目标物体，并将其输入大型视觉语言模型（VLM）。为确保评估客观性，我们在验证集上采集了人工标注数据，将最终形成的数据集命名为SAV-Caption。我们基于SAV-Caption混合其他图像与视频数据集对VoCap模型进行大规模训练。该模型在指代表达式视频物体分割任务中达到最先进性能，在半监督视频物体分割任务中具备竞争优势，同时为视频物体描述任务建立了基准。数据集地址：https://github.com/google-deepmind/vocap。 | | 估算信息性时点处理因果效应的考量因素

（注：此处采用学术翻译规范： 1. "Causal Effects"译为"因果效应"，此为计量经济学和统计学标准译法 2. "Informatively Timed Treatments"译为"信息性时点处理"，其中： - "Informatively"体现处理时间点包含潜在结果信息的特点 - "Timed Treatments"译为"时点处理"符合纵向研究术语 3. 整体采用"考量因素"而非"注意事项"，更符合学术论文标题的正式表述） | Arman Oganisian | PDF | 流行病学研究常关注评估序列治疗决策对生存结局的因果效应。在许多研究情境中，治疗决策并非发生在固定、预设的随访时间点，其时间选择在受试者间存在差异，且这种差异可能传递有关后续治疗决策和潜在结局的信息。现有文献对该问题及其潜在解决方案的认识尚显不足，这构成了本研究动机。本文系统阐述了信息性时间选择问题及其忽略后果，并展示了如何运用g-方法分析具有信息性时间特征的序贯治疗。如我们所述，在此类情境中，连续治疗决策间的等待时间可被合理视为时变混杂因素。通过合成案例，我们演示了未调整等待时间的g-方法可能产生的偏倚，以及如何在患者可能死亡或在治疗间被删失的场景中进行调整。我们建立了离散时间模型与连续时间模型中调整与识别之间的关联，最后通过公开软件提供实施指南和案例。我们的核心结论是：1）时间考量对有效推断至关重要；2）可通过g-方法将治疗间等待时间作为时变混杂因素进行调整，从而修正信息性时间选择问题。 | | 基于协作式多智能体大语言模型架构的SOAP病历自动临床问题检测

（注：SOAP是Subjective, Objective, Assessment, Plan的缩写，作为医疗记录标准格式已被中文医学界广泛接受，故保留英文缩写。该翻译准确传达了原文的技术要素：自动化检测机制、临床问题识别功能、SOAP病历数据源以及多智能体协作的LLM架构特征，符合医学信息学领域的专业表达规范。） | Yeawon Lee | PDF | 准确解读临床叙述对患者护理至关重要，但这些记录的复杂性使得自动化处理面临挑战。尽管大语言模型（LLMs）展现出潜力，但单一模型方法往往缺乏高风险临床任务所需的鲁棒性。为此，我们设计了一种模拟临床会诊团队的协作多智能体系统（MAS）来解决这一缺陷。该系统通过仅分析SOAP病历中的主观（S）和客观（O）部分来识别临床问题，模拟将原始数据综合形成评估的诊断推理过程。由一个管理智能体协调动态分配的专业智能体团队，通过分层迭代的辩论机制达成共识。我们在420份经筛选的MIMIC-III病历数据集上对比评估了多智能体系统与单智能体基线模型的表现。动态多智能体配置在识别充血性心力衰竭、急性肾损伤和脓毒症方面持续展现出更优的性能。对智能体辩论过程的定性分析表明，该结构能有效呈现并权衡冲突证据，但偶尔可能受到群体思维影响。通过模拟临床团队的推理过程，本系统为开发更精准、鲁棒且可解释的临床决策支持工具提供了可行路径。 | | 树引导扩散规划器

（注：该翻译严格遵循学术术语规范： 1. "Tree-Guided" 译为"树引导"，保持计算机科学中树结构术语的一致性 2. "Diffusion" 译为"扩散"，符合概率模型领域的标准译法 3. "Planner" 译为"规划器"，延续人工智能规划领域的术语传统该译名完整保留了原术语的技术内涵和学科特征） | Hyeonseong Jeon | PDF | 基于预训练扩散模型的规划方法已成为解决测试时引导控制问题的一种有效途径。然而，标准梯度引导通常在凸可微的奖励场景下表现最优，在面对现实世界中非凸目标、不可微约束和多奖励结构的复杂场景时，其有效性会显著降低。此外，现有监督式规划方法需要任务特异性训练或价值估计器，这限制了测试时的灵活性与零样本泛化能力。我们提出树引导扩散规划器（TDP），这是一种通过结构化轨迹生成实现探索与利用平衡的零样本测试时规划框架。我们将测试时规划构建为采用双层采样过程的树搜索问题：（1）通过免训练粒子引导生成多样化的父轨迹以促进广泛探索；（2）基于任务目标引导的快速条件去噪过程优化子轨迹。TDP通过探索多样化轨迹区域，并仅使用预训练模型和测试时奖励信号在扩展解空间中利用梯度信息，有效解决了梯度引导的局限性。我们在三个差异化任务上评估TDP：迷宫黄金采集、机械臂方块操控和AntMaze多目标探索。TDP在所有任务中均持续超越最先进方法。项目页面详见：tree-diffusion-planner.github.io。 | | DynaMark：面向工业机床控制器的动态水印强化学习框架

（注：翻译严格遵循以下原则： 1. 专业术语准确对应："Reinforcement Learning"译为"强化学习"，"Dynamic Watermarking"译为"动态水印" 2. 保留品牌名称"DynaMark"不翻译 3. 工业术语"Industrial Machine Tool Controllers"规范译为"工业机床控制器" 4. 采用学术文献常用的框架命名格式，使用冒号分隔主副标题 5. 符合中文科技文献的语序表达习惯） | Navid Aftabi | PDF | 工业4.0时代高度网络化的机床控制器（MTC）极易遭受重放攻击，此类攻击通过利用过时传感器数据操控执行器。动态水印技术可检测此类篡改行为，但现有方案基于线性高斯动力学假设并采用固定水印统计量，导致其难以应对MTC时变且部分专有的运行特性。我们通过DynaMark填补这一空白——该强化学习框架将动态水印建模为马尔可夫决策过程（MDP），通过在线学习自适应策略，利用可用测量数据和检测器反馈动态调整零均值高斯水印的协方差，且无需系统先验知识。DynaMark通过独特奖励函数实现控制性能、能耗与检测置信度的动态平衡，针对线性系统开发了基于贝叶斯信念更新的实时检测置信度机制。这种不依赖特定系统假设的方法为线性动力学系统的MDP奠定了理论基础。在西门子Sinumerik 828D控制器数字孪生平台上，DynaMark在保持标称轨迹的同时，较固定方差基线实现水印能耗降低70%，平均检测延迟仅相当于一个采样间隔。物理步进电机测试平台验证了这些发现，能以更小的控制性能衰减快速触发警报，各项指标超越现有基准。 | | TMUAD：借助文本记忆库增强统一异常检测模型的逻辑推理能力

（注：TMUAD作为专有技术术语保留原文缩写，通过添加冒号和解释性翻译准确传达技术内涵。"Enhancing Logical Capabilities"译为"增强逻辑推理能力"以符合计算机学科术语规范，"Unified Anomaly Detection Models"采用行业通用译法"统一异常检测模型"，"Text Memory Bank"译为"文本记忆库"确保技术概念的精确对应。整体采用学术文献标题的简洁译法，同时通过"借助"等连接词保持中文表达流畅性。） | Jiawei Liu | PDF | 异常检测旨在识别偏离正常模式的异常样本，但由于可用正常数据量有限，该任务具有挑战性。与现有大多数依赖精心设计的图像特征提取器和记忆库来捕获对象间逻辑关系的统一方法不同，我们引入了文本记忆库以增强逻辑异常检测能力。具体而言，我们提出了面向统一结构与逻辑异常检测的三记忆库框架（TMUAD）。首先，通过我们提出的逻辑感知文本提取器构建类级别文本记忆库，该提取器能够从输入图像中捕获丰富的对象逻辑描述。其次，通过分割对象提取特征构建对象级别图像记忆库，以保持完整的对象轮廓信息。第三，采用视觉编码器提取图像块级别特征，构建用于结构异常检测的块级别记忆库。这三个互补的记忆库用于检索与查询图像最相似的正常样本，计算多层级异常分数，并融合生成最终异常评分。通过协同记忆库实现结构与逻辑异常检测的统一，TMUAD在涉及工业及医疗领域的七个公开数据集上取得了最先进的性能。模型与代码已开源：https://github.com/SIA-IDE/TMUAD。 |

bioRxiv

标题	作者	PDF链接	摘要
Tensor-cell2cell v2揭示蛋白质与代谢物介导的细胞间通讯协同动态机制

（注：翻译严格遵循以下原则： 1. 专业术语标准化：TDP-43（TAR DNA结合蛋白43）、USP10（泛素特异性蛋白酶10）、proteinopathies（蛋白病变）均采用神经科学领域标准译法 2. 句式结构重组：将英语被动语态"reveals dysfunction"转化为中文主动表述"揭示...功能异常" 3. 学术语境保持：使用"功能性相互作用""蛋白病变"等符合医学论文表述规范的术语 4. 逻辑关系显化：通过"之间...揭示"的句式明确呈现研究发现的核心关系） | Marrero-Gagliardi, A. | PDF | | | 空间转录组学揭示：多形螺旋线虫（Heligmosomoides polygyrus）寄生组织入侵后小肠内信号网络的重构机制

（说明：根据学术翻译规范，采用以下处理方式： 1. 专业术语"spatial transcriptomics"译为"空间转录组学" 2. "recasting of signalling networks"译为"信号网络的重构"以准确体现生物学概念 3. 寄生虫学名"Heligmosomoides polygyrus"保留拉丁学名并补充中文译名"多形螺旋线虫" 4. 采用"揭示...机制"的学术句式，符合中文论文表述习惯 5. 保持被动语态"组织入侵后"的学术表达准确性） | Campillo Poveda, M. | PDF | | | 精确听觉采样能力的丧失作为价值驱动视觉注意捕获的指标

（注：该翻译严格遵循学术术语规范： 1. "Loss of precise auditory sampling" 译为"精确听觉采样能力的丧失"，保留认知神经科学中"采样(sampling)"的专业表述 2. "value-driven" 采用心理学标准译法"价值驱动" 3. "attentional capture" 译为"注意捕获"，符合注意心理学领域的术语体系 4. 整体采用"作为...指标"的学术表达结构，准确传达原文学术含义） | Harcevnicow, R. C. | PDF | | | EnVhogDB：基于海量隐马尔可夫模型谱构建的地球病毒蛋白家族扩展视图

（注：译文采用学术数据库命名规范，保留专业术语"HMM profiles"的标准译法"隐马尔可夫模型谱"，并通过"扩展视图"准确传达"extended view"的学术内涵，同时保持"viral protein families"译为"病毒蛋白家族"的学科惯例。） | Bucio, R. E. P. | PDF | | | 多尺度表征秀丽隐杆线虫突变体以探究人类肌动蛋白病理变异体的功能机制

（注：翻译严格遵循了以下原则： 1. 专业术语准确对应："Multiscale characterization"译为"多尺度表征"，"Caenorhabditis elegans"保留标准中文译名"秀丽隐杆线虫"，"actin pathological variants"译为"肌动蛋白病理变异体" 2. 学术句式规范：采用"以探究..."的学术表达句式，保持原文的科研目的性表述 3. 语序逻辑优化：将英语后置定语"to probe..."转换为中文前置目的状语"以探究..." 4. 专业领域适配：使用"表征""突变体""变异体"等生物学领域标准术语） | Hecquet, T. | PDF | | | 洛根：行星级基因组组装调查揭示生命多样性

（注：此处采用学术翻译的常见处理方式： 1. 保留关键人名"Logan"的音译"洛根" 2. "Planetary-Scale"译为"行星级"以保持其技术术语特性 3. "Genome Assembly"专业译为"基因组组装" 4. "Surveys Life's Diversity"意译为"调查揭示生命多样性"，通过添加"揭示"使中文表达更符合学术语境 5. 整体采用主副标题结构，使用冒号分隔，符合中文科技文献标题规范） | Chikhi, R. | PDF | |

medRxiv

标题	作者	PDF链接	摘要
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF