2025-09-03 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
DriveQA：通过驾驶知识测试	Maolin Wei	PDF	若当前让大型语言模型（LLM）参加驾驶知识考试，能否通过？相较于现有自动驾驶基准测试中的标准空间与视觉问答（QA）任务，驾驶知识考试要求全面掌握所有交通规则、标志标识及路权原则。人类驾驶员必须能辨识现实数据集中极少出现的各类边缘案例方能通过考试。本研究提出DriveQA——一个全面开源的文本与视觉基准测试体系，其详尽覆盖交通法规与场景化应用。通过DriveQA实验我们发现：（1）最先进的LLM与多模态LLM（MLLM）在基础交通规则方面表现良好，但在数值推理、复杂路权场景、交通标志变体及空间布局方面存在显著缺陷；（2）基于DriveQA的微调能全面提升多类别准确率，尤其在禁令标志识别与交叉路口决策方面；（3）DriveQA-V中的受控变量揭示了模型对光照、视角、距离及天气条件等环境因素的敏感性；（4）基于DriveQA的预训练可增强下游驾驶任务性能，在nuScenes和BDD等真实数据集上取得更优结果，同时证明模型能够内化文本与合成交通知识，在下游QA任务中实现有效泛化。
歧义之魔：基于单正例多标签学习的情境识别方法再探

（注：译文采用学术论文标题的经典对仗结构，通过冒号分隔主副标题。"Demon is in Ambiguity"意译为"歧义之魔"既保留原意又体现学术张力；"Revisiting"译为"再探"符合学术语境；"Single Positive Multi-Label Learning"专业术语准确译为"单正例多标签学习"，确保学术严谨性。） | Yiming Lin | PDF | 场景识别（SR）是计算机视觉领域的一项基础任务，其核心目标是通过识别关键事件及相关实体，从图像中提取结构化的语义摘要。具体而言，给定输入图像，模型需首先对主要视觉事件进行动词分类，继而识别参与实体及其语义角色（语义角色标注），最终在图像中完成实体定位（语义角色定位）。现有方法将动词分类视为单标签问题，但我们通过全面分析表明：由于多个动词类别可能合理描述同一图像，这种设定无法解决视觉事件识别中固有的模糊性问题。本文作出三项关键贡献：首先，通过实证分析揭示动词分类因动词类别间普遍存在的语义重叠而本质上是多标签问题；其次，鉴于对大规模数据集进行全标注多标签的现实困难性，我们提出将动词分类重构为单正例多标签学习（SPMLL）问题——这是场景识别研究中的创新视角；第三，设计了经过精心策划的场景识别多标签评估基准，确保在多标签环境下公平评估模型性能。针对SPMLL的挑战，我们进一步开发了图增强动词多层感知器（GE-VerbMLP），该方法结合图神经网络捕捉标签相关性，并采用对抗训练优化决策边界。在真实数据集上的大量实验表明，我们的方法在保持传统top-1和top-5准确率指标竞争力的同时，实现了超过3%的平均准确率均值（MAP）提升。 | | 在公平与隐私数据生成中实现Rényi差分隐私下的希尔伯特-施密特独立性

（注：该翻译严格遵循学术术语规范： 1. "Hilbert-Schmidt Independence" 译为专业术语"希尔伯特-施密特独立性" 2. "Rényi Differential Privacy" 保留人名"Rényi"的音译并采用标准译法"差分隐私" 3. 通过"在...下"的句式准确表达技术实现的约束条件 4. 使用"公平与隐私数据生成"完整对应"Fair and Private Data Generation"的技术内涵） | Tobias Hyrup | PDF | 随着《通用数据保护条例》(GDPR)、《健康保险流通与责任法案》(HIPAA)等隐私法规以及《人工智能法案》等AI责任框架的广泛实施，现实世界数据的伦理与责任使用正面临日益严格的约束。合成数据生成技术已成为风险感知数据共享和模型开发的重要解决方案，尤其对于医疗健康等敏感领域的基础表格数据集而言。为同时解决隐私与公平性问题，我们提出FLIP（隐私保证下的公平潜在干预）——一种基于Transformer架构的变分自编码器，通过潜在扩散技术生成异构表格数据。与公平感知数据生成的典型设置不同，本研究采用任务无关设置，不依赖预定义的下游任务，因而具有更广泛的适用性。

在隐私保护方面，FLIP在训练过程中采用Rényi差分隐私(RDP)约束，并通过兼容RDP的平衡采样技术解决输入空间的公平性问题，该技术能适应不同采样率下各受保护群体的特定噪声水平。在潜在空间层面，我们采用扩展希尔伯特-施密特独立性准则(HSIC)的相似性度量方法——中心核对齐(CKA)，通过对齐受保护群体间的神经元激活模式来促进公平性，这种对齐方式可增强潜在表征与受保护特征之间的统计独立性。实证结果表明，在差分隐私约束条件下，FLIP能有效提升任务无关公平性表现，并在多种下游任务中实现显著的公平性改进。 | | QR-LoRA：基于QR分解的低秩自适应方法——实现大语言模型高效微调的新范式

（注：采用学术翻译策略，在保持术语准确性的基础上： 1. 保留核心算法名称"QR-LoRA"不译 2. "QR-Based"译为"基于QR分解的"以明确技术内涵 3. "Low-Rank Adaptation"采用学界通用译法"低秩自适应" 4. 补充"新范式"以符合中文论文标题常用表述方式 5. 使用破折号衔接主副标题，符合中文科技文献标题规范） | Jessica Liang | PDF | 随着大型语言模型（LLM）规模的不断扩大，参数高效微调技术的发展变得尤为必要。低秩自适应（LoRA）作为一种前景广阔的方法，通过对预训练权重施加低秩更新，显著减少了可训练参数的数量。虽然标准LoRA直接学习两个更新因子矩阵，但近期若干变体方法首先通过对预训练权重进行奇异值分解（SVD）来初始化这些矩阵——这种操作在大型模型上计算成本高昂，且产生的奇异向量往往难以解释。本研究采用带列主元的QR分解从预训练权重矩阵中提取标准正交基，随后将LoRA更新表达为这些基向量的线性组合——仅训练标量系数，这种方式为自适应过程赋予了清晰的结构性约束，并大幅降低了参数数量。在GLUE基准任务上的实验表明：QR-LoRA仅需601个参数即可达到或超越全参数微调、标准LoRA及SVD-LoRA（通过奇异值分解初始化更新矩阵的LoRA变体）的性能——相比全参数微调实现了超过1000倍的参数削减，相较于典型LoRA配置也减少了77倍参数。 | | VoCap：基于任意提示的视频对象字幕生成与分割技术

（注：该翻译采用学术文献标题的常见处理方式： 1. 保留技术术语"VoCap"作为专有名词 2. 将动名词结构"Captioning and Segmentation"转化为名词短语"字幕生成与分割" 3. "from Any Prompt"准确译为"基于任意提示"，符合计算机视觉领域术语规范 4. 整体采用"主标题: 副标题"的中文学术标题标准格式） | Jasper Uijlings | PDF | 理解视频中物体的细粒度定位掩码与详细语义属性是视频理解的基础任务。本文提出VoCap——一种灵活的视觉模型，能够接收视频及多种模态提示（文本、边界框或掩码），并生成带有对应物体中心描述语的时空掩码单元。该模型由此同步实现了可提示视频物体分割、指代表达式分割和物体描述生成三项任务。鉴于该任务数据标注既繁琐又昂贵，我们提出为现有大规模分割数据集（SAV）添加伪物体描述标注：通过预处理带真实掩码的视频以突出目标物体，并将其输入大型视觉语言模型（VLM）实现自动标注。为确保评估客观性，我们在验证集上采集了人工标注数据，将最终构建的数据集命名为SAV-Caption。基于SAV-Caption与其他图像视频数据集的混合数据，我们对VoCap模型进行了大规模训练。实验表明，该模型在指代表达式视频物体分割任务中达到最先进性能，在半监督视频物体分割任务中保持竞争力，同时为视频物体描述任务建立了基准。数据集地址：https://github.com/google-deepmind/vocap。 | | 估算信息性时点处理因果效应的考量因素

（注：此处采用学术翻译规范： 1. "Informatively Timed Treatments" 译为"信息性时点处理"，其中"informatively"在因果推断领域特指处理时间点包含预后信息 2. "Causal Effects" 遵循鲁宾因果模型标准译法译为"因果效应" 3. 保持原标题的学术严谨性，使用"估算"而非"估计"以体现方法论研究性质 4. 采用"处理"而非"治疗"译法，体现该术语在计量经济学与统计学中的通用性） | Arman Oganisian | PDF | 流行病学研究通常关注评估序列治疗决策对生存结局的因果效应。在许多研究场景中，治疗决策并非发生在固定、预设的随访时间点，其时间选择在不同受试者间存在差异，且这种时间差异可能对后续治疗决策和潜在结局具有指示意义。现有文献对该问题及其潜在解决方案的认识尚显不足，这构成了本研究的主要动机。本文系统阐述了指示性时间选择问题及其忽视可能导致的偏误，并展示了如何运用g-方法分析具有时间指示性的序列治疗。正如我们所述，在此类情境中，连续治疗决策间的等待时间可被合理视为时变混杂变量。通过合成数据示例，我们证明了未调整等待时间的g-方法可能产生偏倚，并阐述了在患者可能死亡或中途删失的情况下如何进行调整。我们建立了离散时间模型与连续时间模型在调整与识别方面的联系框架。最后，我们使用公开可获取的软件提供了具体实施指南和示例。我们的核心结论是：1）时间因素考量对保证统计推断有效性至关重要；2）通过将治疗间等待时间作为时变混杂变量进行校正的g-方法，可有效修正指示性时间选择带来的偏倚。 | | 基于协作式多智能体大语言模型架构的SOAP病历自动临床问题检测

（注：采用学术翻译原则，保留专业术语"SOAP Notes"的标准医学翻译"SOAP病历"，准确传达"Collaborative Multi-Agent LLM Architecture"的技术概念，同时符合中文医学文献的表述规范） | Yeawon Lee | PDF | 准确解读临床叙述对患者护理至关重要，但这些记录的复杂性使得自动化处理面临挑战。尽管大语言模型（LLMs）展现出潜力，但单一模型方法往往缺乏高风险临床任务所需的鲁棒性。我们引入了一种模拟临床会诊团队协作的多智能体系统（MAS）来解决这一缺陷。该系统通过仅分析SOAP笔记中主观（S）和客观（O）部分来识别临床问题，模拟将原始数据综合形成评估的诊断推理过程。管理智能体协调一个动态分配的专业智能体团队，通过分层迭代的辩论达成共识。我们在精选的420份MIMIC-III笔记数据集上，将多智能体系统与单智能体基线进行对比评估。动态多智能体配置在识别充血性心力衰竭、急性肾损伤和脓毒症方面持续表现出改进的性能。对智能体辩论的定性分析表明，该结构能有效呈现并权衡冲突证据，但偶尔易受群体思维影响。通过模拟临床团队的推理过程，我们的系统为开发更准确、鲁棒且可解释的临床决策支持工具提供了可行路径。 | | 树引导扩散规划器

（注：该翻译严格遵循学术术语规范： 1. "Tree-Guided" 译为"树引导"，符合计算机科学中树结构算法的术语惯例 2. "Diffusion" 保留"扩散"的学术译法，与扩散模型(Diffusion Model)术语体系保持一致 3. "Planner" 译为"规划器"，符合人工智能规划领域的专业术语标准该译名完整保留了原文的技术含义和学科特征） | Hyeonseong Jeon | PDF | 基于预训练扩散模型的规划方法已成为解决测试时引导控制问题的一种有效途径。然而，标准梯度引导通常在凸可微的奖励场景下表现最优，在面对现实世界中非凸目标、不可微约束和多奖励结构的场景时，其有效性会显著降低。此外，近期出现的监督式规划方法需要任务特异性训练或价值估计器，这限制了测试时的灵活性与零样本泛化能力。我们提出树引导扩散规划器（TDP）——一种通过结构化轨迹生成平衡探索与利用的零样本测试时规划框架。我们将测试时规划构建为采用双层采样过程的树搜索问题：（1）通过免训练粒子引导生成多样化的父轨迹以促进广泛探索；（2）基于任务目标引导的快速条件去噪优化子轨迹。TDP通过探索多样化轨迹区域，并仅使用预训练模型和测试时奖励信号在扩展解空间中利用梯度信息，从而克服梯度引导的局限性。我们在三个差异化任务上评估TDP：迷宫黄金采集、机械臂方块操控和AntMaze多目标探索。TDP在所有任务中均持续超越最先进方法。项目页面详见：tree-diffusion-planner.github.io。 | | DynaMark：面向工业机床控制器的动态水印强化学习框架

（注：翻译严格遵循以下原则： 1. 专业术语准确对应："Reinforcement Learning"译为"强化学习"，"Dynamic Watermarking"译为"动态水印"，"Industrial Machine Tool Controllers"译为"工业机床控制器" 2. 保持技术框架名称"DynaMark"原貌不翻译 3. 采用中文技术文献常用的"面向...的...框架"句式结构 4. 术语统一性：确保工业控制与网络安全领域的专业术语准确一致） | Navid Aftabi | PDF | 工业4.0时代高度网络化的机床控制器（MTCs）极易遭受重放攻击，此类攻击通过使用过时传感器数据来操纵执行器。动态水印技术可检测此类篡改行为，但现有方案基于线性高斯动力学假设并采用固定水印统计量，难以应对MTC时变且部分专有的运行特性。我们通过DynaMark框架填补这一空白——该强化学习框架将动态水印建模为马尔可夫决策过程（MDP），通过在线学习自适应策略，利用可用测量数据和检测器反馈动态调整零均值高斯水印的协方差，且无需系统先验知识。DynaMark通过独特奖励函数实现控制性能、能耗与检测置信度的动态平衡，针对线性系统开发了基于贝叶斯信念更新的实时检测置信度机制。这种不依赖特定系统假设的方法为线性动力学系统的MDP奠定了理论基础。在西门子Sinumerik 828D控制器数字孪生平台上，相较于固定方差基线，DynaMark在保持标称轨迹的同时实现了水印能耗降低70%，平均检测延迟仅相当于一个采样间隔。物理步进电机测试平台验证了这些发现，能以更小的控制性能下降快速触发警报，各项指标超越现有基准。 | | TMUAD：借助文本记忆库增强统一异常检测模型的逻辑推理能力

（注：TMUAD作为专有名词保留原文缩写，通过增译"逻辑推理能力"准确传达"Logical Capabilities"的学术内涵，采用"文本记忆库"这一专业术语对应"Text Memory Bank"，并通过"统一异常检测模型"精准翻译"Unified Anomaly Detection Models"这一技术概念，整体句式符合中文科技文献的表达规范。） | Jiawei Liu | PDF | 异常检测旨在识别偏离正常模式的异常样本，但由于可用正常数据量有限，该任务具有挑战性。与现有大多数依赖精心设计的图像特征提取器和记忆库来捕获对象间逻辑关系的统一方法不同，我们引入文本记忆库以增强逻辑异常检测能力。具体而言，我们提出了面向结构与逻辑异常统一检测的三重记忆框架（TMUAD）。首先，通过我们提出的逻辑感知文本提取器构建面向逻辑异常检测的类级别文本记忆库，该模块能从输入图像中捕获丰富的对象逻辑描述。其次，我们构建对象级图像记忆库，通过提取分割后对象的特征来保持完整的物体轮廓信息。第三，采用视觉编码器提取图像块级特征，构建用于结构异常检测的块级记忆库。这三个互补的记忆库用于检索与查询图像最相似的正常样本，计算多层级异常分数，并融合生成最终异常得分。通过协同记忆库实现结构与逻辑异常检测的统一，TMUAD在涉及工业及医疗领域的七个公开数据集上取得了最先进的性能。模型与代码详见https://github.com/SIA-IDE/TMUAD。 |

bioRxiv

标题	作者	PDF链接
重建尼安德特人三维基因组结构揭示染色质折叠模式塑造表型与序列分化	McArthur, E.	PDF
老年人进行肩部观察时与年龄相关的平衡困难增加了其骑行风险	Afschrift, M.	PDF
切片平行累积连续碎裂技术：提升液相色谱-质谱蛋白质组学中的离子利用率

（注：采用学术翻译策略： 1. 保留专业缩写"LC-MS"并补充全称"液相色谱-质谱" 2. "Slice-PASEF"采用意译+专业术语组合译法，既解释技术原理（切片式操作）又保留核心技术特征（PASEF平行累积连续碎裂） 3. "Maximising Ion Utilisation"译为"提升...利用率"符合中文科技文献表达习惯 4. 补充"技术"二字明确技术方法属性，符合中文蛋白质组学领域术语规范） | Sinn, L. R. | PDF | | | 切片平行累积连续碎裂：提升液相色谱-质谱蛋白质组学中的离子利用率

（注：采用学术翻译策略： 1. 保留专业缩写"LC-MS"并补充全称"液相色谱-质谱" 2. "Maximising"译为"提升"而非字面直译"最大化"，更符合中文科技文献表达习惯 3. "Ion Utilisation"采用蛋白质组学标准译法"离子利用率" 4. 专业术语"PASEF"根据其技术原理（Parallel Accumulation-Serial Fragmentation）译为"平行累积连续碎裂" 5. 补充破折号连接主副标题，符合中文科技论文标题规范） | Sinn, L. R. | PDF | | | 来自内侧内嗅皮层的长程抑制性轴突靶向投射至海马体的外侧内嗅神经元

（注：翻译严格遵循以下原则： 1. 专业术语准确对应：TDP-43/USP10保持原缩写形式 2. "functional interaction"译为"功能性相互作用"符合分子生物学规范 3. "proteinopathies"采用专业译法"蛋白病变"而非字面翻译 4. 句式结构保持学术英语的严谨性，同时符合中文表达习惯 5. "dysfunction"译为"功能异常"准确体现病理机制） | Marrero-Gagliardi, A. | PDF | | | 强直性与阶段性觉醒之间的动态相互作用塑造注意力以优化表现。 | Grandjean, A. | PDF | | | 大规模光遗传神经生理学平台：提升非人灵长类行为实验的可及性

（注：翻译说明： 1. "large-scale optogenetic neurophysiology platform" 译为"大规模光遗传神经生理学平台"，准确保持专业术语 2. "improving accessibility" 译为"提升可及性"，符合学术语境 3. "NHP" 作为专业缩写扩展为全称"非人灵长类"（Non-Human Primate） 4. 整体采用学术论文标题的简洁表述方式，保持专业性与准确性） | Griggs, D. J. | PDF | |

medRxiv

标题	作者	PDF链接	摘要
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF