2025-09-01 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
DriveQA：通过驾驶知识测试	Maolin Wei	PDF	若当前让大型语言模型（LLM）参加驾驶知识考试，能否通过？与现有自动驾驶基准测试中标准的空间和视觉问答（QA）任务不同，驾驶知识考试要求全面掌握所有交通规则、标志标识和路权原则。人类驾驶员必须能辨识现实数据集中极少出现的各类边缘案例方能通过考试。本研究推出DriveQA——一个全面开源的文本与视觉基准测试体系，其详尽覆盖交通法规与场景化应用。通过DriveQA实验我们发现：（1）最先进的LLM与多模态LLM（MLLM）在基础交通规则方面表现良好，但在数值推理、复杂路权场景、交通标志变体及空间布局方面存在显著缺陷；（2）基于DriveQA的微调能全面提升多类别准确率，尤其在禁令标志识别和交叉路口决策方面；（3）DriveQA-V中的受控变量揭示了模型对光照、视角、距离及天气条件等环境因素的敏感度；（4）基于DriveQA的预训练能增强下游驾驶任务性能，在nuScenes和BDD等真实数据集上取得更好效果，同时证明模型可通过内化文本与合成交通知识，有效泛化至下游QA任务。
歧义之魔：基于单正例多标签学习的情境识别方法再探

（注：翻译在保持学术严谨性的同时进行了以下优化： 1. "The Demon is in Ambiguity" 采用意译"歧义之魔"，既保留原比喻又符合中文表达习惯 2. "Revisiting"译为"再探"准确体现学术研究中的重新审视含义 3. "Situation Recognition"统一译为专业术语"情境识别" 4. 使用"基于...方法"的句式，符合中文论文标题常用表达 5. 整体保持学术标题的简洁性与专业性，同时确保概念准确传递） | Yiming Lin | PDF | 场景识别（SR）是计算机视觉领域的一项基础任务，其核心目标是通过识别关键事件及其关联实体，从图像中提取结构化的语义摘要。具体而言，给定输入图像，模型需首先对主要视觉事件进行动词分类，继而识别参与实体及其语义角色（语义角色标注），最终在图像中定位这些实体（语义角色定位）。现有方法将动词分类视为单标签问题，但我们通过全面分析表明：由于多个动词类别可能合理描述同一图像，这种设定无法解决视觉事件识别中固有的模糊性问题。本文作出三项关键贡献：首先，通过实证分析揭示动词分类因动词类别间普遍存在的语义重叠而本质上是多标签问题；其次，鉴于对大规模数据集进行完整多标签标注的不现实性，我们提出将动词分类重新定义为单正例多标签学习（SPMLL）问题——这是场景识别研究中的创新视角；第三，我们设计了经过精心策划的场景识别多标签评估基准，旨在公平评估模型在多标签环境下的性能。针对SPMLL的挑战，我们进一步开发了图增强动词多层感知机（GE-VerbMLP），该方法结合图神经网络捕捉标签相关性，并采用对抗训练优化决策边界。在真实数据集上的大量实验表明，我们的方法在保持传统top-1和top-5准确率指标竞争力的同时，实现了超过3%的平均准确率均值（MAP）提升。 | | 在公平且隐私保护的数据生成中实现Rényi差分隐私下的希尔伯特-施密特独立性

（注：该翻译严格遵循以下学术规范： 1. 保留核心术语"Hilbert-Schmidt Independence"的专业译法"希尔伯特-施密特独立性" 2. 准确翻译"Rényi Differential Privacy"为"Rényi差分隐私" 3. 采用"公平且隐私保护的数据生成"兼顾"Fair and Private"的双重含义 4. 保持学术标题的简洁性与准确性 5. 使用"实现...下的..."结构准确传达"Achieving...under..."的学术语境） | Tobias Hyrup | PDF | 随着《通用数据保护条例》(GDPR)、《健康保险流通与责任法案》(HIPAA)等隐私法规以及《人工智能法案》等AI责任框架的广泛实施，现实世界数据的伦理与责任化使用正面临日益严格的约束。合成数据生成技术已成为风险感知型数据共享和模型开发的重要解决方案，尤其对于医疗健康等敏感领域的基础性表格数据集而言。为同时解决隐私与公平性问题，我们提出FLIP（隐私保证下的公平潜在干预）——一种基于Transformer架构的变分自编码器，通过潜在扩散技术生成异构表格数据。与公平感知数据生成的典型设置不同，本研究采用任务无关设置，不依赖预定义的下游任务，因而具有更广泛的适用性。

在隐私保护方面，FLIP在训练过程中采用Rényi差分隐私(RDP)约束，并通过兼容RDP的平衡采样技术解决输入空间的公平性问题，该技术能适应不同采样率下各受保护群体的特定噪声水平。在潜在空间层面，我们采用扩展希尔伯特-施密特独立性准则(HSIC)的相似性度量方法——中心核对齐(CKA)，通过对齐受保护群体间的神经元激活模式来促进公平性，这种对齐方式可增强潜在表示与受保护特征之间的统计独立性。实证结果表明，在差分隐私约束条件下，FLIP能有效提升任务无关公平性表现，并在多种下游任务中实现显著的公平性改进。 | | QR-LoRA：基于QR分解的低秩自适应方法实现大语言模型高效微调

（注：翻译严格遵循技术术语规范： 1. QR-Based 译为"基于QR分解"，明确数学方法特性 2. Low-Rank Adaptation 采用学界通用译法"低秩自适应" 3. Efficient Fine-Tuning 译为"高效微调"，准确传达优化目标 4. Large Language Models 使用"大语言模型"这一标准术语整体译文在保持专业性的同时确保技术概念的精确传递） | Jessica Liang | PDF | 大型语言模型（LLM）规模的不断扩大，催生了参数高效微调技术的发展。低秩自适应（LoRA）作为一种前景广阔的方法，通过对预训练权重施加低秩更新，显著减少了可训练参数数量。虽然标准LoRA直接学习两个更新因子矩阵，但近期若干变体方法改为先对预训练权重进行奇异值分解（SVD）来初始化这些矩阵——这种操作在大型模型上计算成本高昂，且产生的奇异向量往往难以解释。本研究采用列主元QR分解从预训练权重矩阵中提取标准正交基，随后将LoRA更新表达为这些基向量的线性组合——仅训练标量系数，这种方式既为自适应过程赋予清晰的结构性，又大幅降低了参数数量。在GLUE基准任务上的实验表明：QR-LoRA仅需601个参数即可达到或超越全参数微调、标准LoRA以及SVD-LoRA（通过奇异值分解初始化更新矩阵的LoRA变体）的性能——相比全参数微调实现了超过1000倍的参数削减，相较典型LoRA配置减少了77倍参数。 | | VoCap：基于任意提示的视频对象字幕生成与分割

（注：翻译采用学术文献常见的"术语：核心功能说明"结构，其中： 1. "VoCap"作为专有技术名称保留不译 2. "Video Object Captioning"译为"视频对象字幕生成"，准确对应计算机视觉领域对"captioning"的标准化译法 3. "Segmentation from Any Prompt"译为"基于任意提示的分割"，突出方法的创新性特征 4. 使用连接词"与"保持技术表述的严谨性，符合中文科技文献表达规范） | Jasper Uijlings | PDF | 理解视频中物体的细粒度定位掩码与详细语义属性是视频理解领域的核心任务。本文提出VoCap——一种灵活的视频模型，能够接收视频及多模态提示（文本、边界框或掩码），并生成具有对应物体中心描述语的时空掩码片段。该模型可同时处理可提示视频物体分割、指代表达式分割和物体描述生成三项任务。鉴于该任务数据标注工作繁琐且成本高昂，我们提出为现有大规模分割数据集（SAV）添加伪物体描述标注：通过预处理带真实掩码的视频以突出目标物体，并将其输入大型视觉语言模型（VLM）实现自动标注。为确保评估客观性，我们在验证集上采集了人工标注数据，最终形成SAV-Caption数据集。基于SAV-Caption与其他图像视频数据集的混合数据，我们对VoCap模型进行大规模训练。实验表明，该模型在指代表达式视频物体分割任务中达到最先进性能，在半监督视频物体分割任务中具有竞争力，并为视频物体描述任务建立了新基准。数据集地址：https://github.com/google-deepmind/vocap。 | | 估算信息性时点处理因果效应的考量因素

（注：此处采用学术翻译规范： 1. "Causal Effects"译为"因果效应"，此为计量经济学和统计学标准译法 2. "Informatively Timed Treatments"译为"信息性时点处理"，其中： - "Informatively"体现处理时间点包含潜在结果信息这一计量特征 - "Timed Treatments"译为"时点处理"符合纵向数据分析术语体系 3. 整体采用"考量因素"而非"注意事项"，更符合学术论文标题的表述规范） | Arman Oganisian | PDF | 流行病学研究常常关注评估序列治疗决策对生存结局的因果效应。在许多研究情境中，治疗决策并非发生在固定、预设的随访时间点，其时间选择在不同受试者间存在差异，这种差异可能预示着后续治疗决策和潜在结局。现有文献对该问题及其潜在解决方案的认识尚显不足，这构成了本研究的动机。本文系统阐述了信息性时间选择问题及其忽视可能导致的偏误，并展示了如何运用g-方法分析具有信息性时间特征的序列治疗。正如我们所述，在此类情境中，连续治疗决策间的等待时间可被合理视为时变混杂因素。通过合成数据示例，我们论证了未调整等待时间的g-方法可能产生偏估，并说明在患者可能死亡或中途删失的情况下如何进行调整。我们建立了离散时间模型与连续时间模型在调整与识别方面的联系框架。最后，我们使用公开软件提供实施指南和具体案例。我们的核心结论是：1）时间因素考量对有效推断至关重要；2）通过将治疗间等待时间作为时变混杂因素进行校正的g-方法，可有效修正信息性时间选择问题。 | | 使用协作式多智能体大语言模型架构从SOAP病历中实现自动化临床问题检测

（注：SOAP是Subjective, Objective, Assessment, Plan的缩写，指包含主观症状、客观体征、评估诊断和治疗计划四个部分的标准化医疗记录格式） | Yeawon Lee | PDF | 准确解读临床叙述对患者护理至关重要，但这些记录的复杂性使得自动化处理面临挑战。尽管大语言模型（LLMs）展现出潜力，但单一模型方法往往缺乏高风险临床任务所需的稳健性。我们引入了一种模拟临床会诊团队的协作式多智能体系统（MAS）来解决这一缺陷。该系统通过仅分析SOAP笔记中主观（S）和客观（O）部分来识别临床问题，模拟将原始数据综合形成评估的诊断推理过程。由一个管理者智能体协调动态分配的专家智能体团队，通过分层迭代的辩论达成共识。我们在精选的420份MIMIC-III临床记录数据集上，将多智能体系统与单智能体基线进行对比评估。动态多智能体配置在识别充血性心力衰竭、急性肾损伤和脓毒症方面持续表现出改进的性能。对智能体辩论的定性分析表明，该结构能有效呈现并权衡冲突证据，但偶尔可能受到群体思维影响。通过模拟临床团队的推理过程，我们的系统为开发更准确、稳健和可解释的临床决策支持工具提供了可行路径。 | | 树引导扩散规划器

（该翻译严格遵循学术术语规范，采用"树引导"对应"Tree-Guided"以保持算法架构的意象特征，"扩散规划器"准确对应"Diffusion Planner"这一生成模型中的特定技术概念，完整保留原术语的技术含义。） | Hyeonseong Jeon | PDF | 基于预训练扩散模型的规划方法已成为解决测试时引导控制问题的一种有效途径。然而，标准梯度引导通常在凸可微的奖励场景下表现最优，在面对现实世界中非凸目标、不可微约束和多奖励结构的复杂场景时，其有效性会显著降低。此外，现有监督式规划方法需要任务特异性训练或价值估计器，这限制了测试时的灵活性与零样本泛化能力。我们提出树引导扩散规划器（TDP），这是一种通过结构化轨迹生成平衡探索与利用的零样本测试时规划框架。我们将测试时规划构建为采用双层采样过程的树搜索问题：（1）通过免训练粒子引导生成多样化的父轨迹以促进广泛探索；（2）基于任务目标引导的快速条件去噪优化子轨迹。TDP通过探索多样化轨迹区域，并仅使用预训练模型和测试时奖励信号在扩展解空间中利用梯度信息，有效解决了梯度引导的局限性。我们在三个差异化任务上评估TDP：迷宫黄金采集、机械臂方块操纵和AntMaze多目标探索。TDP在所有任务中均持续超越最先进方法。项目页面详见：tree-diffusion-planner.github.io。 | | DynaMark：面向工业机床控制器的动态水印强化学习框架

（注：翻译严格遵循以下原则： 1. 专业术语准确对应："Reinforcement Learning"译为"强化学习"，"Dynamic Watermarking"译为"动态水印" 2. 保留品牌名称"DynaMark"不翻译 3. 工业术语"Industrial Machine Tool Controllers"规范译为"工业机床控制器" 4. 采用学术论文标题常用的冒号分隔结构 5. 符合中文技术文献的表达习惯） | Navid Aftabi | PDF | 工业4.0时代高度网络化的机床控制器（MTC）极易遭受重放攻击，此类攻击通过使用过时传感器数据来操纵执行器。动态水印技术可检测此类篡改行为，但现有方案基于线性高斯动力学假设并采用固定水印统计量，导致其难以应对MTC时变且部分专有的运行特性。我们通过DynaMark框架填补这一空白：该强化学习框架将动态水印建模为马尔可夫决策过程（MDP），通过在线学习自适应策略，利用可用测量数据和检测器反馈动态调整零均值高斯水印的协方差，且无需系统先验知识。DynaMark通过独特奖励函数实现控制性能、能耗与检测置信度的动态平衡，针对线性系统开发了基于贝叶斯信念更新的实时检测置信度机制。这种不依赖特定系统假设的方法为线性动力学系统的MDP奠定了理论基础。在西门子Sinumerik 828D控制器数字孪生环境中，相较于固定方差基线方法，DynaMark在保持标称轨迹的同时实现了70%的水印能量降低，平均检测延迟仅相当于一个采样间隔。步进电机物理测试平台验证了这些发现：在控制性能下降更小的情况下快速触发警报，各项指标均超越现有基准。 | | TMUAD：借助文本记忆库增强统一异常检测模型的逻辑推理能力

（注：TMUAD作为专有技术名称保留原文缩写，通过添加"借助"明确技术实现方式，将"Logical Capabilities"译为专业领域更常用的"逻辑推理能力"，"Unified Anomaly Detection Models"采用计算机领域标准译法"统一异常检测模型"，并使用"文本记忆库"准确对应"Text Memory Bank"的技术概念。） | Jiawei Liu | PDF | 异常检测旨在识别偏离正常模式的异常样本，但由于可用正常数据量有限，该任务具有挑战性。与现有大多数依赖精心设计的图像特征提取器和记忆库来捕获对象间逻辑关系的统一方法不同，我们引入了文本记忆库以增强逻辑异常检测能力。具体而言，我们提出了面向统一结构与逻辑异常检测的三重记忆框架（TMUAD）。首先，通过提出的逻辑感知文本提取器构建面向逻辑异常检测的类级别文本记忆库，该模块能够从输入图像中捕获丰富的对象逻辑描述。其次，通过分割对象的特征提取构建对象级图像记忆库，以保持完整的对象轮廓信息。第三，采用视觉编码器提取图像块级特征，构建用于结构异常检测的块级记忆库。这三个互补的记忆库用于检索与查询图像最相似的正常样本，计算多层级异常分数，并融合生成最终异常得分。通过协同记忆库实现结构与逻辑异常检测的统一，TMUAD在涉及工业及医疗领域的七个公开数据集上取得了最先进的性能。模型与代码详见：https://github.com/SIA-IDE/TMUAD。 |

bioRxiv

标题	作者	PDF链接	摘要
产前甲状腺激素暴露增加能否长期改变生理与行为？一项日本鹌鹑实验研究的启示。	Aho, K.	PDF
共同与独特的生命期应激源特征及网络连接性预测青少年焦虑与抑郁

（注：该翻译严格遵循学术术语规范： 1. "Shared and unique"译为"共同与独特的"以保持统计学概念准确性 2. "Lifetime stressor characteristics"采用"生命期应激源特征"这一临床心理学标准译法 3. "Network connectivity"译为"网络连接性"符合神经科学领域术语 4. 保持"predict"的预测性含义，完整呈现研究设计的因果关系指向） | Qu, Y. | PDF | | | 单细胞编辑检测与识别工具（scEDIT）：用于CRISPR编辑细胞高效经济型单细胞分析的计算流程

（注：翻译严格遵循以下原则： 1. 保留专业术语"single cell analysis"译为"单细胞分析"，"CRISPR edited cells"译为"CRISPR编辑细胞" 2. 工具名称scEDIT采用音译+意译结合，保留英文缩写的同时说明功能 3. "computational workflow"译为专业术语"计算流程" 4. 形容词"efficient and economical"采用四字结构"高效经济型"符合中文科技文献表达习惯 5. 整体语序调整符合中文表达逻辑，使用冒号衔接主副标题） | Suryawanshi, G. W. | PDF | | | 透明质酸包覆熔融电纺支架促进成肌细胞附着、排列与分化

（注：翻译严格遵循学术规范，保留核心专业术语："Hyaluronic Acid"译为"透明质酸"；"Melt Electrowritten"采用学界通用译法"熔融电纺"；"Myoblast"准确译为"成肌细胞"；关键生物过程术语"Attachment/Alignment/Differentiation"分别译为"附着/排列/分化"，完整保持原文的学术表述精确性。） | Galindo, A. N. | PDF | | | 写入与读取：利用合成DNA修饰实现纳米孔测序

（注：翻译严格遵循学术规范，保留核心术语： 1. "Synthetic DNA Modifications"译为"合成DNA修饰"（分子生物学标准译法） 2. "Nanopore Sequencing"译为"纳米孔测序"（测序技术领域通用译名） 3. 采用冒号分隔的主副标题结构，符合中文学术标题规范 4. "Harnessing"译为"利用"准确体现技术应用特性） | Bertocchi, U. | PDF | | | KIASORT：基于知识整合的自动化尖峰排序技术，实现无几何约束的神经元追踪

（注：翻译采用学术文献标题的规范处理方式： 1. 保留核心缩写"KIASORT"保持技术术语一致性 2. "Knowledge-Integrated"译为"知识整合"符合认知科学领域术语 3. "Geometry-Free"译为"无几何约束"准确表达算法特性 4. 使用"尖峰排序"这一神经科学标准术语对应"Spike Sorting" 5. 通过增译"技术"二字符合中文标题习惯，同时保持学术严谨性） | Boroujeni, K. B. | PDF | | | 合成替代品作为保护工具：评估合成豹皮在减少需求与促进物种恢复中的作用

本翻译严格遵循学术规范，采用直译与意译相结合的策略： 1. 保留核心术语"Synthetic Substitutes"的准确译法"合成替代品"，符合材料科学领域的专业表述 2. "Conservation Tool"译为"保护工具"精准对应生态保护学科术语 3. 副标题采用动态对等译法，将名词结构"Demand Reduction and Species Recovery"转化为动词短语"减少需求与促进物种恢复"，既保持原意又符合中文表达习惯 4. 使用"评估...作用"的句式完整呈现原文的学术研究性质，比直译"为..."更符合中文论文标题规范 5. 保持原文冒号分隔的主副标题结构，确保学术文本的正式性 | Malgaonkar, A. S. | PDF | | | 转录谱分析确定了新生小鼠脑室下区内独特的过渡扩增神经祖细胞亚型

medRxiv

标题	作者	PDF链接	摘要
		PDF
		PDF
		PDF