2025-11-06 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
解耦概念胜于千言：可解释视频动作识别	Jongseo Lee	PDF	对视频动作识别模型的有效解释应当区分随时间展开的运动特征与周围空间背景。然而，基于显著性的现有方法会产生混杂的解释，导致无法明确预测究竟是依赖于运动特征还是空间背景。基于语言的方法虽能提供结构化解释，但由于运动特征的隐含性——即直觉上可理解但难以言表——往往无法准确描述运动规律。为解决这些问题，我们提出了基于解耦概念的视频动作识别可解释框架DANCE（Disentangled Action aNd Context concept-based Explainable），该框架通过三类解耦概念进行动作预测：运动动态、物体和场景。我们将运动动态概念定义为人姿态序列，利用大语言模型自动提取物体与场景概念。基于前 hoc 概念瓶颈设计，DANCE强制要求预测必须通过这些概念进行。在KTH、Penn Action、HAA500和UCF-101四个数据集上的实验表明，DANCE在保持竞争力的性能同时显著提升了解释清晰度。通过用户研究我们验证了DANCE卓越的可解释性，实验结果还表明该框架有助于模型调试、编辑和故障分析。
超越与智胜人类精英：通过自我博弈与强化学习掌握骗子扑克	Richard Dewey	PDF	长期以来，人工智能研究者始终将扑克类游戏作为研究多智能体动态交互、非完美信息场景及不确定性推理的重要测试平台。尽管近期研究在无限注德州扑克中实现了媲美顶尖人类玩家的突破，但其多玩家互动存在局限性：多数牌局会快速收敛为仅两名玩家参与的多轮叫牌。本文提出首个在简化版"骗子扑克"中达到顶尖人类水平的人工智能体Solly——该游戏以高强度多玩家博弈为特征。我们采用无模型、执行者-评判者架构的深度强化学习算法，通过自我博弈对Solly进行训练。在单挑与多人骗子扑克中，Solly在胜率（超过50%牌局获胜）与收益（赢取金额）两项指标上均达到精英人类水平。相较于具备推理能力的大语言模型，Solly在相同指标上亦表现出显著优势。该智能体不仅开发出创新叫牌策略、实现高效随机化博弈，其打法更具备抗剥削特性，即使世界级人类玩家亦难以找到有效 exploitation 策略。
非对称对话中的基础误解：基于视角主义的MapTask标注方案

该标题翻译要点解析： 1. "Grounded Misunderstandings"译为"基础误解"，体现认知语言学中"grounded"作为认知基础的含义 2. "Asymmetric Dialogue"译为"非对称对话"，准确传达对话双方信息不对等的学术概念 3. "Perspectivist"译为"视角主义"，符合哲学与语言学领域对perspectivism的标准译法 4. "Annotation Scheme"译为"标注方案"，遵循计算语言学领域的术语规范 5. 保留"MapTask"原术语不翻译，因该指代特定对话语料库实验范式 6. 整体采用"前置定语+中心词"的学术标题结构，符合中文论文标题规范 | Nan Li | PDF | 协作对话依赖于参与者逐步建立共同基础，但在非对称情境下，对话者可能自以为达成共识，实则指涉不同实体。我们为HCRC地图任务语料库（Anderson等人，1991）引入了一种视角化标注方案，该方案分别捕捉说话方与受话方对每个指称表达的基础化解读，从而能够追踪理解的形成、分歧与修复过程。通过采用方案约束的大语言模型标注流程，我们获得了1.3万个带可信度评估的标注指称表达，并系统分析了由此产生的理解状态。研究结果表明：当词汇变体统一后，完全误解现象较为罕见，但多重性差异会系统性地引发理解分歧，揭示出表面共识可能掩盖指称错位的本质。本框架既为研究基础化误解现象提供了资源库与分析视角，也为评估（视觉）大语言模型在协作对话中建模视角依存基础化能力提供了方法论支持。 | | 缩小方差：基于可验证奖励的强化学习收缩基线

（该翻译在保持专业术语准确性的基础上，采用"收缩"对应"Shrinkage"以体现统计学术语境，通过"可验证"精准传达"Verifiable"的技术内涵，同时使用"基线"对应"Baselines"符合机器学习领域表述规范。标题结构采用主副标题形式，既保留原文的学术严谨性，又符合中文标题的表述习惯。） | Guanning Zeng | PDF | 基于可验证奖励的强化学习（RLVR）已成为使用GRPO等策略梯度方法对大型推理模型进行后训练的强大范式。为稳定训练，这类方法通常通过减去每个提示的样本均值来对轨迹奖励进行中心化处理。从统计学角度看，这种中心化相当于控制变量（或基线），能有效降低策略梯度估计量的方差。

传统方法采用批次中每个提示的独立样本均值进行估计。受斯坦悖论启发，我们提出使用收缩估计量——将单提示均值与跨提示均值相结合——以提升整体单提示均值估计精度，这在RLVR常见的低生成量场景中尤为重要。理论上，我们构建的基于收缩的基线可证明能在不同算法中产生更低方差的策略梯度估计量。该基线可直接替代现有的单提示均值基线，无需额外超参数或计算开销。实验表明，收缩基线始终优于标准样本均值基线，能实现更低方差的梯度更新并提升训练稳定性。 | | 批处理非参数多臂赌博机中的适应性壁垒：未知边界的代价之精确刻画

（解析说明：该翻译严格遵循学术翻译规范，在核心术语处理上： 1. "Batched Nonparametric Bandits"译为"批处理非参数多臂赌博机"符合机器学习领域术语惯例 2. "Adaptivity Barrier"译为"适应性壁垒"准确体现算法适应性受限的核心概念 3. "Price of Unknown Margin"译为"未知边界的代价"既保持数学含义又符合中文表达习惯 4. 冒号后使用"之"连接定语，符合中文论文标题的典雅表达传统 5. "Sharp Characterization"译为"精确刻画"准确传达理论分析的严谨性） | Rong Jiang | PDF | 我们在未知边界参数$\alpha$的情况下，研究满足边界条件的批量非参数化上下文赌博机问题。为量化这种未知性带来的统计代价，我们提出悔值膨胀准则——定义为自适应算法的悔值与知晓$\alpha$的预言机算法悔值之比。我们证明最优悔值膨胀随决策步数$T$呈多项式增长，其指数精确对应于一个涉及维度、光滑性和批量预算的凸优化问题解。该优化问题的极小化解可直接用于确定速率最优算法的批量分配和探索策略。基于此原理，我们开发了RoBIN（基于自适应分箱的鲁棒批量算法），该算法在忽略对数因子情况下达到最优悔值膨胀。这些结果揭示了一个新的自适应壁垒：在批量约束下，对未知边界参数的自适应过程必然产生多项式惩罚，该惩罚可通过变分问题精确刻画。值得注意的是，当批次数超过$\log \log T$时此壁垒消失；仅需双对数级别的更新次数，即可在忽略多对数因子情况下恢复预言机悔值速率。 | | 安卓会梦见无形的操控者吗？探索大型语言模型中的阴谋论思维倾向 | Francesco Corso | PDF | 本文研究大型语言模型是否展现阴谋论倾向、在此领域是否呈现社会人口统计学偏见，以及它们被引导采纳阴谋论视角的难易程度。阴谋信念在错误信息传播和塑造对机构的不信任中起着核心作用，这使其成为评估大型语言模型社会真实性的关键测试场。虽然大型语言模型日益被用作研究人类行为的替代工具，但关于它们是否复现高阶心理建构（如阴谋思维模式）仍知之甚少。为填补这一研究空白，我们采用经过验证的阴谋思维心理测量量表，通过不同提示与条件设置策略对多个模型进行测试。研究发现：大型语言模型对阴谋信念要素表现出部分认同；基于社会人口属性的条件设置会产生不均衡效应，暴露出潜在的人口统计学偏见；此外，针对性提示可轻易使模型响应偏向阴谋论方向，这既揭示了大型语言模型易受操控的特性，也凸显了其在敏感场景中部署的潜在风险。这些结果强调，必须批判性评估大型语言模型内嵌的心理维度，既为推进计算社会科学发展，也为制定防范恶意使用的缓解策略提供依据。 | | AnaFlow：基于智能体化大语言模型的推理驱动可解释性与高样本效率模拟电路尺寸设计工作流

（注：此处"sizing"在模拟集成电路设计领域特指确定晶体管尺寸等参数的设计过程，故译为"尺寸设计"；"agentic"体现LLM的自主决策特性，译为"智能体化"；"reasoning-driven"突出推理机制的核心地位，译为"推理驱动"；"sample-efficient"强调算法对训练样本的高效利用，译为"高样本效率"以符合学术表达习惯） | Mohsen Ahmadzadeh | PDF | 模拟/混合信号电路是实现电子设备与物理世界交互的关键。然而其设计过程仍主要依赖人工操作，导致设计周期长且易出错。近年来，基于人工智能的强化学习与生成式AI虽为自动化设计提供了新技术，但大量耗时的仿真需求仍是制约整体效率的关键瓶颈。此外，生成设计方案缺乏可解释性也阻碍了相关工具的广泛应用。针对这些问题，本文提出了一种新型代理AI框架，可实现高样本效率与可解释的模拟电路尺寸设计。该框架采用多智能体工作流，基于大型语言模型的专用智能体通过协作完成以下任务：解析电路拓扑结构、理解设计目标、通过人类可理解的推理过程迭代优化电路设计参数以达成目标。自适应仿真策略构建的智能控制机制实现了高样本效率。通过两个不同复杂度的电路案例验证，AnaFlow框架可全自动完成尺寸设计任务，这与纯贝叶斯优化和强化学习方法形成鲜明对比。该系统能从优化历史中学习，规避既往错误并加速收敛。其固有的可解释性使其成为模拟设计空间探索的强大工具，开创了模拟EDA新范式——AI智能体作为透明设计助手参与全流程。 | | 行为自适应Q学习：离线至在线强化学习的统一框架 | Lipeng Zu | PDF | 离线强化学习能够通过固定数据集进行训练而无需在线交互，但由于分布偏移及对未见状态-动作对的价值估计不可靠，离线学习策略在动态环境中部署时往往表现不佳。我们提出行为自适应Q学习框架，该框架旨在实现从离线到在线强化学习的平稳可靠过渡。其核心思想是利用离线数据衍生的隐式行为模型，在在线微调期间提供行为一致性信号。该框架采用双目标损失函数：（i）在不确定性较高时将在线策略向离线行为对齐；（ii）随着积累更可靠的在线经验逐步放松此约束。这种自适应机制减少了分布外估计的误差传播，稳定了早期在线更新过程，并加快了对新场景的适应速度。在标准测试环境中，该框架持续优于现有离线-在线强化学习方法，实现了更快的性能恢复、更强的鲁棒性及更高的整体性能。我们的研究结果表明，隐式行为适配是实现现实世界策略可靠部署的原理性实用解决方案。 | | 结直肠癌组织病理学分级的多尺度联邦学习研究 | Md Ahasanul Arafath | PDF | 结直肠癌分级是关键预后判断指标，但其应用始终受限于观察者间差异与多机构数据共享的隐私限制。尽管深度学习为实现自动化提供了路径，但集中式训练模式既违背数据治理法规，又忽视了多尺度分析的诊断价值。本研究提出一种可扩展的隐私保护联邦学习框架，通过分布式训练范式整合多尺度特征学习，用于结直肠癌组织病理学分级。该方法采用双流ResNetRS50主干网络，同步捕获细粒度细胞核特征与宏观组织学背景。该架构被集成至经FedProx稳定的鲁棒联邦学习系统，以缓解多医院异构数据分布导致的客户端偏移问题。在CRC-HGD数据集上的广泛实验表明，本框架总体准确率达83.5%，优于同等集中式模型（81.6%）。尤为关键的是，系统在识别最具侵袭性的III级肿瘤时表现卓越，召回率高达87.5%——这对避免危险假阴性具有重要临床意义。随着放大倍数提升至40倍，模型准确率进一步提高至88.0%。这些结果验证了我们的联邦多尺度方法既能保护患者隐私，又可提升模型性能与泛化能力。所提出的模块化流程内置预处理、检查点与错误处理机制，为数字病理学领域可部署、隐私安全的临床人工智能奠定了重要基础。 | | OpenHands软件智能体SDK：面向生产级智能体的可组合与可扩展基础框架

（注：采用"智能体"作为"Agent"的标准技术术语译法，通过冒号结构保持原标题的学术表述特征。"Composable and Extensible"译为"可组合与可扩展"以准确传达技术特性，"Production Agents"译为"生产级智能体"体现其工业应用场景，整体采用技术文档常用的四字格结构增强专业感） | Xingyao Wang | PDF | 智能体当前已在软件开发过程中得到广泛应用，但构建可用于生产环境的软件工程智能体仍是一项复杂任务。要有效部署软件智能体，需要具备灵活的实现与实验能力、可靠安全的执行环境，以及用户与智能体交互的接口。本文提出OpenHands软件智能体SDK——一套满足这些需求的软件开发智能体实现工具包。该工具包基于广受欢迎的OpenHands软件开发智能体框架（在GitHub拥有超过6.4万星标）进行了完整的架构重构。为实现灵活性，我们设计了简洁的智能体实现接口：默认情况下仅需数行代码即可完成部署，同时可轻松扩展至支持自定义工具、内存管理等复杂功能的完整版智能体。在安全可靠性方面，该工具包提供无缝的本地-远程执行移植能力，集成REST/WebSocket服务。针对人机交互需求，可直接连接多种交互界面，包括可视化工作环境（VS Code、VNC、浏览器）、命令行接口及API。相较于OpenAI、Claude和谷歌的现有SDK，OpenHands独特地整合了原生沙箱执行、生命周期控制、模型无关的多LLM路由及内置安全分析功能。在SWE-Bench Verified和GAIA基准测试中的实证结果表明其具有卓越性能。这些特性共同使OpenHands软件智能体SDK能够为原型设计提供实用基础，解锁新型定制化应用场景，并实现大规模可靠部署。 |

bioRxiv

标题	作者	PDF链接
基于视听序列预测的振荡多时间尺度机制	Wang, P.	PDF
在基于价值的决策过程中，误设模型会呈现出适应性控制的表象。	Ritz, H.	PDF
深度学习驱动的灵长类视觉区域V4单细胞调谐特性研究支持拓扑结构组织

该翻译采用以下学术规范处理： 1. 专业术语对应： - "Deep learning-driven" 译为"深度学习驱动的"以保持方法论表述 - "single cell tuning" 译为"单细胞调谐特性"符合神经科学规范 - "primate visual area V4" 译为"灵长类视觉区域V4"保留专业命名 - "topological organization" 译为"拓扑结构组织"采用数学概念标准译法

句式结构优化：将英文名词短语转换为中文研究陈述句式，通过"研究支持"的动词结构增强学术表述的完整性，同时保持"特性研究"与"组织验证"的逻辑关联。
领域适配：采用视觉神经科学领域标准表述方式，确保术语准确性与行业惯例一致，同时通过"驱动""支持"等动词保持动态研究过程的表述精度。 | Willeke, K. F. | PDF | | | iPSC衍生神经元中的CRISPR筛选揭示tau蛋白稳态调控机制

（解析说明： 1. DORSSAA作为专有名词保留原文缩写 2. Drug-target interactOmics采用"药物-靶点相互作用组学"的译法，既保留"interactOmics"的组学含义，又符合中文表达习惯 3. Stability/Solubility Alteration Assay译为"稳定性/溶解度变化检测"，准确传达该方法学核心是通过监测蛋白稳定性与溶解度的变化来探测相互作用 4. Resource译为"资源库"体现其数据库属性 5. 整体采用学术翻译常用的"简称：全称解释"结构，符合中文科技文献命名规范） | Zangene, E. | PDF | | | 用于心脏起搏的热遗传学技术 | Balatskiy, A. V. | PDF | | | 在过量表达多药外排泵的鲍曼不动杆菌中，必需外膜功能的丧失会导致药物超敏性

（解析说明： 1. "overexpressing multidrug efflux pumps"译为"过量表达多药外排泵"准确传达了基因过度表达的生物学概念 2. "essential outer membrane functions"采用"必需外膜功能"的译法，既保留专业术语又符合中文表达习惯 3. "drug hypersensitization"译为"药物超敏性"准确对应微生物学中的表型概念 4. 通过"在...中"的句式将长定语合理拆分，使中文表达更符合学术文献的语序规范 5. 整体采用主动语态翻译，更符合中文科技论文的表述惯例） | Hamami, E. | PDF | | | 真核生物鞭毛摆动模式转换受弹性流体动力学机制调控 | Veeraragavan, S. | PDF | |

medRxiv

标题	作者	PDF链接	摘要
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF