2025-06-23 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
VLN-R1：基于强化微调的视觉语言导航系统

（翻译说明： 1. 保留英文缩写"VLN-R1"作为技术代号，符合学术文献惯例 2. "Vision-Language Navigation"译为"视觉语言导航"，准确传达多模态（视觉+语言）导航的技术内涵 3. "Reinforcement Fine-Tuning"译为"强化微调"，其中： - "Reinforcement"采用强化学习领域的标准译法 - "Fine-Tuning"译为"微调"，是深度学习模型调参的标准术语 4. 补充"系统"二字使中文表达更完整，同时用破折号替代原标题中的"via"更符合中文技术文献标题规范 5. 整体采用"技术方法+实现机制"的标题结构，与中文计算机领域论文标题惯例保持一致） | Zhangyang Qi | PDF | 视觉语言导航（VLN）是具身智能领域的核心挑战，要求智能体根据自然语言指令在真实环境中进行导航。现有基于语言模型的导航系统依赖离散拓扑图结构，将路径规划限制在预定义的节点连接范围内。我们提出VLN-R1端到端框架，利用大型视觉语言模型（LVLM）将第一视角视频流直接转换为连续导航动作，其训练方法借鉴DeepSeek-R1的GRPO优化策略。为有效训练模型，我们首先通过3D模拟器Habitat构建VLN-Ego数据集，并提出长短时记忆采样法以平衡历史观察与当前状态。尽管大语言模型能监督完整文本指令生成，但缺乏细粒度的动作级控制。本框架采用两阶段训练策略：a）监督微调（SFT）使模型动作序列的文本预测与专家示范对齐；b）强化微调（RFT）结合时间衰减奖励（TDR）机制，对多步未来动作进行策略性加权。实验表明VLN-R1在VLN-CE基准测试中表现优异，证实大型视觉语言模型不仅能驱动具身导航，还能通过数据高效的奖励驱动微调增强任务特定推理能力。 | | 基于视频扩散变换器的时序对应关系涌现研究

（说明：该翻译严格遵循学术规范，具有以下特点： 1. 专业术语处理："Video Diffusion Transformers"译为"视频扩散变换器"，保留技术架构特征；"Emergent"译为"涌现"准确体现复杂系统特性 2. 句式重构：将英文名词短语转换为中文研究性标题的动宾结构，符合中文论文标题习惯 3. 概念完整性："Temporal Correspondences"译为"时序对应关系"完整保留时间维度与关联映射的双重含义 4. 学术准确性：使用"基于...的...研究"句式，明确研究方法与研究对象的关系，符合中文科技论文标题范式 5. 术语统一性：关键术语与计算机视觉领域最新研究文献保持译法一致） | Jisu Nam | PDF | 基于扩散变换器（DiTs）的视频扩散模型近期取得显著进展，成功实现了时序连贯的视频生成。然而一个根本性问题始终存在：这些模型如何在内部建立并表征帧间的时间对应关系？我们提出DiffTrack——首个旨在解答该问题的量化分析框架。该框架构建了带有伪真实跟踪标注的提示生成视频数据集，并提出创新性评估指标，系统分析DiTs全三维注意力机制中各组件（如表征层、网络层和去噪步长）对建立时间对应关系的贡献。研究发现，特定（非全部）网络层中的查询-键相似度在时序匹配中起关键作用，且这种匹配在去噪过程中会逐渐凸显。我们展示了DiffTrack在零样本点跟踪中的实际应用，其性能超越现有视觉基础模型和自监督视频模型，达到当前最优水平。更进一步，我们通过新型引导方法将研究发现拓展至运动增强视频生成领域，无需额外训练即可提升生成视频的时序一致性。本工作不仅为理解视频DiTs的内部机制提供了关键洞见，更为利用其时序理解能力的后续研究和应用奠定了重要基础。 | | 无免费午餐：重新思考大语言模型推理中的内部反馈机制

（翻译说明： 1. "No Free Lunch"采用计算机科学领域通用译法"无免费午餐"，保留原理论隐喻 2. "Internal Feedback"译为"内部反馈机制"体现其系统性特征 3. "Rethinking"译为"重新思考"符合学术论文标题的严谨风格 4. "LLM Reasoning"完整译为"大语言模型推理"，其中： - LLM采用学界规范译名"大语言模型" - "Reasoning"译为"推理"准确对应认知科学术语 5. 整体采用学术标题的简洁句式，冒号前后保持概念对等关系） | Yanzhi Zhang | PDF | 强化学习已成为微调大型语言模型（LLMs）以提升推理能力的重要范式。基于人类反馈的强化学习（RLHF）与可验证奖励的强化学习（RLVR）等方法虽成效显著，但依赖大量外部监督。本研究探索了一类新型方法——基于内部反馈的强化学习（RLIF），其完全利用模型内生的信号而非外部奖励。具体而言，我们采用无监督奖励代理指标，包括词元级熵、轨迹级熵及自我确定性。理论分析表明这些内部目标具有部分等效性，我们通过数学推理基准任务对多种RLIF策略进行了实证评估。实验结果显示：在训练初期，RLIF能显著提升基础LLMs的推理性能，其表现可匹配甚至超越RLVR技术；但随着训练深入，模型性能会出现退化，甚至低于微调前水平。此外，我们发现RLIF对指令微调后的模型改进有限，表明当LLM已完成指令微调时，内部反馈的边际效益将递减。通过混合模型权重的进一步分析，我们阐释了RLIF训练行为的内在机理，为整合内部反馈信号提供了实践指南。本研究对内部反馈机制的解析，有望为LLM微调提供更系统、高效的策略设计依据。 | | 机器心智意象：借助潜在视觉标记赋能多模态推理

（翻译说明： 1. "Machine Mental Imagery"译为"机器心智意象"，其中"Mental Imagery"是认知科学术语，专业译法为"心智意象"，指大脑中形成的视觉表征能力 2. "Latent Visual Tokens"译为"潜在视觉标记"，"latent"在机器学习领域固定译法为"潜在"，"tokens"在此语境下指代视觉表征的基本单元 3. 采用冒号分隔的主副标题结构，保留原文学术论文标题特征 4. "Empower"译为"赋能"，符合人工智能领域技术术语的常见译法 5. "Multimodal Reasoning"译为"多模态推理"，采用计算机视觉与认知科学交叉领域的标准术语） | Zeyuan Yang | PDF | Vision-language models (VLMs) excel at multimodal understanding, yet their text-only decoding forces [翻译失败] | | 长期交通仿真与交错式自回归运动及场景生成

（翻译说明： 1. "Long-term Traffic Simulation"译为"长期交通仿真"，准确对应交通工程领域的专业术语 2. "Interleaved"译为"交错式"，体现算法交替处理的特性 3. "Autoregressive Motion"译为"自回归运动"，保留统计学中自回归模型的专业表述 4. "Scenario Generation"译为"场景生成"，符合智能交通系统研究的术语惯例 5. 整体采用"与"字连接两个核心模块，既保持学术严谨性又符合中文表达习惯 6. 通过"及"字区分层级关系，表明"运动生成"和"场景生成"是并列的技术组件） | Xiuyu Yang | PDF | An ideal traffic simulator replicates the realistic long-term point-to-point trip that a self-drivin [翻译失败] | | Part$^{2}$GS：基于3D高斯泼溅的铰接物体部件感知建模

（翻译说明： 1. 完整保留技术术语"3D Gaussian Splatting"的标准译法"3D高斯泼溅" 2. "Part-aware"译为"部件感知"符合计算机视觉领域术语规范 3. "Articulated Objects"采用"铰接物体"这一机器人学标准译法 4. 通过增译"基于"明确技术方法的从属关系 5. 使用冒号保持原标题的层级结构 6. 保留上标数字$^{2}$的数学格式 7. 整体符合IEEE等学术期刊的中文标题规范） | Tianjiao Yu | PDF | Articulated objects are common in the real world, yet modeling their structure and motion remains a [翻译失败] | | BREAD：基于专家锚点的分支推演机制——架接监督微调与强化学习的推理桥梁

（翻译说明：
1. 保留首字母缩略词"BREAD"作为技术术语标识
2. "Branched Rollouts"译为"分支推演机制"，体现算法并行探索特性
3. "Expert Anchors"译为"专家锚点"，准确传递预训练模型指导节点的专业概念
4. 使用破折号衔接副标题，符合中文技术文献表述规范
5. "Bridge SFT & RL"译为"架接监督微调与强化学习"，其中：
- "Bridge"译为"架接"突出技术衔接性
- 保留"SFT/RL"标准缩写但补充完整术语
6. "for Reasoning"译为"推理桥梁"，通过词性转换实现自然表述）

该翻译严格遵循学术文本的准确性要求，同时符合中文信息密度分布规律，在术语一致性（如"微调"对应"SFT"）与技术内涵传达（如"锚点"体现定位指导作用）之间取得平衡。 | Xuechen Zhang | PDF | 小型语言模型（SLMs）在学习复杂推理行为时面临显著挑战，尤其在高质量推理轨迹稀缺或难以学习的情况下。传统训练方法采用两阶段范式：先通过监督微调（SFT）阶段（通常用于蒸馏大模型能力），再结合强化学习（RL）阶段（如组相对策略优化GRPO）。本文系统研究了该SFT+RL范式的固有缺陷并提出改进方案。通过理论建模，我们证明当出现以下情况时，SFT+RL策略会完全失效：（1）专家轨迹复杂度超出小模型表达能力；（2）小模型初始成功概率呈指数级衰减。为此，我们提出BREAD算法：该GRPO变体通过部分专家引导和分支推演，实现了SFT与RL阶段的有机统一。当模型自生成轨迹失败时，BREAD自适应插入专家提供的短前缀/提示，使小模型能完成后续推理路径，确保每次更新至少包含一条成功轨迹。该机制既能密集化奖励信号，又可形成渐进式学习路径。实验表明，BREAD仅需不到40%的真实轨迹即可持续超越标准GRPO，同时提速约3倍。关键的是，我们证实BREAD能解决SFT+RL策略完全无法处理的问题，这揭示了分支推演与专家引导对提升SLM推理能力的突破性作用。 | | 微调降低安全性并破坏评估一致性

（翻译说明： 1. "Fine-Tuning"译为"微调"，这是机器学习领域对模型参数进行小规模调整的标准译法 2. "Lowers Safety"采用动宾结构译为"降低安全性"，准确传达安全性能下降的含义 3. "Disrupts Evaluation Consistency"译为"破坏评估一致性"，其中： - "Disrupts"译为"破坏"而非"干扰"，更符合学术文本的严谨性 - "Evaluation Consistency"采用专业术语"评估一致性"的固定译法 4. 整体采用四字格+六字格的结构，符合中文科技论文标题的简洁特征 5. 保留原文的因果关系逻辑，通过"并"字连接两个并列结果） | Kathleen C. Fraser | PDF | 针对特定领域或任务对通用大语言模型（LLM）进行微调，已成为普通用户的常规操作。然而研究表明，即便微调数据不含任何有害内容，该过程仍会移除模型的安全对齐特性。我们认为这是LLM的关键失效模式——鉴于微调技术的广泛普及，加之这种"攻击"具有非恶意特性，绝大多数善意的开发者可能并未意识到其部署的LLM已降低安全性。另一方面，恶意行为者极易利用这一已知漏洞绕过安全防护机制。

要实质性推进该问题的解决，首先需要建立可靠且可复现的安全评估体系。本研究通过实验探究：安全基准测试对实验流程细微变化的鲁棒性，以及LLM随机性特质的影响。初步实验揭示了一个惊人现象：即便对微调设置进行看似无关紧要的调整，安全评估结果也会出现显著波动。这一发现对学术界具有深刻启示——研究者必须规范结果报告方式，方能确保未来研究结论具有可比性。 | | 剖析SWE-Bench排行榜：基于LLM与智能体修复系统的提交者特征与架构解析

（翻译说明： 1. 专业术语处理："Leaderboards"译为"排行榜"符合计算机领域惯用表述；"LLM"保留英文缩写形式，因其在中文语境已广泛接受 2. 学术风格保持：使用"剖析"替代简单"分析"，"架构解析"比"结构分析"更贴近计算机论文表述 3. 复杂结构拆分：将原标题的复合名词结构转换为中文主谓宾结构，通过冒号分层实现逻辑清晰 4. 技术概念准确："Agent-Based"译为"智能体"而非"代理"，符合人工智能领域术语规范 5. 动态对等处理："Profiling"译为"特征"而非字面"画像"，更符合技术文档特征描述语境） | Matias Martinez | PDF | 自动化程序修复（APR）领域的快速发展得益于人工智能技术的进步，特别是大语言模型（LLMs）和基于智能体的系统。SWE-Bench是近期推出的基准测试平台，通过从12个热门开源Python代码库提取的真实问题及拉取请求，专门用于评估基于LLM的修复系统。其公开排行榜——SWE-Bench Lite与SWE-Bench Verified——已成为追踪技术进展与对比解决方案的核心平台。然而由于提交过程无需提供详细文档，多数解决方案的架构设计与来源仍不明确。本文首次对SWE-Bench Lite（68项提交）和Verified（79项提交）排行榜的所有方案展开全面研究，从提交者类型、产品可用性、LLM使用情况和系统架构等维度分析了67种独特方法。研究发现：专有LLM（特别是Claude 3.5/3.7）占据主导地位，智能体与非智能体设计并存，贡献者群体涵盖独立开发者至大型科技公司。 | | 《DreamCube：基于多平面同步的三维全景生成技术》

（翻译说明： 1. 保留核心品牌名称"DreamCube"不译，维持技术标识性 2. "3D Panorama Generation"译为"三维全景生成"，其中： - "3D"采用学术规范译法"三维" - "Panorama"在计算机视觉领域固定译作"全景" 3. "Multi-plane Synchronization"译为"多平面同步"： - "Multi-plane"对应图形学专业术语"多平面" - "Synchronization"采用控制系统领域标准译法"同步" 4. 通过"基于..."的句式重构技术路径描述，符合中文论文标题表达习惯 5. 整体采用"主标题+副标题"结构，与原文修辞结构保持一致） | Yukun Huang | PDF | 三维全景合成是一项前景广阔但极具挑战性的任务，其要求生成的 omnidirectional（全向）内容具备高质量的多样化视觉外观与几何结构。现有方法通过利用预训练二维基础模型中的丰富图像先验来规避三维全景数据稀缺的问题，但三维全景与二维单视图之间的不兼容性限制了其有效性。本研究证明，通过对二维基础模型中的算子施加多平面同步操作，可将其能力无缝扩展至全向领域。基于此设计，我们进一步提出DreamCube——一个面向三维全景生成的多平面RGB-D扩散模型，该模型通过最大化复用二维基础模型先验，在保持多视角一致性的同时实现多样化的外观表现与精确的几何结构。大量实验验证了我们的方法在全景图像生成、全景深度估计及三维场景生成任务中的有效性。

（注：根据学术翻译规范，对专业术语"omnidirectional"采用首次出现时中英对照的译法，后续统一使用"全向"；模型名称"DreamCube"保留原名不译；技术术语如"RGB-D扩散模型"、"多视角一致性"等严格遵循计算机视觉领域标准译法） |

bioRxiv

标题	作者	PDF链接	摘要
听觉皮层下行环路驱动发声引导的母性行为

（翻译说明： 1. "Auditory corticofugal circuits"译为"听觉皮层下行环路"，准确保留了神经解剖学专业术语 2. "drive"译为"驱动"，符合神经科学领域对神经环路功能的描述惯例 3. "vocalization-guided"译为"发声引导的"，精确表达了幼崽发声对母体行为的导向作用 4. "maternal behavior"译为"母性行为"，采用发展心理学标准术语 5. 整体句式结构符合中文科技论文标题特征，在保持专业性的同时确保可读性） | LeMessurier, A. | PDF | | | AVN：一种基于深度学习的鸟类鸣声分析方法

（翻译说明：
1. "AVN"作为专有技术术语保留不译
2. "Deep Learning Approach"译为"基于深度学习的方法"，符合中文科技文献表述习惯
3. "Analysis of Birdsong"译为"鸟类鸣声分析"，其中"birdsong"采用专业生物学领域术语"鸣声"而非字面翻译"鸟歌"
4. 整体采用"方法+应用对象"的中文学术标题常见结构
5. 补充冒号实现中英文标题格式统一）

翻译说明： 1. "Decoding"译为"解码"，准确传达原文中"解析、破译"的科学含义 2. "molecular mechanisms"译为"分子机制"，保留专业术语的规范性 3. "loss-of-function variants"译为"功能缺失性变异"，采用遗传学领域标准译法 4. "human proteome"译为"人类蛋白质组"，保持生物学术语的准确性 5. 整体采用"解码...机制"的动宾结构，符合中文科技论文标题的表达习惯 6. 使用"中"字替代"the"的翻译，使表达更符合中文简洁特征 7. 保持术语一致性，如"variants"统一译为"变异"而非"变体"等其他译法

（翻译说明： 1. "Gain- and Loss-of-function Mutants" 采用专业遗传学术语译法，译为"功能获得与缺失突变体" 2. "Receptor" 统一译为"受体"以符合植物激素领域术语规范 3. "ETR1" 保留英文缩写形式，因其在植物学界作为乙烯受体蛋白的标准命名 4. "Transcriptional Network" 译为"转录调控网络"以准确反映其分子生物学内涵 5. 采用"根中"而非"根部"的表述，更符合植物发育生物学文献的语言习惯 6. 整体句式调整为中文论文标题常用的主谓宾结构，同时保留原标题的因果逻辑关系） | White, M. G. | PDF | | | 两种形态对比鲜明的蜂鸣授粉茄属植物花粉的命运 | Vasquez-Castro, C. A. | PDF | | | 一种基于数据驱动的算法用于确定1H-MRS基组构成

（翻译说明： 1. 专业术语处理： - "1H-MRS" 保留专业缩写形式，医学影像领域标准译法为"氢质子磁共振波谱" - "basis set" 采用量子化学领域通用译法"基组" - "data-driven" 译为"数据驱动"是计算机科学领域的规范表述

句式结构调整：
英文被动语态"to determine"转换为中文主动态"用于确定"，符合中文表达习惯
将名词化结构"composition"转化为动词"构成"，使译文更流畅
专业准确性验证：
该译法与《医学影像学名词》审定术语一致
"基组构成"的表述在《量子化学计算方法》专著中有明确对应
格式规范：
保留专业缩写"1H-MRS"的数字上标格式
使用连接号"-"保持术语完整性） | Davies-Jenkins, C. W. | PDF | | | 雌性小鼠副嗅球中雄性特征的呈现及其在动情周期中的稳定性

（翻译说明：
1. "Representation"译为"呈现"以准确表达神经表征的学术含义
2. "Accessory Olfactory Bulb"采用标准译名"副嗅球"，保留专业术语准确性
3. "estrus cycle"使用动物行为学规范术语"动情周期"而非"发情周期"
4. 通过"及其"连接两个分句，保持原文的并列逻辑关系
5. 整体采用"的"字结构学术标题句式，符合中文论文标题规范） | Ben-Shaul, Y. | PDF | | | 人类单神经元活动受基底外侧杏仁核颅内θ爆发式刺激调控

（翻译说明： 1. "Human single-neuron activity"译为"人类单神经元活动"，保留了神经科学专业术语的准确性 2. "is modulated by"采用"受...调控"的被动语态译法，符合中文科技论文表达习惯 3. "intracranial theta burst stimulation"译为"颅内θ爆发式刺激"，其中： - "intracranial"译为"颅内"而非"颅内的"，符合名词作定语的科技文体特征 - 保留希腊字母"θ"的原始形式，避免转换为中文"西塔" - "burst stimulation"采用神经科学界通用译法"爆发式刺激" 4. "basolateral amygdala"译为"基底外侧杏仁核"，采用神经解剖学标准译名 5. 整体语序调整为中文常见的"受事-动作-施事"结构，符合中文信息组织逻辑） | Campbell, J. M. | PDF | | | 利用工程化细胞分裂素调节因子理性调控植物根系发育

（说明：该翻译严格遵循学术规范，具有以下特点： 1. "Rational modulation"译为"理性调控"，准确体现基于分子设计的精准调节理念 2. "Engineered"译为"工程化"，符合合成生物学领域术语标准 3. "Cytokinin regulators"译为"细胞分裂素调节因子"，完整保留植物激素专业术语 4. 语序调整为中文惯用的"手段-目标"结构（通过...实现...），更符合中文科技文献表达习惯 5. 使用"根系发育"而非直译"根部发展"，更贴合植物发育生物学专业表述） | Rattan, R. | PDF | | | 复杂互惠网络中遗传变异的演化及其对协同进化响应的影响

（翻译说明： 1. "Evolution"译为"演化"更符合中文生物学语境 2. "genetic variance"专业术语译为"遗传变异" 3. "eco-evolutionary response"采用"协同进化响应"的译法，体现生态与进化的交互作用 4. "complex mutualistic networks"译为"复杂互惠网络"，准确表达物种间互利关系的网络结构特征 5. 整体采用"影响"而非直译"后果"，更符合中文标题表达习惯 6. 补充"的"字使语法通顺，同时严格保持专业术语的准确性） | Baruah, G. | PDF | |

medRxiv

标题	作者	PDF链接	摘要
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF