arxiv 2025-09-30

标题	作者	PDF链接	摘要
UniAPL：一种统一的对抗性偏好学习框架，用于指令跟随任务	FaQiang Qian	PDF	将强大语言模型塑造得有益且安全是人工智能对齐的核心任务。我们认为训练后对齐本质上是一个统一的偏好学习问题，包含两种模态：示范性偏好（如监督微调SFT）和比较性偏好（如强化学习RL）。传统的串行流程——先SFT后RL——存在根本缺陷：SFT使用静态专家数据，而随着策略演进，其生成分布会发生漂移，导致SFT知识变得脆弱。后续的RL在探索过程中无法直接获取专家示范中丰富的真实知识，从而产生低效且缺乏依据的更新。这种割裂阻碍了不同数据源之间的相互正则化。

为解决这一问题，我们将对齐重新定义为约束优化问题，提出统一对抗偏好学习框架UniAPL。该创新框架能动态对齐策略分布与专家分布，通过单阶段统一训练目标，从SFT数据和偏好数据混合批次中进行联合学习。在每个梯度步中，密集的专家示范直接为在线探索提供基础约束，从根本上解决分布失配问题并实现数据协同最大化。

基于Qwen3-235B-Instruct-2507作为教师模型在指令跟随任务上的实验表明：UniAPL达到或超越了强GRPO基线——Qwen3-0.6B提升5.77%（达到32B模型水平），Qwen3-4B提升3.75%，甚至优于教师模型。对响应长度和对数概率分布的分析证实，UniAPL的输出能精准模拟专家示范，在实现更强性能的同时达成更优的行为对齐。 | | 快速特征场（$\text{F}^3$）：事件预测性表征 | Richeek Das | PDF | 本文提出了一种数学论证及算法体系，用于构建基于事件相机的数据表征方法，我们称之为快速特征场（$\text{F}^3$）。该表征通过从历史事件预测未来事件进行学习，研究表明其能有效保留场景结构与运动信息。$\text{F}^3$充分利用事件数据的稀疏特性，对噪声和事件率变化具有强鲁棒性。通过融合多分辨率哈希编码与深度集合理论，本方法可实现高效计算——在HD分辨率下达到120Hz处理速度，VGA分辨率下可达440Hz。该技术将连续时空维度内的事件流表征为多通道图像，为下游任务提供通用接口。我们在三个机器人平台（自动驾驶汽车、四足机器人、飞行平台）采集的数据集上，跨越不同光照条件（日间/夜间）、环境场景（室内/室外/城市/越野）及动态视觉传感器（多种分辨率与事件率），实现了光流估计、语义分割和单目度量深度估计的最优性能。我们的实现方案在HD分辨率下能以25-75Hz频率实时完成上述任务预测。 | | 教师配对：将非配对数据转化为高保真配对以支持低资源文本生成 | Yen-Ju Lu | PDF | 我们提出“教师配对法”（PbT），这是一种两阶段的师生学习框架，无需人工标注或平行数据即可生成精确的输入-输出配对。在众多低资源自然语言生成场景中，研究者往往仅掌握原始输出（如要点摘要、内容概览或问题）或原始输入（如文章、对话或段落），但极少同时拥有两者。这种数据失配迫使轻量级模型只能从少量样本中学习，或依赖大型语言模型生成的高成本、宽领域合成样本。PbT通过以下方式解决该问题：首先让教师大语言模型将每个未配对样本压缩为简洁的中间表示，随后训练学生模型从中间表示重构输入。该方法使学生模型生成的输入能与输出形成配对，从而产生高质量的合成数据。我们在五大基准测试上评估PbT性能——文档摘要（XSum、CNNDM）、对话摘要（SAMSum、DialogSum）和问题生成（SQuAD），同时针对SwitchBoard数据集（与DialogSum摘要配对）进行非配对场景测试。实验表明：仅使用PbT数据训练的80亿参数学生模型，其表现优于基于700亿参数教师生成语料训练的模型及其他无监督基线方法，与人工标注配对的ROUGE-L分数差距仅1.2分，以直接合成三分之一的人工标注成本实现了82%的理论性能差距填补。在SwitchBoard上的人工评估进一步证实，唯有PbT能生成符合目标风格的简洁忠实摘要，这凸显了其通过生成领域内源文本来规避数据失配问题的独特优势，而直接合成方法则受限于此缺陷。 | | TemMed-Bench：评估视觉语言模型中的时序医学图像推理能力

（注：该翻译采用学术标准译法，其中： 1. "TemMed"保留专业缩写形式未作拆分翻译 2. "Bench"译为"基准测试"符合计算机领域术语规范 3. "Temporal Medical Image"译为"时序医学图像"准确体现时间序列特性 4. "Reasoning"译为"推理能力"契合人工智能领域术语体系 5. 整体采用"平台名称：功能描述"的学术标题结构） | Junyi Zhang | PDF | 现有面向视觉语言模型的医学推理基准主要聚焦于基于单次就诊图像分析患者状况。然而这种设定与真实临床实践存在显著差异——医生通常需要参考患者历史病情，通过追踪其随时间的变化来提供全面评估。本文提出TemMed-Bench，这是首个专为分析不同临床就诊期间患者病情变化而设计的基准测试，旨在推动大型视觉语言模型对时序医学图像进行推理。该基准包含由视觉问答、报告生成和图像对选择三项任务构成的测试集，以及超过17,000条实例的补充知识库。基于TemMed-Bench，我们对6个专有模型和6个开源LVLM进行了评估。结果表明：大多数LVLM缺乏分析时序医学图像中患者病情变化的能力，在闭卷测试环境下近半数模型仅达到随机猜测水平；相较而言，GPT-4o、o1-mini和Claude 3.5 Sonnet虽未达理想标准但展现出相对较好的性能。此外，我们探索了在医疗领域同时引入视觉与文本模态的检索增强方法。实验证明，在多教模型上，多模态检索增强相比无检索和纯文本检索能带来更显著的性能提升，其中视觉问答任务平均改进率达2.59%。本研究构建了基于真实临床实践的基准测试体系，既揭示了LVLM在时序医学图像推理方面的局限性，也指明了多模态检索增强作为解决这一挑战的潜在探索方向。 | | 视觉序列处理缺陷解释了人类与视觉语言模型在推理上的差异 | Nicholas Budny | PDF | 尽管视觉语言模型（VLM）在标准测试集上表现优异，为何在看似简单的视觉推理任务中却难以达到人类水平？虽然其底层计算原理仍存争议，我们提出关键假设：视觉基础序列处理能力的缺失是重要原因。为验证该假设，我们通过几何推理、感知计数和心理旋转三大领域设计实验，系统比较人类与VLM在不同序列处理需求任务中的表现。各领域任务通过调控几何概念复杂度、感知辨识负荷及变换难度等变量，构建了梯度化的序列处理负荷。所有实验均呈现一致规律：VLM准确率下降与人类反应时间延长（作为序列处理负荷的代理指标）呈强相关。当任务需要更高强度的序列处理——无论是概念组合、项目枚举还是心理变换——VLM与人类的表现差距均持续扩大。这些发现证实了我们的假设，表明基于视觉的序列推理能力缺陷，构成了当前VLM与人类智能之间的根本性分水岭。 | | 推理银行：通过推理记忆实现智能体自我演化的规模化扩展

该翻译要点解析： 1. "ReasoningBank"译为"推理银行" - 采用意译方式，将"Bank"译为"银行"以体现其作为知识存储和调用的核心功能 2. "Scaling Agent Self-Evolving"译为"实现智能体自我演化的规模化扩展" - 准确传达原文中关于规模化和自主演进的双重含义 3. "Reasoning Memory"译为"推理记忆" - 保持专业术语的准确性，体现其作为支持推理过程的记忆机制特性 4. 整体采用学术论文标题的经典译法，既保持专业严谨性又符合中文表达习惯 | Siru Ouyang | PDF | 随着大型语言模型智能体在现实世界持久化角色中的广泛应用，它们不可避免地需要处理连续任务流。然而当前系统存在关键局限：无法从累积的交互历史中学习，导致宝贵经验被丢弃并重复犯错。我们提出ReasoningBank——一种新型记忆框架，能够从智能体自我判定的成功与失败经验中提炼可泛化的推理策略。在测试阶段，智能体从ReasoningBank检索相关记忆以指导交互，并将新获知识整合回系统，从而实现持续能力进化。

基于这一强大的经验学习器，我们进一步提出记忆感知的测试时扩展（MaTTS），通过扩展智能体的交互体验来加速和多样化学习进程。通过为每个任务分配更多计算资源，智能体可生成丰富多元的经验，为合成高质量记忆提供强对比信号。优化的记忆反过来指导更有效的扩展，形成记忆机制与测试时扩展的协同增强。在网络浏览和软件工程基准测试中，ReasoningBank始终优于存储原始轨迹或仅保存成功任务流程的现有记忆机制，在效能与效率上均实现提升；MaTTS则进一步放大这些优势。这些发现确立了记忆驱动经验扩展作为新的扩展维度，使智能体能够通过自然涌现的行为实现自我进化。 | | 基于大语言模型类比文本描述的视觉与语言导航 | Yue Zhang | PDF | 将大型语言模型（LLM）集成到具身人工智能模型中的做法正日益普及。然而，现有基于LLM的零样本视觉与语言导航（VLN）智能体要么将图像编码为文本场景描述（可能过度简化视觉细节），要么直接处理原始图像输入（难以捕捉高层推理所需的抽象语义）。本文通过引入多视角文本描述来促进图像间的类比推理，从而提升导航智能体的情境理解能力。借助基于文本的类比推理机制，智能体能够强化全局场景理解与空间推理能力，进而做出更精准的行动决策。我们在R2R数据集上评估了该方法，实验结果表明导航性能获得显著提升。 | | 探究多语言已核查声明检测中的语言与检索偏见 | Ivan Vykopal | PDF | 多语言大语言模型为跨语言事实核查提供了强大能力，但这些模型常表现出语言偏见——在高资源语言（如英语）上的表现显著优于低资源语言。我们同时提出并审视了一个新概念：检索偏见，即信息检索系统倾向于优先呈现特定信息，导致检索过程产生偏差。本文基于历史核查声明检测任务框架，系统研究了语言偏见与检索偏见。我们采用全多语言提示策略，利用AMC-16K数据集对6个开源多语言大语言模型进行20种语言的评估。通过将任务提示翻译为各语言，我们揭示了单语言与跨语言性能差异，并根据模型系列、规模及提示策略识别出关键趋势。研究结果凸显了大语言模型行为中持续存在的偏见，并为提升多语言事实核查的公平性提出改进建议。为探究检索偏见，我们采用多语言嵌入模型深入分析检索声明的频率分布。分析表明，某些声明在不同帖子中被过度频繁检索，导致热门声明的检索性能被虚高，而较少见的声明则呈现代表性不足的现象。 | | 真实世界人际交互时代：基于用户对话的强化学习

（注：该翻译在保持学术严谨性的同时兼顾中文表达习惯： 1. "Real-World Human Interaction"译为"真实世界人际交互"，准确传达现实场景中人类互动的核心概念 2. "RL"作为专业术语保留其技术全称"强化学习"，符合中文计算机学术界的规范表述 3. "from User Conversations"译为"基于用户对话"，通过"基于"这一介词结构清晰体现数据来源与研究方法的关系 4. 整体采用"时代：副标题"的学术标题常见结构，既保持原文信息完整性，又符合中文论文标题的表述规范） | Chuanyang Jin | PDF | 我们提出，要实现持续的模型优化与多维度对齐，未来模型必须从自然人类交互中学习。当前对话模型主要依赖预先标注的专家人工反馈进行对齐。本研究引入"人类交互强化学习"新范式，通过真实场景的用户对话直接学习。我们开发了两种互补方法：（1）用户引导重写机制，基于用户自然语言后续响应修正欠佳模型输出；（2）用户激励建模机制，通过融合用户长期交互历史知识构建奖励模型。这两种方法通过基于用户画像的偏好优化，将长期用户画像与单轮对话偏好相联结。基于WildChat对话数据的实验表明，两种RLHI变体在个性化和指令遵循方面均超越强基线模型，同类反馈还能提升推理基准性能。这些发现证明，自然人类交互可为个性化对齐提供可扩展且高效的学习框架。 | | BALF：基于预算感知激活的低秩分解——无需微调的模型压缩方法

（解析：该翻译采用学术文献标题的经典处理方式： 1. 保留核心缩写"BALF"保持专业识别度 2. "Budgeted Activation-Aware"译为"基于预算感知激活"，准确传达算法通过预算约束和激活感知进行优化的核心思想 3. "Low-Rank Factorization"译为专业术语"低秩分解" 4. 破折号后补充说明"无需微调的"，突出该方法区别于传统压缩方案的核心优势 5. "Model Compression"统一译为学科标准术语"模型压缩" 整体结构符合中文学术标题规范，既保持专业准确性又具备可读性） | David González Martínez | PDF | 神经网络压缩技术通常需要昂贵的微调或搜索过程，导致其在商用硬件上难以实际应用。受近期大语言模型压缩研究的启发，我们提出了一种通用的激活感知因子化框架，可广泛应用于各类网络层。此外，我们引入可扩展的预算秩分配器，能够灵活控制压缩目标（如保留50%参数）且不产生额外开销。这些组件共同构成BALF——一个无需微调的高效模型压缩流程。我们在多个规模和架构上验证其有效性，从CIFAR-10上的ResNet-20到ImageNet上的ResNeXt-101及视觉Transformer，结果表明该方法在无需微调的场景下取得卓越成效。例如，BALF将ResNeXt-101的FLOPs降低45%，仅导致Top-1准确率下降1个百分点。 |