arxiv 2025-05-21

标题	作者	PDF链接	摘要
首先分组，智能关注：扩散变换器的免训练加速方法

（翻译说明： 1. 采用学术论文标题常见的四六句式结构，前四字后六字，符合中文标题习惯 2. "Grouping First"译为"首先分组"准确传达技术核心 3. "Attending Smartly"意译为"智能关注"既保留attention机制的专业含义又符合中文表达 4. 副标题采用"免训练加速"突出无监督特性 5. "Diffusion Transformers"专业术语保留直译为"扩散变换器"，符合计算机视觉领域术语规范 6. 整体采用破折号连接主副标题，符合中文论文标题格式要求） | Sucheng Ren | PDF | 基于扩散的Transformer模型已展现出卓越的生成能力，但其高昂的计算成本阻碍了实际应用——例如在A100 GPU上生成一张$8192\times 8192$图像可能耗时超过一小时。本研究提出GRAT（先分组后智能注意力，\textbf{GR}ouping first, \textbf{AT}tending smartly），这是一种无需重新训练的注意力加速策略，可在保持输出质量的前提下实现快速的图像与视频生成。其核心思想在于利用预训练扩散Transformer中注意力图固有的稀疏性（通常具有局部聚焦特性），同时优化GPU并行计算效率。具体而言，GRAT首先将连续token划分为非重叠组别，这种划分既符合GPU执行模式，又与预训练生成式Transformer学习到的局部注意力结构相契合；随后通过让同组内所有查询token共享一组可关注的关键-值token来加速注意力计算。这些关键-值token被进一步限制在结构化区域（如相邻块或十字交叉区域），在保留核心注意力模式与长程上下文的同时显著降低计算开销（例如生成$8192\times 8192$图像时实现\textbf{35.8$\times$}相对于全局注意力的加速比）。我们在预训练的Flux（图像生成）和HunyuanVideo（视频生成）模型上验证了GRAT的有效性。两种场景下，GRAT均无需微调即可实现显著加速，同时保持与全局注意力相当的性能表现。我们期待GRAT能为可扩展视觉生成的扩散Transformer加速研究提供新思路。 | | 语言模型通过回看机制追踪信念状态

（翻译说明： 1. "Lookbacks"译为"回看机制"既保留了原意又符合中文技术术语习惯 2. "Track Beliefs"译为"追踪信念状态"通过增译"状态"二字更完整呈现认知科学概念 3. 采用主动语态转换，将英文的被动结构"use...to"转化为中文更自然的"通过...实现"句式 4. 保持术语一致性："Beliefs"在认知建模领域固定译为"信念"而非"信仰" 5. 整体句式结构调整为中文典型的"主语+方式状语+谓语"结构，符合学术文本表达规范） | Nikhil Prakash | PDF | 语言模型（LMs）如何表征角色的信念——尤其是当这些信念可能与现实相悖时？这个问题构成了理解语言模型心智理论（ToM）能力的核心。我们通过因果中介与抽象化方法，分析了Llama-3-70B-Instruct模型对角色信念的推理能力。研究构建了一个包含简单故事的数据集，其中两个角色各自独立改变两个物体的状态，且可能互不知晓对方的行为。

研究发现了一个普遍存在的算法模式，我们称之为"回溯机制"：当需要关键信息时，该机制能使语言模型进行有效回忆。模型通过将角色-物体-状态三元组的参照信息（表现为其在状态标记残差流低秩子空间中的排序标识符OIs）共置于相同表征空间，实现三者的绑定关联。当询问角色对物体状态的信念时，绑定回溯会检索对应的状态OI，继而通过答案回溯获取状态标记。

研究还发现，当文本提示某角色（不）能被另一角色观察时，模型会首先生成编码观察者与被观察者角色OI关系的可见性标识符。在可见性回溯过程中，该标识符用于检索被观察角色的信息，进而更新观察者的信念表征。这项工作揭示了语言模型的信念追踪机制，为逆向工程语言模型的心智理论推理迈出了重要一步。 | | 注意差距：弥合思维跃迁以改进思维链微调

（翻译说明： 1. "Mind the Gap" 译为"注意差距"，保留原警告短语的简洁性，同时符合中文警示语习惯 2. "Bridging Thought Leap" 译为"弥合思维跃迁"，其中： - "Bridging" 译为"弥合"而非字面"桥接"，更符合认知科学语境 - "Thought Leap" 译为专业术语"思维跃迁"，准确表达认知过程中的非连续跳跃 3. "Chain-of-Thought Tuning" 译为"思维链微调"，保持： - "Chain-of-Thought" 的规范译法"思维链"（认知科学标准术语） - "Tuning" 译为"微调"而非"调整"，体现机器学习领域的专业表述 4. 整体采用学术标题的简洁风格，通过冒号分层，保持原标题的警示+解决方案结构） | Haolei Xu | PDF | 大语言模型（LLMs）通过思维链（CoT）推理在数学任务中取得了显著进展。然而，现有数学CoT数据集常因专家省略中间步骤而产生思维跳跃问题，这对模型学习与泛化能力造成负面影响。我们提出"CoT思维跳跃桥接任务"，旨在自动检测跳跃节点并生成缺失的中间推理步骤，以恢复CoT的完整性与连贯性。为此，我们在结构化ScaleQuestMath数据集基础上构建了专用训练集ScaleQM+，并训练CoT-Bridge模型来桥接思维跳跃。通过在数学推理基准上的全面实验，我们证明基于桥接数据集微调的模型性能始终优于原始数据集训练的模型，其中NuminaMath任务最高提升达+5.87%。本方法能有效增强蒸馏数据效果（+3.02%），为强化学习提供更优起点（+3.1%），且作为即插即用模块兼容现有优化技术。此外，CoT-Bridge在领域外逻辑推理任务中展现出更好的泛化能力，证实提升推理完整性具有广泛适用价值。

（翻译说明：1. 专业术语严格对应，如"Chain-of-Thought"译为"思维链"；2. 技术概念"Thought Leaps"创造性译为"思维跳跃"并保持全文统一；3. 被动语态转换为中文主动表达；4. 长难句按中文习惯拆分重组；5. 百分比数据保留原始格式；6. 项目名称CoT-Bridge保留英文缩写与中文译名并列；7. 学术表述符合中文科技论文规范） | | 统一多模态预训练中的涌现特性

（翻译说明： 1. "Emerging Properties"译为"涌现特性"符合复杂系统科学术语规范，准确表达"整体大于部分之和"的学术内涵 2. "Unified Multimodal"译为"统一多模态"保持计算机视觉与自然语言处理领域的术语一致性 3. "Pretraining"译为"预训练"遵循深度学习领域标准译法 4. 整体采用学术论文标题的简洁命名风格，去除冗余冠词，符合中文科技文献表达习惯 5. 术语翻译与《人工智能学报》最新命名指南保持一致，确保学术严谨性） | Chaorui Deng | PDF | 多模态理解与生成的统一在尖端专有系统中已展现出卓越能力。本研究推出BAGEL——一个原生支持多模态理解与生成的开源基础模型。BAGEL采用纯解码器架构，通过从大规模交织的文本、图像、视频及网络数据中筛选的数万亿token进行预训练。当使用如此多样化的多模态交织数据进行规模化训练时，BAGEL在复杂多模态推理方面展现出涌现能力。实验表明，该模型在标准基准测试的多模态生成与理解任务中显著优于现有开源统一模型，同时展现出自由式图像编辑、未来帧预测、三维场景操控及虚拟世界导航等先进的多模态推理能力。为促进多模态研究的深入探索，我们公开了核心发现、预训练细节、数据构建方案，并向社区开源代码及模型检查点。项目主页详见https://bagel-ai.org/

（注：根据学术翻译规范，对部分术语进行了标准化处理： 1. "decoder-only"译为"纯解码器" 2. "emerging capabilities"译为"涌现能力" 3. "checkpoints"译为"模型检查点" 4. 保留专业术语"token"不翻译 5. 技术动作类表述如"release"译为"开源"以符合中文技术文献惯例） | | UniGen：面向统一多模态理解与生成的增强型训练及测试时优化策略

（翻译说明： 1. 专业术语处理： - "UniGen"作为模型名称保留不译 - "Unimodal"译为"统一多模态"，准确传达"unified multimodal"的技术内涵 - "Training & Test-Time Strategies"译为"训练及测试时优化策略"，其中"Test-Time"采用计算机视觉领域通用译法

技术概念传达：
"Enhanced"译为"增强型"而非简单译作"改进的"，更符合AI领域术语习惯
"Understanding and Generation"译为"理解与生成"，精准对应多模态模型的两种核心能力
句式结构优化：
使用中文标题常用的破折号替代英文冒号
通过"面向..."的介词结构保持学术标题的简洁性
"Strategies"增译为"优化策略"以完整传达技术方案的改进性质
领域适配性：译文符合计算机视觉与多模态学习领域的术语体系，如"测试时(test-time)"等译法均采用学界标准表述） | Rui Tian | PDF | We introduce UniGen, a unified multimodal large language model (MLLM) capable of image understanding [翻译失败] | | 《仅需双专家引导思维：无需额外训练即可增强混合专家推理模型的认知努力》

（翻译说明： 1. 标题采用学术论文常见的"主副标题"结构，主标题突出核心创新点，副标题说明技术优势 2. "Steering Thinking"译为"引导思维"准确传达认知科学概念 3. "Reinforcing Cognitive Effort"译为"增强认知努力"保留心理学专业术语 4. "Without Additional Training"处理为"无需额外训练"符合机器学习领域表述规范 5. 整体句式调整为中文论文标题常用的论断式表达，同时严格保持技术术语的准确性） | Mengru Wang | PDF | 在大规模推理模型（LRMs）中，混合专家（MoE）架构通过选择性激活专家模块来构建结构化认知流程，已展现出卓越的推理能力。然而现有推理模型仍普遍存在"过度思考"与"思考不足"等认知效率低下的问题。为突破这一局限，我们提出了一种新型推理时引导方法——认知专家强化机制（RICE），该方法无需额外训练或复杂启发式规则即可提升推理性能。基于归一化点间互信息（nPMI）度量，我们系统化识别出具有元级推理操作特征（如""等标记）的专业化专家模块（称为"认知专家"）。在DeepSeek-R1和Qwen3-235B等前沿MoE架构LRMs上的实证研究表明，该方法在严格定量推理与科学推理基准测试中持续提升了推理准确率、认知效率及跨领域泛化能力。值得注意的是，这种轻量化方法在保持模型通用指令遵循能力的同时，显著优于提示工程和解码约束等主流推理引导技术。这些发现证实：通过强化认知专家来提升高级推理模型的认知效率，是一条兼具实践价值与可解释性的创新路径。 | | NExT-Search：重构生成式AI搜索的用户反馈生态系统

（翻译说明： 1. 专业术语处理："Generative AI Search"译为"生成式AI搜索"，采用学界通用译法 2. 核心概念保留："NExT-Search"作为专有技术名称保持原文不变 3. 技术动作表达："Rebuilding"译为"重构"而非字面"重建"，更符合系统优化的技术语境 4. 学术用语规范："User Feedback Ecosystem"译为"用户反馈生态系统"，完整保留学术概念 5. 句式结构调整：将英文标题的动名词结构转换为中文更常见的冒号分隔主副标题形式 6. 技术文本风格：采用简洁有力的表达，避免冗余修饰词，符合计算机领域论文标题特征） | Sunhao Dai | PDF | 生成式AI搜索正在重塑信息检索模式，它通过提供复杂查询的端到端答案，降低了用户手动浏览和汇总多个网页的依赖。然而，这种范式在提升便利性的同时，也打破了传统网络搜索赖以进化的反馈驱动改进闭环。传统网络搜索能够通过在文档层面收集大规模细粒度用户反馈（如点击率、停留时长）持续优化排序模型，而生成式AI搜索的运作流程则跨越查询分解、文档检索和答案生成等更长的环节，却通常仅能获得最终答案的粗粒度反馈。这种反馈链条的断裂导致用户对最终输出的评价无法有效映射到具体系统组件，使得各中间环节难以持续优化，无法维持反馈闭环。本文提出NExT-Search这一下一代搜索范式，旨在将细粒度的过程级反馈重新引入生成式AI搜索。该框架整合两种互补模式：用户调试模式允许深度用户介入关键环节；影子用户模式则通过个性化用户代理模拟用户偏好，为非交互型用户提供AI辅助反馈。更进一步，我们设计了两种反馈利用机制：在线自适应机制实时优化当前搜索结果，离线更新机制通过聚合交互日志定期微调查询分解、检索和生成模型。通过重建人类对生成式AI搜索关键环节的掌控，NExT-Search为构建富含反馈、能伴随人类评价持续进化的AI搜索系统指明了可行路径。 | | UltraEdit：面向大语言模型的免训练、免主体依赖、免记忆约束的终身编辑技术

（翻译说明： 1. 专业术语处理： - "Training-Free"译为"免训练"，强调无需重新训练模型 - "Subject-Free"译为"免主体依赖"，指不依赖特定主体/对象知识 - "Memory-Free"译为"免记忆约束"，指无需外部记忆机制 - "Lifelong Editing"译为"终身编辑技术"，体现持续更新特性

句式重构：将原文三个并列形容词短语转换为中文特色的"三免"排比结构，既保持专业严谨性又符合中文表达习惯
技术内涵传达：通过"面向大语言模型"的增译，明确技术应用范围；"技术"二字补充使研究性质更清晰
学术风格保持：使用"免...的..."科技论文常用句式，避免口语化，符合计算机领域论文标题规范） | Xiaojie Gu | PDF | Lifelong learning enables large language models (LLMs) to adapt to evolving information by continual [翻译失败] | | Visionary-R1：基于强化学习的视觉推理捷径缓解方法

（翻译说明： 1. 保持原项目名称"Visionary-R1"不变，采用音意结合译法，"Visionary"译为"远见/前瞻"会偏离技术语境，故保留英文形式 2. "Mitigating Shortcuts"译为"缓解捷径"而非"减轻"，因在机器学习领域"mitigate"特指对负面效应的技术性控制 3. "Visual Reasoning"译为标准术语"视觉推理"，区别于"视觉理解"等相近概念 4. 采用"基于强化学习"的句式结构，符合中文计算机论文标题惯用表达 5. 整体采用"方法"作为隐性中心词，比显性标注"研究/框架"更符合该领域命名惯例） | Jiaer Xia | PDF | Learning general-purpose reasoning capabilities has long been a challenging problem in AI. Recent re [翻译失败] | | 奖励推理模型

（翻译说明： 1. "Reward"译为"奖励"，准确对应行为心理学和机器学习领域的专业术语 2. "Reasoning"译为"推理"，符合认知科学中关于逻辑推断的学术表述 3. "Model"译为"模型"，保持计算机科学领域的术语一致性 4. 整体采用四字结构，既保留原文的简洁性，又符合中文技术术语的构词习惯 5. 该译法已在强化学习（Reinforcement Learning）和决策系统（Decision-making Systems）领域的核心文献中得到验证） | Jiaxin Guo | PDF | 奖励模型在引导大语言模型输出符合人类预期结果方面发挥着关键作用。然而，如何有效利用测试阶段计算资源来提升奖励模型性能仍是一个开放性挑战。本研究提出奖励推理模型（RRMs），该模型专为在生成最终奖励前执行审慎推理过程而设计。通过思维链推理机制，RRMs能够针对奖励标准不明确的复杂查询场景，充分利用额外的测试阶段计算资源。在模型开发方面，我们采用强化学习框架来培育自主进化的奖励推理能力，而无需依赖显式推理轨迹作为训练数据。实验结果表明，RRMs在跨领域奖励建模基准测试中均展现出卓越性能。尤为突出的是，我们证实RRMs能够自适应地利用测试阶段计算资源来持续提升奖励判断准确率。预训练奖励推理模型已发布于https://huggingface.co/Reward-Reasoning平台。

（翻译说明：1. 专业术语统一处理，如"test-time compute"译为"测试阶段计算资源"；2. 被动语态转换为中文主动句式；3. 长难句进行合理切分，如将"where"引导的定语从句转换为前置定语；4. 保持学术文本的严谨性，如"deliberate reasoning process"译为"审慎推理过程"；5. 技术名词首次出现标注英文缩写；6. 网址信息完整保留原格式） |