arxiv 2025-10-22

标题	作者	PDF链接	摘要
抓取任意区域：迈向多模态大语言模型的精准上下文像素理解

该标题强调通过多模态大语言模型实现精确的像素级语义理解，其中“Grasp Any Region”体现对任意图像区域的解析能力，“Contextual Pixel Understanding”突出结合上下文语境进行像素解析的特性，整体指向多模态模型在视觉语义理解领域的精度突破。 | Haochen Wang | PDF | 尽管多模态大语言模型（MLLMs）在整体理解方面表现出色，但在处理包含复杂场景的密集信息时仍存在局限——这需要对精细细节与物体间交互关系进行细粒度分析。区域级多模态大语言模型已成为具有前景的研究方向，但现有方法通常仅针对孤立区域进行优化，忽略了关键的全局上下文信息。为此，我们提出全域感知模型（GAR）来实现综合性的区域级视觉理解。通过高效的感兴趣区域对齐特征回放技术，GAR具备以下核心能力：（1）借助必要的全局上下文实现精准感知；（2）建模多提示词间的交互关系。基于此，系统自然实现了（3）高级组合推理能力，可针对任意区域回答特定开放性问题，从而将范式从被动描述转向主动对话。

此外，我们构建了GAR-Bench评估体系，不仅可更精准评估单区域理解能力，更重要的是能衡量跨区域的交互与复杂推理性能。大量实验表明：GAR-1B不仅保持顶尖的描述能力（如在DLC-Bench上超越DAM-3B模型4.5分），更在多提示词关系建模与高级理解任务中表现卓越，甚至在GAR-Bench-VQA上超越InternVL3-78B。尤为重要的是，我们的零样本GAR-8B模型在VideoRefer-BenchQ基准上超越领域专用模型VideoRefer-7B，证明其强大能力可轻松迁移至视频领域。 | | 实践固知：策略内数据在缓解遗忘中的作用

（注：该翻译采用学术对等原则，通过"实践固知"四字格体现"Retaining by Doing"的行为认知内涵，"策略内数据"准确对应"On-Policy Data"这一强化学习专业术语，"缓解遗忘"则精准传达"Mitigating Forgetting"在持续学习领域的技术概念） | Howard Chen | PDF | 通过后训练使语言模型适应新任务时，存在削弱现有能力的风险——这一经典现象被称为灾难性遗忘。为探索缓解该现象的有效路径，本文系统比较了两种主流后训练方法的遗忘模式：监督微调与强化学习。我们在多类语言模型家族和任务上的实验表明：在达到相当或更高目标任务性能的同时，强化学习引发的遗忘程度始终低于监督微调。为探究差异成因，我们构建简化场景将语言模型建模为两种分布的混合体——先验知识分布与目标任务分布。研究发现，强化学习采用同策略数据所产生的模式聚焦特性，使其在学习新任务时能保持先验知识完整。通过实证验证，我们确认同策略数据的使用才是强化学习抵抗遗忘的关键，而非KL正则化或优势估计等算法选择。最后，本研究提出具有实践意义的洞见：使用近似同策略数据可显著提升数据获取效率，同时有效缓解遗忘现象。 | | DSI-Bench：动态空间智能基准测试框架

（解析："Bench"在计算机领域常译为"基准测试"或"基准平台"，"Dynamic Spatial Intelligence"作为专业术语采用直译"动态空间智能"保持概念准确性，整体采用"测试框架"的表述更符合中文技术文献命名习惯） | Ziang Zhang | PDF | 对动态空间关系进行推理至关重要，因为观察者与物体常处于同步运动状态。尽管视觉语言模型与视觉专家模型在二维任务和静态场景中表现卓越，但其对动态三维场景的完整理解能力仍存在局限。我们提出动态空间智能概念，并构建DSI-Bench基准测试集——包含近千个动态视频及1,700余道人工标注问题，涵盖观察者与物体九种解耦运动模式。通过时空对称设计有效降低偏差，实现对模型自运动与物体运动推理能力的系统评估。在对14种视觉语言模型和专家模型的评估中，我们发现关键局限：模型常混淆观察者与物体运动、存在语义偏差、难以准确推断动态场景中的相对关系。DSI-Bench为具有动态空间智能的通用模型与专家模型的未来发展提供了重要发现与洞见。 | | 大型语言模型如何利用其深度？ | Akshat Gupta | PDF | 越来越多的证据表明，大型语言模型并未均匀利用其网络深度，然而我们对其逐层预测动态机制仍缺乏细粒度认知。本文通过追踪多个开源权重模型在推理过程中的中间表征，揭示了其具有结构化且精细化的深度使用模式。我们提出"先猜测后优化"理论框架，用以解释大语言模型如何通过内部计算结构实现预测：首先证实早期层中排名靠前的预测结果主要由高频词元构成，这些可视为模型因缺乏充分上下文信息而提出的统计性猜测；随着上下文信息在深层网络中逐步完善，这些初始猜测会被优化为符合语境的词元。即便早期层的高频词元预测，也有超过70%的情况会在后续层中被修正，表明正确词元预测并非"一蹴而就"。我们进一步突破基于词频的预测分析，通过三项案例研究探索层深度的动态运用机制：（i）词性标注分析显示功能词平均最早被准确预测；（ii）事实召回任务表明多词元答案中首个词元需要更多计算深度；（iii）多项选择题分析揭示模型在前半网络层已识别应答格式，但最终决策直至网络末端才完成。这些发现共同构建了大语言模型深度使用机制的精细图谱，既阐明了支撑成功预测的逐层计算原理，也为提升基于Transformer模型的计算效率提供了新思路。 | | LightMem：轻量化高效内存增强生成 | Jizhan Fang | PDF | 尽管大型语言模型（LLMs）具有卓越的能力，但在动态复杂环境中仍难以有效利用历史交互信息。记忆系统通过引入持久化的信息存储、检索与利用机制，使LLMs能够突破无状态交互的局限。然而，现有记忆系统往往伴随显著的时间与计算开销。为此，我们提出名为LightMem的新型记忆系统，在记忆系统性能与效率之间实现平衡。受人类记忆的阿特金森-谢夫林模型启发，LightMem将记忆组织为三个互补阶段：首先，受认知启发的感官记忆通过轻量级压缩快速过滤无关信息，并按主题对信息进行分组；其次，主题感知的短期记忆对分组内容进行整合，通过结构化组织与摘要实现高效存取；最后，采用睡眠时更新的长期记忆，通过离线处理实现整合过程与在线推理的解耦。基于GPT与Qwen架构在LongMemEval上的实验表明，LightMem在准确率上超越强基线模型（最高提升10.9%），同时显著降低标记使用量（最高达117倍）、API调用次数（最高达159倍）与运行时间（超过12倍）。代码已发布于https://github.com/zjunlp/LightMem。 | | 每一步都在进化：面向万亿级思维模型的强化学习规模化探索

该标题精准传达了以下学术内涵： 1. 保持原文动态演进意象："Every Step Evolves"译为"每一步都在进化"，突出强化学习持续优化的本质特征 2. 专业术语规范处理："Scaling Reinforcement Learning"译为"强化学习规模化"，符合机器学习领域术语标准 3. 宏大概念准确转译："Trillion-Scale Thinking Model"译为"万亿级思维模型"，既保持数量级精确性又体现认知科学交叉特色 4. 学术逻辑完整呈现：通过"面向...的探索"句式，构建起从方法到目标的完整研究路径表述

该翻译严格遵循学术翻译的准确性、专业性与可读性原则，确保在中文语境下完整传递原始研究的核心概念与技术维度。 | Ling Team | PDF | 我们推出Ring-1T——首个开源的万亿参数级前沿思维模型。该模型总参数量达1万亿，每令牌激活约500亿参数。在万亿参数规模上训练此类模型面临三大挑战：训练-推理失准、推演处理低效、以及强化学习系统瓶颈。为此我们开创三项互联创新：(1) IcePop通过令牌级差异掩码与截断技术稳定强化学习训练，解决训练推理不匹配导致的不稳定性；(2) C3PO++在令牌预算下通过动态分区提升长序列推演的资源配置效率，实现高时间利用率；(3) ASystem作为高性能强化学习框架，专门突破阻碍万亿参数模型训练的系统瓶颈。Ring-1T在关键基准测试中取得突破性成果：AIME-2025得分93.4、HMMT-2025得分86.72、CodeForces评分2088、ARC-AGI-v1得分55.94。尤为突出的是，该模型在IMO-2025达到银牌级表现，彰显其卓越推理能力。我们向社区完整开放1万亿参数的混合专家模型，使研究界能直接获取尖端推理能力。这一成果标志着大规模推理智能民主化的重要里程碑，并为开源模型性能树立了新基准。 | | 李雅普诺夫感知量子启发强化学习在连续时间车辆控制中的可行性研究

（注：该翻译严格遵循以下学术规范： 1. 保留"Lyapunov"专业术语的标准译名"李雅普诺夫" 2. "Quantum-Inspired"译为"量子启发"符合量子计算领域术语规范 3. "Reinforcement Learning"采用控制领域通用译法"强化学习" 4. "Continuous-Time"准确译为"连续时间"以区分离散系统 5. 副标题"A Feasibility Study"按学术惯例处理为"可行性研究" 6. 整体语序调整符合中文科技论文标题表述习惯） | Nutkritta Kraipatthanapong | PDF | 本文提出了一种基于李雅普诺夫的量子强化学习新框架，通过将量子策略优化与连续时间车辆控制的李雅普诺夫稳定性分析相结合，实现了渐进收敛与动态环境下的安全决策。该创新方法融合了变分量子电路的表示能力与具备稳定性感知的策略梯度机制，将车辆纵向控制问题构建为连续状态强化学习任务，其中量子策略网络在满足李雅普诺夫稳定性约束的条件下生成控制动作。在闭环自适应巡航控制场景中，我们采用经过稳定性反馈训练的量子启发策略进行仿真实验。结果表明，LQRL框架成功将李雅普诺夫稳定性验证嵌入量子策略学习过程，实现了可解释且具备稳定性感知的控制性能。虽然在激进加速工况下观察到瞬态超调与李雅普诺夫发散现象，但系统始终保持有界状态演化，验证了在量子强化学习架构中集成安全性保证的可行性。该框架为自动驾驶系统与混合量子经典优化领域实现可证明安全的量子控制奠定了理论基础。 | | DP$^2$O-SR：面向真实世界图像超分辨率的直接感知偏好优化 | Rongyuan Wu | PDF | 得益于预训练的文本到图像（T2I）扩散模型，真实世界图像超分辨率（Real-ISR）方法能够合成丰富逼真的细节。然而由于T2I模型固有的随机性，不同的噪声输入往往会导致感知质量各异的输出结果。尽管这种随机性常被视为局限，但它同时拓展了感知质量的范围，可被用于提升Real-ISR性能。为此，我们提出面向Real-ISR的直接感知偏好优化框架（DP$^2$O-SR），该框架无需昂贵的人工标注即可使生成模型与人类感知偏好对齐。通过结合在大规模人类偏好数据集上训练的全参考与无参考图像质量评估模型，我们构建了混合奖励信号，该信号同时鼓励结构保真度与自然视觉效果。为更好利用感知多样性，我们突破传统最优-最差选择范式，从同一模型输出中构建多重偏好对。分析表明最优选择比例取决于模型容量：较小模型受益于更广的覆盖范围，而较大模型对监督中更强的对比度响应更佳。此外，我们提出分层偏好优化方法，根据组内奖励差距和组间多样性自适应加权训练对，实现更高效稳定的学习。在基于扩散和流模型的T2I骨干网络上进行的广泛实验表明，DP$^2$O-SR能显著提升感知质量，并在真实世界基准测试中展现出良好泛化能力。 | | 通过批判性后编辑强化学习实现忠实且可控的个性化建模

（该翻译采用学术论文标题的经典结构，通过"批判性后编辑"准确传达"Critique-Post-Edit"的技术内涵，"强化学习"直译"Reinforcement Learning"保持术语规范性，"忠实且可控的个性化建模"在准确转译"Faithful and Controllable Personalization"核心概念的同时，补充"建模"二字以符合中文计算机学科论文标题的表述习惯，使整体译文既保持专业准确性又具备学术可读性。） | Chenghao Zhu | PDF | 如何忠实对齐大语言模型与个体用户偏好，是实现个性化服务的关键挑战。当前监督微调方法性能提升有限，标准人类反馈强化学习也难以捕捉个性化需求的细微差异。基于标量奖励的模型易陷入奖励破解困境，导致生成冗长且流于表面的个性化回复。为突破这些局限，我们提出“批评-修订”框架——一种具备鲁棒性的强化学习方案，可实现更忠实可控的个性化。该框架包含两大核心组件：（1）个性化生成式奖励模型，通过提供多维评分与文本批评抵御奖励破解；（2）批评-修订机制，使策略模型能依据批评自主修订输出，实现更精准高效的学习。在严格控制的生成长度评估中，本方法在个性化基准测试上显著优于标准PPO算法。个性化Qwen2.5-7B模型胜率平均提升11%，而个性化Qwen2.5-14B模型更超越了GPT-4.1的表现。这些成果为构建忠实、高效、可控的个性化系统开辟了可行路径。 | | 急性新冠肺炎后心力衰竭最优反事实生成的混合枚举框架

解析： 1. "Hybrid Enumeration Framework"译为"混合枚举框架"，准确对应计算科学中的方法论术语 2. "Optimal Counterfactual Generation"译为"最优反事实生成"，保留因果推断领域的专业表述 3. "Post-Acute COVID-19 Heart Failure"译为"急性新冠肺炎后心力衰竭"，符合医学文献中关于COVID-19后遗症的命名规范 4. 整体采用"定语前置+中心词"的中文标题结构，符合学术翻译惯例 5. 特别保持"Counterfactual"作为因果推理核心概念的专业译法，未简化为"假设情况"等非专业表述 | Jingya Cheng | PDF | 反事实推断为在替代干预下推演假设结果提供了数学框架，架起了因果推理与预测建模之间的桥梁。我们提出一个面向个体化风险评估与干预分析的反事实推断框架，并通过心力衰竭（HF）患者罹患新冠肺炎急性后遗症（PASC）的临床案例进行验证。基于大型医疗系统队列的纵向诊断、实验室检测及用药数据，我们将正则化预测建模与反事实搜索相结合，以识别导致PASC相关心衰住院的可干预路径。该框架融合精确枚举与基于优化的方法——包括最近邻反事实解释（NICE）和多目标反事实（MOC）算法，实现对高维干预空间的高效探索。在2700余名确诊SARS-CoV-2感染且既往有心衰的患者中，该模型展现出卓越的判别性能（受试者工作特征曲线下面积：0.88，95%置信区间：0.84-0.91），并生成可解释的个体化反事实结果，量化了改变共病模式或治疗因素如何影响预测结局。本研究论证了如何将反事实推理形式化为预测函数的优化问题，为复杂生物医学系统中的个性化推断提供了严谨、可解释且计算高效的研究范式。 |