| 重路由而非移除:面向视觉语言模型的可恢复视觉令牌路由 |
Cheng-Yu Yang |
2026-06-10 |
PDF |
视觉语言模型(VLMs)将图像投影为数百至数千个视觉令牌,导致解码器在注意力计算和KV缓存内存方面成本高昂。现有的视觉令牌缩减方法大多遵循排序-移除范式:对视觉令牌评分,保留紧凑子集,并永久丢弃其余部分。我们证明这种不可逆操作存在脆弱性,因为视觉令牌的重要性会随解码器深度变化;在某一阶段评分较低的令牌可能在后续层中变得相关,尤其是对于需要精确定位的查询。我们提出Reroute,一种无需训练的即插即用方法,用可恢复路由替代永久移除。在每个路由阶段,选中的视觉令牌通过解码器模块,而延迟令牌则跳过该阶段,在下一个路由决策时重新进入候选池。Reroute复用现有的注意力评分排序规则和阶段调度策略,保留了其所增强的剪枝方法的理论TFLOPs和KV缓存预算类别。在基于LLaVA-1.5和Qwen骨干网络的FastV、PDrop及Nüwa变体上,Reroute在激进令牌缩减下提升了定位能力,同时保持通用VQA性能。这些结果表明,VLM令牌缩减不应仅被视为不可逆剪枝,而应视为可恢复路由。代码见:https://github.com/elmma/mllm-reroute/ |
| 上下文驱动的增量压缩用于多轮对话生成 |
Yeongseo Jung |
2026-06-10 |
PDF |
现代对话代理在每一轮对话中都会依赖不断增长的对话历史,导致冗余的注意力机制和编码成本随对话长度增加而上升。简单的截断或摘要会降低保真度,而现有的上下文压缩器缺乏跨轮次记忆共享或修正机制,导致信息丢失并在长对话中加剧错误累积。我们重新审视了对话动态下的上下文压缩问题,并通过实验揭示了其脆弱性。为提升效率与鲁棒性,我们提出上下文驱动的增量压缩方法(C-DIC),将对话视为交织的上下文线程,并在单一紧凑的对话记忆中存储每个线程可修正的压缩状态。在每一轮对话中,轻量级的检索、修正与回写循环实现跨轮次信息共享并更新过时记忆,从而稳定长程行为。此外,我们将截断式反向传播(TBPTT)适配至多轮场景,无需完整历史反向传播即可学习跨轮次依赖关系。在长对话基准上的大量实验表明,C-DIC在性能与效率上均表现优异;值得注意的是,C-DIC在数百轮对话中保持稳定的推理延迟与困惑度,为高质量对话建模提供了可扩展路径。 |
| 看似微不足道的设计选择如何决定病理学中大语言模型的性能 |
Kian R. Weihrauch |
2026-06-10 |
PDF |
通用大语言模型(LLM)在评估全切片病理图像(WSI)专用模型时,常被用作基线。由于WSI超出当前模型上下文限制,LLM基线通常采用独立处理的小尺寸高倍率图像块,通过多数投票法整合结果,而未系统评估图像块尺寸、数量及放大倍率等看似无关的设计选择。通用型LLM始终表现逊于专用系统,这强化了"处理WSI病理任务需领域特化训练或架构适配"的认知。本研究对四项输入设计因素(推理模式、图像块尺寸、放大倍率、图像块数量)进行系统析因分析。结果表明,既往研究因采用非优化输入配置,夸大了专用模型与通用LLM的性能差距。在MultiPathQA基准测试中,切换至单一平衡配置(低倍率大图像块联合处理)使GPT-5在癌症类型分类(TCGA)上从15.1%提升至39.5%,器官分类(GTEx)从38.1%提升至62.9%。任务级优化进一步将TCGA和GTEx性能分别提升至43.9%和71.6%。该配置可泛化至另外两种模型及完全保留的CPTAC队列,使Gemini 3 Flash在无需任务调优的情况下提升23.4个百分点。 |
| 事实2:学习商用机器人手臂的外部力感知可提升策略学习效果 |
Steven Oh |
2026-06-10 |
PDF |
接触丰富的操作需要力敏感性,但许多机器人手臂因成本高昂而缺乏专用力传感器。我们提出神经外力矩估计(NEXT),这是一种无需专用力传感器即可估计外部关节力矩的数据驱动方法。NEXT仅需1分钟训练,基于10分钟自由运动数据,即可达到与专用关节力矩传感器相当的估计精度。NEXT使低成本机械臂具备力反馈遥操作能力,并通过力信息重采样训练(FIRST)改进策略学习——在行为克隆过程中对预接触和接触片段进行过采样。在五项长时程任务中,FIRST的任务进度比先前的力感知策略提升超过17%。NEXT与FIRST共同为现成机器人带来力感知遥操作与策略学习能力,无需额外传感硬件。视频结果与代码见 https://jasonjzliu.com/factr2 |
| 世界飞行员:利用世界-动作先验引导视觉-语言-动作模型 |
Zefu Lin |
2026-06-10 |
PDF |
视觉-语言-动作(VLA)模型通过大规模预训练继承了语义基础,并在分布内的操作任务中表现出色。然而,这种语义基础建立在静态图像-文本对之上,而操作是一个连续的、富含接触的过程,其动态特性无法通过此类预训练捕捉。我们提出World Pilot,一种VLA框架,通过世界-动作模型(WAM)的先验知识增强策略,并通过两条互补路径将其引入决策链。潜在引导(Latent Steering)利用场景演化潜在变量对感知层进行条件化,动作引导(Action Steering)则提供预期轨迹作为动作生成器的运动先验。这两个先验共同赋予VLA对场景的预期视角、轨迹级运动提示以及语义条件化,即使由未经动作后训练的视频预训练世界模型提供,场景演化先验依然有效。World Pilot在LIBERO-Plus零样本OOD基准测试中达到84.7%的最优总成功率,并在四个操作任务的每个真实机器人设置中均取得最高成功率,在视角、几何、变形状态和位姿变化下优势最为显著。项目网站:https://world-pilot.github.io/ |
| DIRECT:具身规划器中何时何地分配测试时计算? |
Jadelynn Dao |
2026-06-10 |
PDF |
视觉-语言模型(VLMs)正越来越多地被部署为具身智能体的高层规划器,一种新兴策略是通过扩展测试时计算来提升能力。然而,我们观察到这种做法会增加延迟、token使用量和FLOPs,同时在下游任务中带来不均匀且往往递减的收益,限制了具身智能体的部署场景。我们认为,选择何时何地投入测试时计算是将前沿性能引入现实世界的关键。我们提出DIRECT,一种利用多模态场景上下文为每个提示分配计算资源的路由框架,在成功-成本帕累托前沿上优于固定模型选择。在链式思维深度、模型规模和记忆历史这三个主要扩展维度上,我们在VLABench和RoboMME上的实验表明,测试时计算并非均匀的杠杆:不同维度会产生性质不同的能力增益。我们在DROID设置中的物理Franka机械臂上验证了这些见解,涵盖零样本操作和长程链式任务,我们的路由器的成功率与更强模型相当或更优,同时平均延迟降低高达65%。最终,我们的结果表明,简单扩展测试时计算是浪费的,而DIRECT能够以极低的成本在机器人系统中实现前沿级别的具身规划。项目页面见jadee-dao.github.io/direct/。 |
| Doc-to-Atom:学习编译与组合记忆原子 |
Xingjian Diao |
2026-06-10 |
PDF |
长输入序列对于大型语言模型中的文档理解和多步推理至关重要,但注意力机制的二次方复杂度使得推理过程既消耗内存又速度缓慢。上下文蒸馏通过将上下文信息压缩到模型参数中来缓解这一问题,而Doc-to-LoRA等近期工作将上下文蒸馏摊销为单次前向传播,为每个文档生成一个LoRA适配器。然而,为所有查询生成单一整体适配器会导致无关查询干扰、组合回忆能力受限以及长文档推理的可扩展性差。为解决这些挑战,我们提出Doc-to-Atom(Doc2Atom),一种组合式参数化记忆框架,将每个文档分解为语义类型化的知识原子。每个原子被编译为独立的微LoRA适配器和溯源检索键。在推理时,轻量级查询路由器选择并仅组装相关原子形成查询特定适配器,随后注入冻结的基础模型。整个系统通过多目标蒸馏框架进行端到端训练。在六个多样化问答基准上的实验表明,Doc2Atom在降低文档内化内存成本的同时,性能优于Doc-to-LoRA基线。 |
| 使用流形幂迭代重新设计混合专家路由器 |
Songhao Wu |
2026-06-10 |
PDF |
路由器是混合专家模型中的核心组件。作为专家代理,路由器矩阵的行向量计算其与MoE输入的相似度,以确定激活哪些专家子集。理想情况下,每个路由器行向量被设计为将专家矩阵编码为代表性向量,使其与令牌的点积能更好反映令牌-专家亲和度。然而,目前尚无设计原则来强制实现这种压缩。本文提出将每个路由器行向量与对应专家的主奇异方向对齐,因为该方向提供了矩阵最具表现力的数学描述。基于这一原则,我们提出采用流形幂迭代(MPI)的路由器重设计方法。具体而言,该方法引入"幂迭代-收缩"范式:先对路由器权重执行幂迭代步骤,再通过收缩施加范数约束以确保效率与稳定性。理论上,我们证明MPI驱动路由器行向量收敛至对应专家的主奇异方向。实验方面,我们预训练了从1B到11B参数规模的MoE模型,证实这种对齐能促进更有效的MoE模型。 |
| VLGA:面向自动驾驶的视觉-语言-几何-动作模型 |
Jin Yao |
2026-06-10 |
PDF |
视觉-语言-动作(VLA)模型能够描述场景并用语言进行推理,但在将动作锚定于周围密集的三维世界时仍面临困难。现有方法要么从冻结的三维基础模型中注入特征,却缺乏确保策略使用这些特征的目标函数;要么通过稀疏的边界框和地图损失约束几何结构,无法提供密集的空间信号。我们提出VLGA,这是首个通过监督学习重建其驾驶场景中密集三维世界的视觉-语言-动作模型。VLGA将几何作为第四模态引入,与视觉、语言和动作并列,通过专用专家模块实现,该模块利用逐像素点图回归损失(以LiDAR为基准)进行监督。在nuScenes(开环评估)和Bench2Drive(闭环评估)数据集上的大量实验表明,VLGA优于同类VLA方法。具体而言,在开环nuScenes中,VLGA在无自车状态输入的VLA方法中达到新最优水平,L2误差最低(平均0.50米),3秒碰撞率最低(0.18%)。在闭环Bench2Drive中,VLGA以79.08的驾驶得分达到最优性能,较最强先前VLA方法提升0.71分,且效率与舒适性相当。 |
| CCL25-Eval任务5系统报告:新数据集与LoRA微调Qwen2.5 |
Haotao Xie |
2026-06-10 |
PDF |
近期,大语言模型在古诗文翻译与古典诗歌生成领域取得了显著进展。然而,针对古典诗歌精准翻译与情感语义理解的专项研究仍较为有限。主要挑战在于:多数研究将诗歌鉴赏任务视为通用领域问题,忽视了诗歌鉴赏的独特特征,同时高质量领域专用数据集极度匮乏。为解决这一局限,我们将任务分解为三个子任务:术语解释、语义解释与情感推断。基于多个开源数据集,我们进行数据清洗与对齐,构建了古典诗歌指令对数据集(CCPoetry-49K),包含49,404条针对该领域优化的高质量指令-响应对。随后,我们通过低秩适配技术对Qwen2.5-14B模型进行微调,提出了领域专用大语言模型PoetryQwen。在CCL25-Eval任务5基准测试上的实验结果表明,PoetryQwen取得了0.757的评分,较Qwen2.5-14B-Instruct基线(0.690)提升了9.7%。这些发现明确表明,PoetryQwen在古典诗歌的精准翻译与情感理解方面显著提升了性能。我们提供了新的数据集与方法论思考,旨在支持大语言模型的领域专用优化。 |