arXiv 2026-06-11

标题	作者	发布日期	PDF链接	摘要
重路由而非移除：面向视觉语言模型的可恢复视觉令牌路由	Cheng-Yu Yang	2026-06-10	PDF	视觉语言模型（VLMs）将图像投影为数百至数千个视觉令牌，导致解码器在注意力计算和KV缓存内存方面成本高昂。现有的视觉令牌缩减方法大多遵循排序-移除范式：对视觉令牌评分，保留紧凑子集，并永久丢弃其余部分。我们证明这种不可逆操作存在脆弱性，因为视觉令牌的重要性会随解码器深度变化；在某一阶段评分较低的令牌可能在后续层中变得相关，尤其是对于需要精确定位的查询。我们提出Reroute，一种无需训练的即插即用方法，用可恢复路由替代永久移除。在每个路由阶段，选中的视觉令牌通过解码器模块，而延迟令牌则跳过该阶段，在下一个路由决策时重新进入候选池。Reroute复用现有的注意力评分排序规则和阶段调度策略，保留了其所增强的剪枝方法的理论TFLOPs和KV缓存预算类别。在基于LLaVA-1.5和Qwen骨干网络的FastV、PDrop及Nüwa变体上，Reroute在激进令牌缩减下提升了定位能力，同时保持通用VQA性能。这些结果表明，VLM令牌缩减不应仅被视为不可逆剪枝，而应视为可恢复路由。代码见：https://github.com/elmma/mllm-reroute/
上下文驱动的增量压缩用于多轮对话生成	Yeongseo Jung	2026-06-10	PDF	现代对话代理在每一轮对话中都会依赖不断增长的对话历史，导致冗余的注意力机制和编码成本随对话长度增加而上升。简单的截断或摘要会降低保真度，而现有的上下文压缩器缺乏跨轮次记忆共享或修正机制，导致信息丢失并在长对话中加剧错误累积。我们重新审视了对话动态下的上下文压缩问题，并通过实验揭示了其脆弱性。为提升效率与鲁棒性，我们提出上下文驱动的增量压缩方法（C-DIC），将对话视为交织的上下文线程，并在单一紧凑的对话记忆中存储每个线程可修正的压缩状态。在每一轮对话中，轻量级的检索、修正与回写循环实现跨轮次信息共享并更新过时记忆，从而稳定长程行为。此外，我们将截断式反向传播（TBPTT）适配至多轮场景，无需完整历史反向传播即可学习跨轮次依赖关系。在长对话基准上的大量实验表明，C-DIC在性能与效率上均表现优异；值得注意的是，C-DIC在数百轮对话中保持稳定的推理延迟与困惑度，为高质量对话建模提供了可扩展路径。
看似微不足道的设计选择如何决定病理学中大语言模型的性能	Kian R. Weihrauch	2026-06-10	PDF	通用大语言模型（LLM）在评估全切片病理图像（WSI）专用模型时，常被用作基线。由于WSI超出当前模型上下文限制，LLM基线通常采用独立处理的小尺寸高倍率图像块，通过多数投票法整合结果，而未系统评估图像块尺寸、数量及放大倍率等看似无关的设计选择。通用型LLM始终表现逊于专用系统，这强化了"处理WSI病理任务需领域特化训练或架构适配"的认知。本研究对四项输入设计因素（推理模式、图像块尺寸、放大倍率、图像块数量）进行系统析因分析。结果表明，既往研究因采用非优化输入配置，夸大了专用模型与通用LLM的性能差距。在MultiPathQA基准测试中，切换至单一平衡配置（低倍率大图像块联合处理）使GPT-5在癌症类型分类（TCGA）上从15.1%提升至39.5%，器官分类（GTEx）从38.1%提升至62.9%。任务级优化进一步将TCGA和GTEx性能分别提升至43.9%和71.6%。该配置可泛化至另外两种模型及完全保留的CPTAC队列，使Gemini 3 Flash在无需任务调优的情况下提升23.4个百分点。
事实2：学习商用机器人手臂的外部力感知可提升策略学习效果	Steven Oh	2026-06-10	PDF	接触丰富的操作需要力敏感性，但许多机器人手臂因成本高昂而缺乏专用力传感器。我们提出神经外力矩估计（NEXT），这是一种无需专用力传感器即可估计外部关节力矩的数据驱动方法。NEXT仅需1分钟训练，基于10分钟自由运动数据，即可达到与专用关节力矩传感器相当的估计精度。NEXT使低成本机械臂具备力反馈遥操作能力，并通过力信息重采样训练（FIRST）改进策略学习——在行为克隆过程中对预接触和接触片段进行过采样。在五项长时程任务中，FIRST的任务进度比先前的力感知策略提升超过17%。NEXT与FIRST共同为现成机器人带来力感知遥操作与策略学习能力，无需额外传感硬件。视频结果与代码见 https://jasonjzliu.com/factr2
世界飞行员：利用世界-动作先验引导视觉-语言-动作模型	Zefu Lin	2026-06-10	PDF	视觉-语言-动作（VLA）模型通过大规模预训练继承了语义基础，并在分布内的操作任务中表现出色。然而，这种语义基础建立在静态图像-文本对之上，而操作是一个连续的、富含接触的过程，其动态特性无法通过此类预训练捕捉。我们提出World Pilot，一种VLA框架，通过世界-动作模型（WAM）的先验知识增强策略，并通过两条互补路径将其引入决策链。潜在引导（Latent Steering）利用场景演化潜在变量对感知层进行条件化，动作引导（Action Steering）则提供预期轨迹作为动作生成器的运动先验。这两个先验共同赋予VLA对场景的预期视角、轨迹级运动提示以及语义条件化，即使由未经动作后训练的视频预训练世界模型提供，场景演化先验依然有效。World Pilot在LIBERO-Plus零样本OOD基准测试中达到84.7%的最优总成功率，并在四个操作任务的每个真实机器人设置中均取得最高成功率，在视角、几何、变形状态和位姿变化下优势最为显著。项目网站：https://world-pilot.github.io/
DIRECT：具身规划器中何时何地分配测试时计算？	Jadelynn Dao	2026-06-10	PDF	视觉-语言模型（VLMs）正越来越多地被部署为具身智能体的高层规划器，一种新兴策略是通过扩展测试时计算来提升能力。然而，我们观察到这种做法会增加延迟、token使用量和FLOPs，同时在下游任务中带来不均匀且往往递减的收益，限制了具身智能体的部署场景。我们认为，选择何时何地投入测试时计算是将前沿性能引入现实世界的关键。我们提出DIRECT，一种利用多模态场景上下文为每个提示分配计算资源的路由框架，在成功-成本帕累托前沿上优于固定模型选择。在链式思维深度、模型规模和记忆历史这三个主要扩展维度上，我们在VLABench和RoboMME上的实验表明，测试时计算并非均匀的杠杆：不同维度会产生性质不同的能力增益。我们在DROID设置中的物理Franka机械臂上验证了这些见解，涵盖零样本操作和长程链式任务，我们的路由器的成功率与更强模型相当或更优，同时平均延迟降低高达65%。最终，我们的结果表明，简单扩展测试时计算是浪费的，而DIRECT能够以极低的成本在机器人系统中实现前沿级别的具身规划。项目页面见jadee-dao.github.io/direct/。
Doc-to-Atom：学习编译与组合记忆原子	Xingjian Diao	2026-06-10	PDF	长输入序列对于大型语言模型中的文档理解和多步推理至关重要，但注意力机制的二次方复杂度使得推理过程既消耗内存又速度缓慢。上下文蒸馏通过将上下文信息压缩到模型参数中来缓解这一问题，而Doc-to-LoRA等近期工作将上下文蒸馏摊销为单次前向传播，为每个文档生成一个LoRA适配器。然而，为所有查询生成单一整体适配器会导致无关查询干扰、组合回忆能力受限以及长文档推理的可扩展性差。为解决这些挑战，我们提出Doc-to-Atom（Doc2Atom），一种组合式参数化记忆框架，将每个文档分解为语义类型化的知识原子。每个原子被编译为独立的微LoRA适配器和溯源检索键。在推理时，轻量级查询路由器选择并仅组装相关原子形成查询特定适配器，随后注入冻结的基础模型。整个系统通过多目标蒸馏框架进行端到端训练。在六个多样化问答基准上的实验表明，Doc2Atom在降低文档内化内存成本的同时，性能优于Doc-to-LoRA基线。
使用流形幂迭代重新设计混合专家路由器	Songhao Wu	2026-06-10	PDF	路由器是混合专家模型中的核心组件。作为专家代理，路由器矩阵的行向量计算其与MoE输入的相似度，以确定激活哪些专家子集。理想情况下，每个路由器行向量被设计为将专家矩阵编码为代表性向量，使其与令牌的点积能更好反映令牌-专家亲和度。然而，目前尚无设计原则来强制实现这种压缩。本文提出将每个路由器行向量与对应专家的主奇异方向对齐，因为该方向提供了矩阵最具表现力的数学描述。基于这一原则，我们提出采用流形幂迭代（MPI）的路由器重设计方法。具体而言，该方法引入"幂迭代-收缩"范式：先对路由器权重执行幂迭代步骤，再通过收缩施加范数约束以确保效率与稳定性。理论上，我们证明MPI驱动路由器行向量收敛至对应专家的主奇异方向。实验方面，我们预训练了从1B到11B参数规模的MoE模型，证实这种对齐能促进更有效的MoE模型。
VLGA：面向自动驾驶的视觉-语言-几何-动作模型	Jin Yao	2026-06-10	PDF	视觉-语言-动作（VLA）模型能够描述场景并用语言进行推理，但在将动作锚定于周围密集的三维世界时仍面临困难。现有方法要么从冻结的三维基础模型中注入特征，却缺乏确保策略使用这些特征的目标函数；要么通过稀疏的边界框和地图损失约束几何结构，无法提供密集的空间信号。我们提出VLGA，这是首个通过监督学习重建其驾驶场景中密集三维世界的视觉-语言-动作模型。VLGA将几何作为第四模态引入，与视觉、语言和动作并列，通过专用专家模块实现，该模块利用逐像素点图回归损失（以LiDAR为基准）进行监督。在nuScenes（开环评估）和Bench2Drive（闭环评估）数据集上的大量实验表明，VLGA优于同类VLA方法。具体而言，在开环nuScenes中，VLGA在无自车状态输入的VLA方法中达到新最优水平，L2误差最低（平均0.50米），3秒碰撞率最低（0.18%）。在闭环Bench2Drive中，VLGA以79.08的驾驶得分达到最优性能，较最强先前VLA方法提升0.71分，且效率与舒适性相当。
CCL25-Eval任务5系统报告：新数据集与LoRA微调Qwen2.5	Haotao Xie	2026-06-10	PDF	近期，大语言模型在古诗文翻译与古典诗歌生成领域取得了显著进展。然而，针对古典诗歌精准翻译与情感语义理解的专项研究仍较为有限。主要挑战在于：多数研究将诗歌鉴赏任务视为通用领域问题，忽视了诗歌鉴赏的独特特征，同时高质量领域专用数据集极度匮乏。为解决这一局限，我们将任务分解为三个子任务：术语解释、语义解释与情感推断。基于多个开源数据集，我们进行数据清洗与对齐，构建了古典诗歌指令对数据集（CCPoetry-49K），包含49,404条针对该领域优化的高质量指令-响应对。随后，我们通过低秩适配技术对Qwen2.5-14B模型进行微调，提出了领域专用大语言模型PoetryQwen。在CCL25-Eval任务5基准测试上的实验结果表明，PoetryQwen取得了0.757的评分，较Qwen2.5-14B-Instruct基线（0.690）提升了9.7%。这些发现明确表明，PoetryQwen在古典诗歌的精准翻译与情感理解方面显著提升了性能。我们提供了新的数据集与方法论思考，旨在支持大语言模型的领域专用优化。