arXiv 2026-05-22

标题	作者	发布日期	PDF链接	摘要
通过凸松弛实现分词	Jan Tempus	2026-05-21	PDF	分词是当前自然语言处理流程中不可或缺的组成部分。现有的分词算法（如BPE和Unigram）属于贪心算法——它们仅基于局部最优决策，而未从整体角度考虑最终生成的词汇表。我们转而将分词器构建问题建模为线性规划，并利用凸优化工具求解，由此提出名为ConvexTok的新算法。实验表明，ConvexTok能持续改进分词内在评估指标及语言模型实现的每字节比特数（BpB）；在下游任务性能上亦有提升，但稳定性稍弱。此外，ConvexTok允许用户通过下界验证其分词器与特定目标函数的最优解之间的差距，实证发现，在常见词汇表规模下，该差距可控制在1%以内。
它往哪边移动？诊断并克服视频大语言模型中的方向性运动盲点	Jongseo Lee	2026-05-21	PDF	视频大语言模型（Video-LLMs）在时序视频理解方面取得了快速进展，但许多模型在基本感知原语——图像平面有符号运动方向——上表现失败。在单个物体向左、右、上或下移动的简单视频中，大多数Video-LLMs的表现接近随机水平，而高于随机的情况主要归因于预测偏差，而非真正的方向理解。我们将这种失败称为方向运动盲视。我们通过追踪Video-LLM流水线中的运动方向信息来定位该失败。运动方向在视觉编码器、投影器和LLM隐藏状态中仍保持线性可访问性，但读出过程未能将该信号绑定到正确的口头答案选项上，揭示了方向绑定缺口。尽管合成运动方向指令微调在源领域缩小了这一缺口，但运动方向概念向量分析表明，视觉复杂性削弱了信号强度并限制了域外泛化。我们引入了MoDirect——一个用于运动方向指令微调和评估的数据集家族，以及DeltaDirect——一种诊断驱动的投影器级目标函数，该函数从相邻帧特征差异中预测归一化的二维运动向量。在MoDirect-SynBench上，使用DeltaDirect进行指令微调将运动方向准确率从25.9%提升至85.4%。在MoDirect-RealBench上，DeltaDirect在无真实世界微调数据的情况下，将真实世界运动方向准确率相较于原始基线提升了21.9个百分点，同时保持了标准视频理解性能。代码：https://github.com/KHU-VLL/DeltaDirect
通过神经需求势能实现的可积弹性	Carlos Heredia	2026-05-21	PDF	我们提出可积情境依赖需求网络（ICDN），这是一种面向多产品零售需求的需求优先神经网络模型。该模型将对数需求学习为对数价格的光滑、情境条件函数，从而能够从学习到的需求曲面精确推导出弹性。在Dominick's啤酒数据集上，ICDN相比有向对数-对数基准模型提升了样本外泛化能力，并生成了更稳定、经济上更合理的弹性估计，尤其对于弱识别的交叉价格效应。
Cambrian-P: 基于姿态的视频理解	Jihan Yang	2026-05-21	PDF	相机位姿至关重要。每个视角的位置和朝向定义了一个共享的空间坐标框架，用于关联视频帧之间的观测信息。然而，这一信号在多模态大语言模型（MLLMs）的视频理解中基本缺失——这些模型将帧视为孤立的二维快照，而非人类所感知的持续场景。我们重新审视位姿作为轻量级监督信号的作用，提出Cambrian-P，一种通过逐帧可学习相机令牌和位姿回归头增强的视频MLLM。借助精心设计的采样方案，该模型在VSI-Bench等空间推理基准上取得了4.5-6.5%的显著提升，在另外八个空间和通用视频问答基准上展现出泛化能力，并作为副产品，在ScanNet上实现了流式位姿估计的最优性能。令人惊讶的是，使用来自野外视频的伪标注位姿进行训练进一步提升了通用视频问答基准的表现，表明位姿在空间推理之外也能提供帮助。这些结果共同将相机位姿定位为视频模型理解物理世界的基础信号。
MotiMotion：基于视觉推理的运动控制视频生成	Lee Hsin-Ying	2026-05-21	PDF	当前基于运动控制的图像到视频生成模型严格遵循用户提供的轨迹，但这些轨迹往往稀疏、不精确且因果不完整。这种依赖常导致不自然或不可信的结果，尤其会遗漏次要因果后果。为解决这一问题，我们提出MotiMotion——一种将运动控制重构为"推理-生成"问题的新框架。为促进基于因果推理且符合常识的交互，我们利用无需训练的视觉语言推理器优化主轨迹的图像空间坐标，并合理推测次要运动。为进一步提升运动自然度，我们提出置信度感知控制方案，通过调节引导强度使模型在高置信度计划下严格遵循轨迹，同时在低置信度输入下利用内部生成先验修正伪影。为支持系统性评估，我们构建了新的图像到视频基准MotiBench，包含由运动触发新事件的交互中心场景。基于VLM的评估与MotiBench上的人类研究均表明，MotiMotion生成的视频具有更合理的物体行为与交互，且优于现有方法。
向量策略优化：多样性训练提升测试时搜索性能	Ryan Bahlous-Boldi	2026-05-21	PDF	语言模型现在必须能够开箱即用地泛化到新环境，并在推理时扩展的搜索流程（如AlphaEvolve）中工作，这些流程会通过多种任务特定的奖励函数来选择生成结果。然而，LLM后训练的标准范式是优化一个预设的标量奖励，这往往导致当前LLM产生低熵的响应分布，从而难以展现推理时搜索所需的多样性。我们提出向量策略优化（VPO），这是一种强化学习算法，明确训练策略以预测多样化的下游奖励函数并生成多样化的解决方案。VPO利用了实践中奖励常为向量值的特点，例如代码生成中每个测试用例的正确性，或多种不同的用户画像及奖励模型。VPO本质上可作为GRPO优势估计器的即插即用替代方案，但它训练LLM输出一组解决方案，其中每个解决方案专门针对向量奖励空间中的不同权衡。在四个任务上，VPO在测试时搜索（如pass@k和best@k）中匹配或超越了最强的标量RL基线，且随着搜索预算增加，差距进一步扩大。对于进化搜索，VPO模型解锁了GRPO模型完全无法解决的问题。随着测试时搜索日益标准化，优化多样性可能需成为默认的后训练目标。
AwareVLN：视觉语言导航中的自我意识推理	Wenxuan Guo	2026-05-21	PDF	视觉与语言导航要求智能体在视觉环境中根据语言指令进行移动。现有最先进方法虽能利用视觉语言模型的推理能力实现端到端动作预测，但往往缺乏对智能体、指令和场景之间关系的显式可解释理解。相反，显式构建场景地图进行启发式规划虽直观可行，却依赖额外3D传感器且阻碍大规模视觉语言预训练。为弥合这一鸿沟，我们提出AwareVLN这一新型框架，通过赋予导航模型自我感知推理机制，使其能以完全端到端和数据驱动的方式理解智能体状态与任务进度。本方法包含两项关键创新：(1) 结构推理模块，促进空间与任务导向的自我感知能力；(2) 具备进度划分功能的自动数据引擎，实现高效训练。在Habitat模拟器多个数据集上的大量实验表明，AwareVLN显著超越先前最先进的视觉语言导航方法。项目页面：https://gwxuan.github.io/AwareVLN/。
保持好奇心：用于三维探索的情景语境与持久世界	Lily Goli	2026-05-21	PDF	在稀疏奖励、长周期任务中，探索是学习有用行为的前提，尤其在三维环境中。基于好奇心的强化学习通过智能体对世界的预测模型与现实之间的差异产生的内在奖励来解决这一问题。然而，将这种内在动机迁移到复杂逼真的环境中仍然困难，因为智能体可能陷入局部循环，并在重新访问被遗忘的状态时获得新的奖励。本研究表明，这种失败源于缺乏空间持久性和情景上下文。我们证明，有效的好奇心需要一个持续更新且具有持久性的世界模型，同时智能体需维护一个情景轨迹历史以导航至新区域。我们通过在线三维重建作为持久的世界模型实现这一目标，而智能体策略则参数化为基于RGB观测的序列模型以维持情景上下文。这种设计使训练期间能够有效探索，同时允许智能体在部署时仅使用RGB帧进行导航。仅通过HM3D上的好奇心训练，我们的智能体超越了基于强化学习的主动建图基线，并零样本泛化至Gibson和AI生成的世界。我们的端到端策略能够高效适应下游任务（如摘苹果和图像目标导航），优于从头训练的基线。视频结果请见https://recuriosity.github.io/。
GesVLA：嵌入表征的姿势感知视觉-语言-动作模型	Wenxuan Guo	2026-05-21	PDF	视觉-语言-动作（VLA）模型通过统一感知与动作，在通用机器人操作中展现出强大潜力。然而，现有VLA系统主要依赖文本指令，难以解决复杂场景中多个相似物体带来的空间歧义问题。为突破这一局限，我们引入手势作为并行指令模态，并提出手势感知视觉-语言-动作模型（GesVLA）。该方法将手势特征直接编码至潜在空间，使其同时参与高层推理与低层动作生成，并采用双VLM架构实现手势表征与动作策略的紧密耦合。在数据层面，我们通过将手部模型渲染至真实场景图像，构建了可扩展的手势数据生成流水线，在降低仿真到现实视觉差异的同时，生成包含多样化运动模式及对应指向标注的丰富数据。此外，我们采用两阶段训练策略，使模型同时具备手势感知与动作预测能力。我们在多个真实机器人任务上评估该方法，包括用于验证的受控积木操作任务，以及产品与农产品选择等更实用场景。实验结果表明，融入手势持续提升了目标定位精度与人机交互效率，尤其在复杂杂乱环境中表现显著。项目页面：https://gwxuan.github.io/GesVLA/。
GS-QA：地理空间问答基准	Majid Saeedan	2026-05-21	PDF	大型语言模型（LLM）的最新进展显著提升了问答系统的性能。为应对问答系统评估的挑战，标准化基准测试应运而生。本研究聚焦地理空间问答问题，其中大量地理空间数据以空间数据库或其他形式存在。现有地理空间问答基准存在诸多局限，包括问题数量少、空间谓词有限、输出类型单一且缺乏多源推理能力。我们提出GS-QA——一个可扩展的地理空间问答基准，基于OpenStreetMap和Wikipedia数据构建了28个模板的2800个问答对，涵盖广泛的空间对象、谓词（包括方向过滤和朝向过滤）及答案类型（实体名称、位置、距离、方向、计数、聚合面积/长度）。GS-QA的关键特性在于部分问题需融合多源信息，例如结合OSM的地理空间信息与Wikipedia的事实信息。该基准采用综合评估方法，融合基于文本的问答指标与地理空间特定指标（如距离误差和角度误差）。我们基于三种LLM（GPT-4o、Claude Sonnet 4.6、Ministral-3）结合直接提示、检索增强生成和文本转SQL策略，实现了九种地理空间问答基线系统。实验结果表明，现有方案在简单空间谓词和实体名称输出场景下表现良好，但涉及复杂空间谓词、数值输出类型及多源推理的问题时准确率显著下降，证明地理空间问答仍是亟待深入研究的开放性难题。