arXiv 2026-05-24

标题	作者	发布日期	PDF链接	摘要
通过凸松弛实现分词	Jan Tempus	2026-05-21	PDF	分词是当前自然语言处理流程中不可或缺的组成部分。现有的分词算法（如BPE和Unigram）均为贪心算法——它们仅基于局部最优决策，未将整体词汇表纳入考量。我们转而将分词器构建问题形式化为线性规划，并利用凸优化工具求解，由此提出名为ConvexTok的新算法。实验表明，ConvexTok能持续提升分词内在指标及语言模型实现的每字节比特数（BpB）；在下游任务性能上亦有改进，但效果不够稳定。此外，ConvexTok允许用户通过下界验证其分词器与特定目标的最优性差距——实证发现，在常见词汇表规模下，该差距可控制在1%以内。
它往哪个方向移动？诊断并克服视频大语言模型中的方向性运动盲症	Jongseo Lee	2026-05-21	PDF	视频大语言模型（Video-LLMs）在时间视频理解方面取得了快速进展，但许多模型在基本感知原语——即图像平面上的符号化运动方向——上表现失败。在单一物体向左、右、上或下移动的简单视频中，大多数Video-LLMs的表现接近随机水平，而高于随机的情况主要归因于预测偏差，而非真正的方向理解。我们将这种失败称为方向性运动盲症。通过追踪运动方向信息在Video-LLM处理流程中的流动，我们定位了失败原因。运动方向在视觉编码器、投影器和LLM隐藏状态中仍保持线性可访问性，但读出过程未能将该信号绑定到正确的口头答案选项上，揭示了方向绑定缺口。尽管合成运动方向指令微调在源领域缩小了这一缺口，但运动方向概念向量分析表明，视觉复杂性削弱了信号强度并限制了域外泛化。我们引入了MoDirect——一个用于运动方向指令微调和评估的数据集系列，以及DeltaDirect——一种诊断驱动的投影器级目标函数，该函数从相邻帧特征差异中预测归一化的二维运动向量。在MoDirect-SynBench上，使用DeltaDirect进行指令微调将运动方向准确率从25.9%提升至85.4%。在MoDirect-RealBench上，DeltaDirect在无真实世界微调数据的情况下，将真实世界运动方向准确率较原始基线提升21.9个百分点，同时保持标准视频理解性能。代码：https://github.com/KHU-VLL/DeltaDirect
通过神经需求势能实现的可积弹性	Carlos Heredia	2026-05-21	PDF	我们提出可积上下文相关需求网络（ICDN），这是一种面向多产品零售需求的需求优先神经网络模型。该模型将对数需求学习为对数价格的平滑、上下文条件函数，从而能够从学习到的需求曲面精确推导出弹性。在Dominick's啤酒数据集上，ICDN相比有向对数-对数基准模型提升了样本外泛化能力，并生成了更稳定、经济上更合理的弹性估计，尤其适用于弱识别的交叉价格效应。
Cambrian-P：基于姿态的视频理解	Jihan Yang	2026-05-21	PDF	相机位姿至关重要。每个视角的位置和朝向定义了一个共享的空间坐标框架，用于关联视频帧之间的观测信息。然而，这一信号在多模态大语言模型（MLLMs）的视频理解中基本缺失——这些模型将帧视为孤立的二维快照，而非人类所感知的持续场景。我们重新审视位姿作为轻量级监督信号的作用，提出Cambrian-P：一种增强型视频多模态大语言模型，配备逐帧可学习的相机标记和位姿回归头。通过精心设计的采样方案，该模型在VSI-Bench等空间推理基准上取得4.5-6.5%的显著提升，在另外八个空间与通用视频问答基准上展现泛化能力，并作为副产品在ScanNet上实现了流式位姿估计的最优性能。令人惊讶的是，使用野外视频的伪标注位姿进行训练进一步提升了通用视频问答基准的表现，表明位姿在空间推理之外也能发挥作用。这些结果共同将相机位姿定位为视频模型理解物理世界的基础信号。
MotiMotion：基于视觉推理的运动控制视频生成	Lee Hsin-Ying	2026-05-21	PDF	当前基于运动控制的图像到视频生成模型严格遵循用户提供的轨迹，但这些轨迹往往稀疏、不精确且因果不完整。这种依赖常导致生成结果不自然或不可信，尤其容易遗漏次要因果后果。为解决这一问题，我们提出MotiMotion——一种将运动控制重构为“先推理后生成”问题的新框架。为促进基于因果逻辑且符合常识的交互，我们利用无需训练的视觉语言推理器优化主轨迹的图像空间坐标，并合理推测次要运动。为进一步提升运动自然度，我们提出置信度感知控制方案，动态调节引导强度：使模型在高置信度计划下严格遵循轨迹，同时在低置信度输入下利用内部生成先验修正伪影。为支持系统性评估，我们构建了新的图像到视频基准MotiBench，包含由运动触发新事件的交互中心场景。基于VLM的评估与人类研究均表明，MotiMotion生成的视频具有更合理的物体行为与交互，且优于现有方法。
向量策略优化：多样性训练提升测试时搜索性能	Ryan Bahlous-Boldi	2026-05-21	PDF	语言模型现在必须能够开箱即用地泛化到新环境，并在推理时扩展的搜索流程（如AlphaEvolve）中工作，这些流程会通过多种任务特定的奖励函数来选择生成结果。不幸的是，当前大语言模型后训练的标准范式优化的是预设的标量奖励，这往往导致现有LLM产生低熵的响应分布，从而难以展现推理时搜索所需的多样性。我们提出向量策略优化（VPO），这是一种显式训练策略以应对多样化下游奖励函数并生成多样化解决方案的强化学习算法。VPO利用了实际场景中奖励常为向量值的特点（例如代码生成中每个测试用例的正确性，或多种不同用户画像/奖励模型）。VPO本质上是GRPO优势估计器的即插即用替代方案，但它训练LLM输出一组解决方案，其中每个解决方案专门针对向量奖励空间中的不同权衡。在四个任务中，VPO在测试时搜索指标（如pass@k和best@k）上达到或超越最强标量强化学习基线，且随着搜索预算增加差距进一步扩大。在进化搜索中，VPO模型解锁了GRPO模型完全无法解决的问题。随着测试时搜索日益标准化，优化多样性可能需要成为默认的后训练目标。
AwareVLN：面向视觉语言导航的自我感知推理	Wenxuan Guo	2026-05-21	PDF	视觉与语言导航（VLN）要求智能体在视觉环境中将语言指令与自身移动相结合。现有最先进方法虽利用视觉语言模型（VLM）的推理能力进行端到端动作预测，但往往缺乏对智能体、指令和场景之间关系的显式可解释理解。相反，为启发式规划显式构建场景地图虽直观可行，却依赖额外3D传感器且阻碍大规模视觉语言预训练。为弥合这一差距，我们提出AwareVLN——一种新型框架，通过为导航模型配备自感知推理机制，使其能以完全端到端和数据驱动的方式理解智能体状态与任务进度。本方法包含两项关键创新：（1）结构推理模块，促进空间与任务导向的自感知能力；（2）带进度划分的自动数据引擎，实现高效训练。在Habitat模拟器多个数据集上的大量实验表明，AwareVLN显著优于先前最先进的视觉语言导航方法。项目页面：https://gwxuan.github.io/AwareVLN/。
保持好奇：用于3D探索的情景上下文与持久世界	Lily Goli	2026-05-21	PDF	探索是在稀疏奖励、长周期任务中学习有用行为的前提条件，尤其在三维环境中。基于好奇心的强化学习通过智能体对世界的预测模型与现实之间的差异产生的内在奖励来解决这一问题。然而，将这种内在动机迁移到复杂、逼真的环境中仍然困难，因为智能体会陷入局部循环，并在重新访问被遗忘的状态时获得新的奖励。在本研究中，我们证明这种失败源于缺乏空间持久性和情景上下文。我们表明，有效的好奇心需要一个持久且持续更新的世界模型，并配合一个维护情景轨迹历史以导航至新区域的智能体。我们通过在线三维重建作为持久的世界模型来实现这一点，同时将智能体策略参数化为基于RGB观测的序列模型以维护情景上下文。这种设计使训练期间能够进行有效探索，同时允许智能体在部署时仅使用RGB帧进行导航。仅通过HM3D上的好奇心训练，我们的智能体在性能上超越了基于强化学习的主动建图基线，并零样本泛化至Gibson和AI生成的世界。我们的端到端策略能够高效适应下游任务，如摘苹果和图像目标导航，性能优于从头训练的基线。视频结果请见https://recuriosity.github.io/。
GesVLA：嵌入表征的姿势感知视觉-语言-动作模型	Wenxuan Guo	2026-05-21	PDF	视觉-语言-动作（VLA）模型通过统一感知与动作，在通用机器人操作中展现出巨大潜力。然而，现有VLA系统主要依赖文本指令，难以解决复杂场景中多个相似物体造成的空间歧义问题。为突破这一局限，我们引入手势作为并行指令模态，并提出手势感知视觉-语言-动作模型（GesVLA）。该方法将手势特征直接编码至潜在空间，使其既能参与高层推理又能参与低层动作生成，并采用双VLM架构实现手势表征与动作策略的紧密耦合。在数据层面，我们通过将手部模型渲染到真实场景图像上，构建了可扩展的手势数据生成流水线，在缩小仿真到真实视觉差异的同时，生成包含多样化运动模式及对应指向标注的丰富数据。此外，我们采用两阶段训练策略，使模型同时具备手势感知与动作预测能力。我们在多个真实机器人任务上评估该方法，包括用于验证的受控积木操作任务，以及产品与农产品选择等更实用场景。实验结果表明，融入手势能持续提升目标定位精度与人机交互效率，尤其在复杂杂乱环境中表现显著。项目页面：https://gwxuan.github.io/GesVLA/。
GS-QA：地理空间问答基准	Majid Saeedan	2026-05-21	PDF	大型语言模型（LLM）的最新进展显著提升了问答系统的性能。为应对问答系统评估的挑战，标准化基准测试应运而生。本研究聚焦地理空间问答问题，其中大量地理空间数据以空间数据库或其他形式存在。现有地理空间问答基准存在诸多局限，包括问题数量少、空间谓词有限、输出类型单一且缺乏多源推理能力。我们提出GS-QA——一个可扩展的地理空间问答基准，基于OpenStreetMap和Wikipedia数据构建了28个模板的2800个问答对，涵盖广泛的空间对象、谓词（包括方向过滤和朝向过滤）及答案类型（实体名称、位置、距离、方向、计数和聚合面积/长度）。GS-QA的关键特性在于部分问题需要整合多源信息，例如结合OSM的地理空间信息与Wikipedia的事实信息。该基准包含综合评估方法，融合了基于文本的问答指标与地理空间专用指标（如距离误差和角度误差）。我们采用三种LLM（GPT-4o、Claude Sonnet 4.6和Ministral-3），结合直接提示、检索增强生成和文本转SQL方法，实现了九个基于LLM的地理空间问答基线。实验结果表明，现有方案在处理简单空间谓词和实体名称输出时表现良好，但在涉及复杂空间谓词、数值输出类型及多源推理的问题上准确率显著下降，证明地理空间问答仍是值得深入研究的开放性挑战。