arXiv 2026-06-09

标题	作者	发布日期	PDF链接	摘要
视频世界模型的潜在空间记忆	Weijie Wang	2026-06-08	PDF	在生成帧之间保持3D空间一致性的视频世界模型通常依赖于在RGB空间中构建的显式点云记忆。这种设计不仅计算成本高昂（需要重复渲染和VAE编码），而且本质上存在信息损失——因为往返像素空间的过程会丢弃学习到的潜在表示中的丰富特征。本文提出面向视频世界模型的潜在空间记忆，这是一种持久化3D缓存，可直接在扩散潜在空间中存储场景信息，避免了像素空间重建。基于此，我们提出Mirage——一种潜在空间空间记忆框架，通过深度引导反投影将潜在标记提升至3D空间来构建记忆，并通过直接潜在空间扭曲合成新视角来查询记忆。这种统一公式消除了像素空间重建的信息损失以及重复编码和渲染的计算负担。实验表明，与显式3D基线相比，潜在空间记忆实现了高达\textbf{10.57}倍的端到端视频生成加速和\textbf{55}倍的内存占用缩减。借助扩散模型的几何先验，Mirage在WorldScore上达到最先进性能，并在RealEstate10K上展现出强大的重建质量。
MemoryVLA++：视觉-语言-动作模型中基于记忆与想象的时间建模	Hao Shi	2026-06-08	PDF	时间建模对于机器人操作至关重要，因为有效控制既需要记忆过去的交互，也需要想象未来的状态。然而，大多数VLA模型主要依赖当前观测，因此在处理长时域、时间依赖的任务时存在困难。认知科学表明，人类依赖工作记忆缓冲短期上下文，依赖海马系统保存过去经历的情景记忆，并依赖内部模型想象可能的未来状态演化。受这些机制启发，我们提出MemoryVLA++，一个完整的时间建模框架，为VLA模型配备记忆与想象能力以支持机器人操作。预训练的VLM将当前观测编码为感知和认知令牌，形成工作记忆。这些令牌查询感知-认知记忆库以检索相关历史上下文。该记忆库存储过去交互中的低层细节和高层语义，并通过冗余感知整合进行更新。一个世界模型在去噪潜在空间中想象未来状态，并在记忆引导下整合这些想象潜在表示，形成完整的时间感知令牌。最终令牌条件化一个扩散动作专家，以预测时间一致的动作序列。我们在5个仿真基准和3类真实机器人任务（涵盖3种机器人）上进行了广泛实验，覆盖通用操作、长时域时间依赖任务、鲁棒性和泛化性。我们的方法在Libero、SimplerEnv、Mikasa-Robo、Calvin、Libero-Plus以及多种真实机器人任务上取得了强劲性能，验证了结合记忆与想象的完整时间建模的有效性。例如，在真实机器人上，在通用、记忆依赖和想象依赖任务上分别取得了+9%、+26%和+28%的提升。项目页面：https://shihao1895.github.io/MemoryVLA-PP-Web
OmniGameArena：面向具备改进动态的VLM游戏智能体的统一UE5基准测试	Mingxian Lin	2026-06-08	PDF	视觉语言模型（VLM）智能体正越来越多地部署在交互式游戏环境中。然而，针对VLM智能体的游戏基准测试通常仅报告每个（智能体，游戏）对的单次首次尝试得分，侧重于单人Solo模式，且缺乏统一协议来评估异构智能体类别（商业VLM、开源权重VLM和专用游戏策略）在同一标准下的表现。我们通过OmniGameArena填补这些空白，这是一个包含十二个新构建的Unreal Engine 5游戏的实时基准测试，涵盖Solo（7个）、PvP（3个）和Coop（2个）模式，具有统一动作接口；同时引入改进动态曲线（IDC），这是一种智能体反思框架，其中使用工具的反射LLM自主优化多轮有限技能提示。除了冷启动排行榜得分外，IDC还为每个（智能体，游戏）对揭示两个额外可观测指标：得分在反思轮次中的演变方式，以及所学技能在保留任务变体上的表现。我们报告了十二个VLM智能体在冷启动排行榜上的这些指标，以及四个顶级智能体在IDC下的表现。
一种基于代理转移的无模型策略增强技术	Anton Bolychev	2026-06-08	PDF	从头训练强化学习策略成本高昂：需要精心设计奖励与环境、大量调参以及可观的计算资源。然而许多控制问题已有可用的次优基线策略。本文提出一种将此类基线策略嵌入强化学习训练过程的方法，既能提升训练效率，又能产出超越基线性能的学习策略。该方法在每个步骤中协调基线策略与可训练的学习策略，初始阶段高度依赖基线策略，随后逐步将控制权转移至学习策略。训练完成后，学习策略成为无需基线支持的独立神经网络。本文形式化定义了基线策略的"功能性"标准：在该策略下，智能体能以高概率到达目标集并保持稳定。所提出的协调机制旨在训练过程中利用这一特性，使训练初期即实现高目标到达率。理论分析在给定假设下对此行为进行形式化解释，并将其扩展至最终无基线阶段，推导出独立学习策略目标到达概率的显式下界。在连续控制基准上的实验表明，该方法在保持训练全程最高目标到达率（包括最终无基线阶段）的同时，其回报表现可与竞争方法持平或更优。
因果评估形式语言任务的可学习性	Vésteinn Snæbjarnarson	2026-06-08	PDF	语言模型作为多任务学习器，在训练过程中会获得广泛的能力。一个根本性问题是：学习特定任务需要多少任务专属数据？在自然语言领域回答这一问题颇具挑战：任务难以界定且可能相互干扰。为严谨探究数据频率与可学习性之间的关系，我们转向基于概率有限自动机生成的形式语言这一受控环境。这些形式语言作为方法论测试平台，证明了标准相关性评估实践存在固有缺陷。为实现因果分析，我们引入分箱半环这一代数结构，它能控制目标属性在采样语料库中的出现频率。我们将实验流程构建为因果图模型，并推导出分解的库尔贝克-莱布勒散度指标，用以测量特定子任务的可学习性。实验表明，若不进行因果干预而直接评估可学习性，会因相关性分析中的混杂因素得出错误结论，这为自然语言场景中的相关性陷阱敲响了警钟。
重新思考大语言模型强化学习中的散度正则化	Jiarui Yao	2026-06-08	PDF	强化学习已成为大语言模型后训练的关键组成部分。由于训练-推理不匹配和策略陈旧性，实际中的大语言模型强化学习常采用离策略方式，这使得信任区域控制对稳定优化至关重要。PPO和GRPO等主流方法通过比率裁剪机制近似实现这种控制，但在长尾词汇中重要性比率难以有效表征分布偏移。近期DPPO等工作通过将基于比率的裁剪替换为基于散度的掩码，以采样token的绝对概率偏移定义信任区域。然而DPPO仍依赖硬掩码：当token朝有害方向跨越信任区域边界时，其梯度会被直接丢弃而非修正。为此我们提出散度正则化策略优化，用平滑的优势加权二次正则化项替代硬掩码。DRPO在保持与DPPO相同信任区域几何结构的同时，引入有界连续梯度权重，既能衰减发散性更新，又能为边界外的梯度提供修正信号。跨模型规模、架构和精度设置的实验表明，DRPO能提升大语言模型强化学习训练的稳定性和效率。
无限维流形上可微映射的加权万能逼近	Philipp Schmocker	2026-06-08	PDF	我们将函数输入神经网络（FNN）的通用逼近定理推广到可微映射，并包含导数的逼近。FNN将可能来自无限维加权流形的输入映射到实值隐藏层，在该层上应用非线性标量激活函数，然后通过线性读出将输出返回到巴拿赫空间。通过证明加权纳赫宾定理，我们建立了可微映射的通用逼近定理，该定理超越了紧集上的常规表述，并包含导数的逼近。这为我们得到了非预期泛函的逼近结果，包括水平和垂直导数。作为进一步应用，我们证明了签名的线性函数能够逼近路径空间泛函及其方向导数。
PTL-Diffusion：具有周期性终端律的流形感知扩散	Danqi Zhuang	2026-06-08	PDF	标准扩散模型通常使用单一的时间齐次高斯终端分布作为生成的参考律。尽管这种选择在分析上便捷且经验上有效，但对于集中在低维流形附近的数据（其中数据分布的不同区域可能对应不同的局部几何或语义因素），它提供的显式结构很少。因此，反向模型必须几乎完全从无结构的终端参考分布中恢复流形级结构。我们提出PTL-Diffusion，一种概念验证的扩散框架，其前向加噪过程收敛到非恒定的周期高斯终端律族，而非单一不变律。与相位条件DDPM（其中相位信息仅进入去噪网络而前向过程保持不变）不同，PTL-Diffusion将相位结构直接嵌入前向加噪动力学中。所提出的构造仍接近标准去噪扩散模型：对于周期强迫的Ornstein-Uhlenbeck型前向过程，我们推导出闭式前向边缘分布、极限周期高斯终端族以及显式高斯反向后验，从而实现标准噪声预测训练。我们还引入了一个不变平均正则化项，通过平均周期参考律耦合相位条件反向动力学。在环面和圆柱点云基准测试以及Olivetti人脸数据集上的实验表明，PTL-Diffusion在匹配DDPM基线的基础上改善了流形级分布匹配，减少了相位条件误差、特征空间协方差误差和最近邻流形距离。这些结果表明结构化终端参考律是一个有前景的方向，同时激励更具表达力的相位构造和更大规模的评估。
iMaC：将动作转化为运动与接触图像，用于具身世界模型	Zhenyu Wu	2026-06-08	PDF	具身世界模型已成为视觉机器人决策与交互环境模拟的关键范式。然而，传统具身框架依赖低维结构化动作向量（如关节角度、末端执行器位姿），存在表达能力有限、跨形态泛化能力弱、复杂物理交互动态建模不自然等局限。针对这些问题，本文提出iMac（图像即动作控制），一种将原始视觉图像作为具身世界模型原生动作表征的新型统一控制范式。不同于传统显式运动学动作编码，iMac将连续视觉操控转化为基于图像的动作令牌，这些令牌天然蕴含空间运动意图、交互几何约束与细微物理动态。我们构建了由图像动作编码器与动态世界预测器组成的双分支具身架构：编码器将目标驱动视觉图像压缩为紧凑动作嵌入，预测器则学习以图像动作为条件的环境转移规则，实现高保真未来状态预测与闭环具身控制。在公开具身操控基准与真实机器人场景上的大量实验表明，iMac在预测精度、任务成功率与跨场景泛化能力上均优于基于向量的动作控制基线。此外，我们的图像动作设计消除了对手动定义动作空间的依赖，实现了异构具身智能体的灵活通用控制。这项工作为具身世界模型提供了创新的视觉动作视角，为可扩展的机器人感知与操控提供了简洁有效的范式。
AHA-WAM：基于观测引导上下文路由的异步自适应视界世界-动作建模	Jisong Cai	2026-06-08	PDF	世界-动作模型已成为机器人操作领域的一种有前景范式，通过联合建模视觉场景动态与动作，将物理先验注入策略学习。然而，现有世界-动作模型以相同时间分辨率耦合世界预测与动作执行，迫使世界分支建模冗余且信息量低的近期帧变化。我们认为，严格将世界预测与动作执行绑定在同一时间节奏可能未充分利用视频分支在具身控制中的潜力。为此，我们提出AHA-WAM——一种基于双扩散Transformer（DiT）架构的异步自适应时域世界-动作模型，围绕这种时间不对称性重构世界-动作建模。AHA-WAM将视频DiT实例化为低频世界规划器，维护过去观测的滚动键值记忆，并暴露可复用的逐层潜上下文编码长期场景演化；同时，高频动作DiT通过逐层联合注意力查询该上下文，以闭环方式执行短动作片段。为支持异步执行，我们引入自适应时域偏移训练与观测引导视频上下文路由（OVCR），使动作专家既能利用长期世界上下文，又能保持对实时执行状态的响应性，而无需重新运行视频DiT。在RoboTwin和真实世界操作任务上的实验表明，AHA-WAM无需任何机器人数据预训练即达到最先进性能，在RoboTwin上平均成功率达92.80%，在4项真实世界任务中成功率达78.3%，同时实现24.17 Hz的闭环控制，相比Fast-WAM获得4.59倍加速。