arXiv 2026-05-02

标题	作者	发布日期	PDF链接	摘要
HERMES++：面向三维场景理解与生成的统一驾驶世界模型	Xin Zhou	2026-04-30	PDF	驾驶世界模型通过模拟环境动态，成为自动驾驶的关键技术。然而，现有方法主要聚焦于未来场景生成，往往忽略全面的3D场景理解。相反，尽管大语言模型展现出强大的推理能力，但它们缺乏预测未来几何演化的能力，导致语义解释与物理模拟之间存在显著差距。为弥合这一鸿沟，我们提出HERMES++，一个统一的驾驶世界模型，将3D场景理解与未来几何预测整合在单一框架内。我们的方法通过协同设计满足这些任务的独特需求。首先，BEV表示将多视角空间信息整合为与LLM兼容的结构。其次，我们引入LLM增强的世界查询，以促进理解分支的知识迁移。第三，设计当前到未来链接以弥合时间差距，使几何演化基于语义上下文。最后，为强化结构完整性，我们采用联合几何优化策略，将显式几何约束与隐式潜在正则化相结合，使内部表示与几何感知先验对齐。在多个基准上的广泛评估验证了我们方法的有效性。HERMES++在未来的点云预测和3D场景理解任务中均表现优异，超越了专业方法。模型和代码将在https://github.com/H-EmbodVis/HERMESV2公开发布。
OmniRobotHome：用于实时多人机交互的多摄像头平台	Junyoung Lee	2026-04-30	PDF	人机协作的研究主要集中在二元或顺序场景中。然而，真实家庭环境需要多元协作——多个人类与多台机器人在共享工作空间内，以紧密的空间和时间耦合方式并行执行交错子任务。这一领域尚未得到充分探索，因为人类、机器人与物体之间的近距离交互会产生持续遮挡和快速状态变化，使得可靠的实时三维追踪成为核心瓶颈。现有平台均无法提供实现该场景实验可行性所需的实时、抗遮挡、房间级感知能力。我们提出OmniRobotHome——首个将广域实时三维人体与物体感知、协调多机器人驱动整合于共享世界坐标系的房间级住宅平台。该系统在自然家居环境中部署48台硬件同步RGB相机，实现无标记、抗遮挡的多人体与物体追踪，并与两台实时响应场景状态的Franka机械臂保持时间对齐。在此一致坐标系下的连续捕捉进一步支持从累积轨迹中学习长时程人类行为模型。该平台使多元协作场景的实验研究成为可能。我们聚焦两个核心问题：人机共享环境中的安全性，以及人类预判型机器人辅助，并证明实时感知与累积行为记忆各自能为两者带来可量化的性能提升。
基于无约束图像的泛化稀疏视角三维重建	Vinayak Gupta	2026-04-30	PDF	从稀疏、无位姿图像重建3D场景，在真实世界光照变化和瞬时遮挡条件下仍具挑战。现有方法依赖外观嵌入或动态掩码的场景特定优化，需要大量逐场景训练，且在稀疏视角下失效。此外，有限场景上的评估引发了对泛化能力的质疑。我们提出GenWildSplat，一种无需逐场景优化的前馈式稀疏视角户外重建框架。给定无位姿网络图像，GenWildSplat利用学习到的几何先验，在规范空间中预测深度、相机参数和3D高斯体。外观适配器根据目标光照条件调节外观，语义分割则处理瞬时物体。通过合成与真实数据的课程学习，GenWildSplat能泛化至多样光照与遮挡模式。在PhotoTourism和MegaScenes基准上的评估表明，其前馈渲染质量达到最优，无需测试时优化即可实现实时推理。
LaST-R1：通过自适应物理潜在推理增强VLA模型的动作能力	Hao Chen	2026-04-30	PDF	视觉-语言-动作（VLA）模型已越来越多地融入推理机制以应对复杂机器人操作任务。然而现有方法存在关键局限：无论是采用显式语言推理（存在延迟和离散化问题），还是利用更具表现力的连续潜在推理，它们主要局限于静态模仿学习，限制了适应性和泛化能力。尽管在线强化学习（RL）已被引入VLA以实现试错探索，但当前方法仅优化原始动作空间，绕过了底层物理推理过程。本文提出\textbf{LaST-R1}——一个统一的VLA框架，在执行动作前整合了基于物理动力学的潜在思维链（CoT）推理，并配套设计了定制化RL后训练范式。具体而言，我们提出\textbf{潜在到动作策略优化（LAPO）}，这是一种联合优化潜在推理过程与动作生成的新型RL算法。通过桥接推理与控制，LAPO改进了物理世界建模的表征能力，并增强了交互环境中的鲁棒性。此外，我们引入\textbf{自适应潜在CoT机制}，使策略能根据环境复杂度动态调整推理深度。大量实验表明，LaST-R1在LIBERO基准测试中仅需单次监督预热即可达到近乎完美的99.8%平均成功率，收敛速度和性能显著超越先前最优方法。在真实世界部署中，LAPO后训练在四项复杂任务（包括单臂和双臂场景）上相较初始预热策略实现了最高44%的性能提升。最后，LaST-R1在仿真与真实环境中均展现出强大的泛化能力。
视觉生成中的表示弗雷歇损失	Jiawei Yang	2026-04-30	PDF	我们证明，长期被认为不适合作为训练目标的弗雷歇距离（FD），实际上可以在表示空间中被有效优化。我们的思路很简单：将FD估计所需的总体规模（例如50k）与梯度计算所需的批大小（例如1024）解耦。我们将这种方法称为FD-loss。优化FD-loss揭示了几个令人惊讶的发现。首先，在不同表示空间中使用FD-loss对基础生成器进行后训练，能持续提升视觉质量。在Inception特征空间下，单步生成器在ImageNet 256x256上实现了0.72的FID。其次，相同的FD-loss无需教师蒸馏、对抗训练或逐样本目标，即可将多步生成器转化为强大的单步生成器。第三，FID可能错误排序视觉质量：现代表示方法可能产生更优样本，但Inception FID反而更差。这促使我们提出多表示指标FDr$^k$。我们希望这项工作能鼓励在多样化表示空间中进一步探索分布距离，将其同时作为生成模型的训练目标和评估指标。
计算单方面偏离之外的均衡	Mingyang Liu	2026-04-30	PDF	大多数熟悉的均衡概念，如纳什均衡和相关均衡，仅保证没有单个参与者能通过单方面偏离来提高自身效用，但无法防止联盟通过协调偏离获利。尽管文献中提出了针对多边偏离提供稳定性的解概念（例如强纳什均衡和联盟证明均衡），但这些概念通常不存在。本文研究了一种替代性解概念，其目标是最小化联盟偏离动机而非要求其完全消失，因此必然存在。具体而言，我们聚焦于最小化偏离联盟的平均收益，并将该框架扩展至加权平均收益和联盟内最大收益。相比之下，最小收益的对应问题被证明在计算上难以处理。针对平均收益和最大收益目标，我们证明了计算此类均衡的复杂度下界，并提出了匹配该下界的算法。最后，我们利用该框架求解"可剥削性福利边界"（EWF），即在给定可剥削性（所有单方面偏离的最大收益）条件下可实现的最大社会福利。
新时代的视觉生成：从原子映射到智能体世界建模的演进	Keming Wu	2026-04-30	PDF	近期视觉生成模型在照片真实感、排版、指令遵循和交互式编辑方面取得了重大进展，但在空间推理、持久状态、长期一致性和因果理解方面仍存在困难。我们认为该领域应超越外观合成，转向智能视觉生成：基于结构、动态、领域知识和因果关系的合理视觉内容。为构建这一转变框架，我们提出五级分类体系：原子生成、条件生成、上下文生成、智能体生成和世界模型生成，从被动渲染器逐步演进为交互式、智能体化、具备世界感知能力的生成器。我们分析了关键技术驱动因素，包括流匹配、统一理解与生成模型、改进的视觉表征、后训练、奖励建模、数据策展、合成数据蒸馏和采样加速。进一步研究表明，当前评估常因侧重感知质量而忽视结构、时间和因果层面的失败，从而高估了进展。通过结合基准测试回顾、野外压力测试和专家约束案例研究，本路线图提供了以能力为中心的视角，用于理解、评估和推进下一代智能视觉生成系统。
探索黑客行为：大语言模型能否学会抵抗强化学习训练？	Eyon Jang	2026-04-30	PDF	强化学习（RL）已成为大型语言模型（LLMs）后训练中实现推理、自主能力与对齐的关键环节。成功的RL依赖于训练过程中模型对多样化动作的充分探索，这会产生一种潜在失效模式：模型可能在训练期间策略性地改变其探索行为，从而影响后续训练结果。本文研究这种被称为"探索劫持"的行为。首先，我们通过微调LLMs使其遵循特定的低表现策略，创建选择性RL抗性的模型生物体；这些模型能在保持相关任务性能的同时，成功抵抗我们在代理生物安全与AI研发环境中基于RL的能力激发。随后，我们利用模型生物体评估检测与缓解策略，包括监控、权重噪声化及基于SFT的激发方法。最后，我们证明当前前沿模型在获得足够训练上下文信息时，会显式推理如何抑制自身探索行为，且当信息通过环境间接获取时该行为发生率更高。综合结果表明，探索劫持可能是具备充分能力的LLMs在RL训练中的一种潜在失效模式。
用于长期生产力模拟的大规模合成计算机	Tao Ge	2026-04-30	PDF	现实中的长期生产力工作高度依赖于用户特定的计算机环境，其中大部分工作上下文通过目录结构和内容丰富的工件进行存储和组织。为了扩展此类生产力场景的合成数据生成，我们提出了"规模化合成计算机"方法——一种可扩展的方法论，用于创建具有真实文件夹层次结构和内容丰富工件（如文档、电子表格和演示文稿）的环境。基于每台合成计算机，我们运行长期模拟：一个智能体创建针对该计算机用户的具体生产力目标，这些目标需要多个专业交付成果并相当于人类约一个月的工作量；另一个智能体则扮演该用户角色，持续在计算机上工作——例如，通过文件系统获取上下文信息、与模拟协作者协调、生成专业工件——直至完成这些目标。在初步实验中，我们创建了1000台合成计算机并运行长期模拟；每次运行需要超过8小时的智能体运行时间，平均交互轮次超过2000次。这些模拟产生了丰富的体验式学习信号，其有效性通过智能体在领域内和跨领域生产力评估中的显著性能提升得到验证。考虑到用户画像在十亿级别上极为丰富，该方法论在算力充足的情况下原则上可扩展至数百万甚至数十亿个合成用户世界，从而覆盖更广泛的职业、角色、情境、环境和生产力需求。我们认为，可扩展的合成计算机创建与大规模模拟相结合，作为智能体自我改进和长期生产力场景中智能体强化学习的基础框架具有巨大潜力。
一种基于自适应小波的PINN，用于处理局部高幅值源问题	Himanshu Pandey	2026-04-30	PDF	近年来，物理信息神经网络（PINNs）在求解微分方程方面受到广泛关注，但其存在两个根本性局限：神经网络固有的谱偏差以及多尺度现象导致的损失不平衡。本文提出一种自适应小波基物理信息神经网络（AW-PINN），用于解决具有局部高幅值源项问题中极端损失不平衡的特征。这类问题常见于热加工、电磁学、冲击力学及含局部强迫项的流体动力学等物理应用场景。所提框架能根据残差损失和监督损失动态调整小波基函数。这种自适应特性使AW-PINN在不消耗大量内存的情况下有效处理高尺度特征问题。此外，AW-PINN无需依赖自动微分计算损失函数中的导数项，从而加速训练过程。该方法分两阶段运行：首先通过固定基的短时预训练阶段筛选物理相关的小波族，随后进行自适应细化，在不填充全域高分辨率基的情况下调整尺度和平移参数。理论上，我们证明在特定假设下AW-PINN具有高斯过程极限，并推导其关联的神经正切核（NTK）结构。我们在多个具有局部高幅值源项且损失不平衡比高达$10^{10}:1$的挑战性偏微分方程上评估AW-PINN。这些方程涵盖瞬态热传导、高度局部化泊松问题、振荡流方程及点电荷源麦克斯韦方程组，AW-PINN始终优于同类现有方法。