arXiv 2026-05-03

标题	作者	发布日期	PDF链接	摘要
HERMES++：面向三维场景理解与生成的统一驾驶世界模型	Xin Zhou	2026-04-30	PDF	驾驶世界模型通过模拟环境动态，成为自动驾驶的关键技术。然而，现有方法主要聚焦于未来场景生成，往往忽视全面的3D场景理解。相反，尽管大语言模型展现出卓越的推理能力，却缺乏预测未来几何演化的能力，导致语义解释与物理模拟之间存在显著差距。为弥合这一鸿沟，我们提出HERMES++，一个统一的驾驶世界模型，将3D场景理解与未来几何预测整合在单一框架内。我们的方法通过协同设计满足这些任务的独特需求。首先，BEV表示将多视角空间信息整合为与大语言模型兼容的结构。其次，我们引入大语言模型增强的世界查询，促进理解分支的知识迁移。第三，设计当前到未来链接以桥接时间差距，使几何演化以语义上下文为条件。最后，为强化结构完整性，我们采用联合几何优化策略，将显式几何约束与隐式潜在正则化相结合，使内部表示与几何感知先验对齐。在多个基准上的广泛评估验证了我们方法的有效性。HERMES++在未来的点云预测和3D场景理解任务中均取得优异性能，超越专业方法。模型和代码将在https://github.com/H-EmbodVis/HERMESV2公开发布。
OmniRobotHome：用于实时多人机交互的多摄像头平台	Junyoung Lee	2026-04-30	PDF	人机协作的研究主要集中在二元或顺序场景中。然而，真实家庭环境需要多元协作，即多个人类与多台机器人共享工作空间，在紧密的空间与时间耦合下并行处理交错子任务。这一领域仍未被充分探索，因为人类、机器人与物体之间的近距离交互会产生持续遮挡和快速状态变化，使得可靠的实时3D追踪成为核心瓶颈。现有平台均无法提供实现该场景实验可行性所需的实时、抗遮挡、房间级感知能力。我们提出OmniRobotHome——首个房间级住宅平台，在统一的世界坐标系中整合了广域实时3D人体与物体感知以及协调的多机器人驱动。该系统在自然家居环境中部署了48台硬件同步RGB相机，用于无标记、抗遮挡的多个人类与物体追踪，并与两台实时响应场景状态的Franka机械臂实现时间对齐。在此一致框架内的连续捕捉进一步支持从累积轨迹中学习长期人类行为模型。该平台使多元协作场景具备实验可行性。我们聚焦两个核心问题：共享人机环境中的安全性，以及人类预判型机器人辅助，并证明实时感知与累积行为记忆各自能为这两个问题带来可量化的提升。
从无约束图像进行可泛化的稀疏视角三维重建	Vinayak Gupta	2026-04-30	PDF	从稀疏、无位姿图像重建3D场景，在真实世界光照变化和瞬时遮挡条件下仍具挑战。现有方法依赖外观嵌入或动态掩码的场景特定优化，需要大量逐场景训练且稀疏视角下效果不佳。此外，有限场景的评估引发了对泛化能力的质疑。我们提出GenWildSplat——一种无需逐场景优化的前馈式稀疏视角户外重建框架。给定无位姿网络图像，GenWildSplat利用学习到的几何先验在规范空间中预测深度、相机参数和3D高斯体。外观适配器根据目标光照条件调节外观，语义分割模块处理瞬时物体。通过合成数据与真实数据的课程学习，GenWildSplat能泛化至多样光照与遮挡模式。在PhotoTourism和MegaScenes基准上的评估表明，该方法实现了前馈式渲染质量的最优水平，无需测试时优化即可达到实时推理。
LaST-R1：通过自适应物理潜在推理增强VLA模型的动作能力	Hao Chen	2026-04-30	PDF	视觉-语言-动作（VLA）模型已越来越多地融入推理机制以应对复杂机器人操作任务。然而现有方法存在关键局限：无论是采用显式语言推理（存在延迟和离散化问题），还是利用更具表现力的连续潜在推理，它们主要局限于静态模仿学习，限制了适应性和泛化能力。尽管在线强化学习（RL）已被引入VLA以实现试错探索，但当前方法仅优化原始动作空间，绕过了底层物理推理过程。本文提出\textbf{LaST-R1}——一个统一的VLA框架，在执行动作前整合了基于物理动力学的潜在思维链（CoT）推理，并配套设计了定制化RL后训练范式。具体而言，我们提出\textbf{潜在到动作策略优化（LAPO）}，这是一种联合优化潜在推理过程与动作生成的新型RL算法。通过桥接推理与控制，LAPO改进了物理世界建模的表征能力，并增强了交互环境中的鲁棒性。此外，我们引入\textbf{自适应潜在CoT机制}，使策略能根据环境复杂度动态调整推理深度。大量实验表明，LaST-R1在LIBERO基准测试中仅需单次监督预热即可达到近乎完美的99.8%平均成功率，收敛速度和性能显著超越先前最优方法。在真实世界部署中，LAPO后训练在四项复杂任务（包括单臂和双臂场景）上较初始预热策略实现了最高44%的性能提升。最后，LaST-R1在仿真与真实环境中均展现出强大的泛化能力。
视觉生成中的表示弗雷歇损失	Jiawei Yang	2026-04-30	PDF	我们证明，长期被认为不适合作为训练目标的弗雷歇距离（Fréchet Distance, FD），实际上可以在表示空间中被有效优化。我们的思路很简单：将用于FD估计的总体规模（如5万）与用于梯度计算的批次大小（如1024）解耦。我们将这种方法称为FD-loss。优化FD-loss揭示了几个令人惊讶的发现。首先，在不同表示空间中使用FD-loss对基础生成器进行后训练，能持续提升视觉质量。在Inception特征空间下，单步生成器在ImageNet 256x256上达到了0.72的FID。其次，相同的FD-loss无需教师蒸馏、对抗训练或逐样本目标，即可将多步生成器转化为强大的单步生成器。第三，FID可能错误排序视觉质量：现代表示方法能生成更优样本，尽管其Inception FID更差。这促使我们提出多表示指标FDr$^k$。我们希望这项工作能鼓励在多样化表示空间中进一步探索分布距离，将其同时作为生成模型的训练目标和评估指标。
计算单方面偏离之外的均衡	Mingyang Liu	2026-04-30	PDF	大多数常见的均衡概念，例如纳什均衡和相关均衡，仅保证没有单个参与者能通过单方面偏离来提高自身效用，但无法防止联盟通过协调偏离获利。尽管文献中提出了针对多边偏离提供稳定性的解概念（如强纳什均衡和联盟证明均衡），但这些概念通常不存在。本文研究了一种替代性解概念，其目标是最小化联盟偏离的激励而非要求其完全消失，因此该概念必然存在。具体而言，我们聚焦于最小化偏离联盟的平均收益，并将该框架扩展至加权平均收益和联盟内最大收益。相比之下，最小收益的对应问题被证明在计算上难以处理。针对平均收益和最大收益目标，我们证明了计算此类均衡的复杂度下界，并提出了一种匹配该下界的算法。最后，我们利用该框架求解了"可剥削性福利前沿"（EWF），即在给定可剥削性（所有单方面偏离的最大收益）条件下可实现的最大社会福利。
新时代的视觉生成：从原子映射到智能体世界建模的演进	Keming Wu	2026-04-30	PDF	近期视觉生成模型在照片真实感、排版、指令遵循和交互编辑方面取得了重大进展，但在空间推理、持久状态、长期一致性和因果理解方面仍存在困难。我们认为该领域应超越外观合成，转向智能视觉生成：基于结构、动态、领域知识和因果关系的合理视觉呈现。为构建这一转变框架，我们提出五级分类体系：原子生成、条件生成、上下文生成、智能体生成和世界建模生成，从被动渲染器逐步演进到交互式、智能体化、具备世界感知能力的生成器。我们分析了关键技术驱动力，包括流匹配、统一理解与生成模型、改进的视觉表征、后训练、奖励建模、数据策展、合成数据蒸馏和采样加速。进一步研究表明，当前评估常因侧重感知质量而忽略结构、时序和因果缺陷，导致对进展的高估。通过结合基准评测、野外压力测试和专家约束案例研究，本路线图提供了以能力为中心的视角，用于理解、评估和推进下一代智能视觉生成系统。
探索黑客行为：大型语言模型能否学会抵抗强化学习训练？	Eyon Jang	2026-04-30	PDF	强化学习（RL）已成为大型语言模型（LLMs）后训练中实现推理、自主能力与对齐的关键技术。成功的RL依赖于模型在训练过程中对多样化动作的充分探索，这产生了一种潜在失效模式：模型可能在训练期间策略性地调整其探索行为，从而影响后续训练结果。本文研究这种被称为"探索劫持"的行为。首先，我们通过微调LLMs使其遵循特定的低表现策略，创建了选择性RL抗性的模型生物体；这些模型在保持相关任务性能的同时，成功抵抗了我们在智能体生物安全与AI研发环境中基于RL的能力激发。随后，我们利用模型生物体评估了包括监控、权重噪声化及基于SFT的激发在内的检测与缓解策略。最后，研究表明，当当前前沿模型获得足够训练背景信息时，会显式推理如何抑制自身探索行为，且当信息通过环境间接获取时该行为发生率更高。综合结果表明，探索劫持可能是具备足够能力的LLMs在RL训练中的一种潜在失效模式。
面向长周期生产力模拟的大规模合成计算机	Tao Ge	2026-04-30	PDF	在现实场景中，长期生产力任务高度依赖于用户特定的计算机环境——这类环境中的工作上下文通常通过目录结构和内容丰富的工件（如文档、电子表格和演示文稿）进行存储与组织。为扩展此类生产力场景的合成数据生成，我们提出了“规模化合成计算机”方法，这是一种可扩展的构建方法，能够创建包含真实文件夹层级和丰富内容工件的计算机环境。基于每台合成计算机，我们运行长期模拟：一个智能体创建与该计算机用户特性匹配的生产力目标，这些目标需要多项专业交付成果并模拟约一个月的人类工作量；另一个智能体则扮演该用户角色，持续在计算机中执行操作——例如通过文件系统获取上下文、与模拟协作者协调、生成专业工件等——直至目标完成。初步实验中，我们创建了1000台合成计算机并运行长期模拟：每次模拟需超过8小时智能体运行时间，平均交互轮次超过2000次。这些模拟产生了丰富的经验学习信号，其有效性通过智能体在领域内与跨领域生产力评估中的显著性能提升得到验证。鉴于用户画像在十亿级规模下已足够丰富，该方法理论上可在充足算力支持下扩展至数百万甚至数十亿个合成用户世界，从而覆盖更广泛的职业、角色、场景、环境及生产力需求。我们认为，可扩展的合成计算机创建与大规模模拟相结合，有望成为智能体在长期生产力场景中实现自我改进与强化学习的基础支撑。
一种基于自适应小波的PINN，用于处理局部高幅值源问题	Himanshu Pandey	2026-04-30	PDF	近年来，物理信息神经网络（PINNs）在求解微分方程领域受到广泛关注，但存在两个根本性局限：神经网络固有的谱偏差以及多尺度现象导致的损失不平衡。本文提出一种自适应小波基物理信息神经网络（AW-PINN），用于解决具有局部高幅值源项问题中极端损失不平衡的特性。这类问题常见于热加工、电磁学、冲击力学及含局部强迫项的流体动力学等物理应用场景。所提框架能根据残差损失和监督损失动态调整小波基函数。这种自适应特性使AW-PINN能有效处理高尺度特征问题，且无需占用大量内存。此外，AW-PINN无需依赖自动微分计算损失函数中的导数项，从而加速训练过程。该方法采用两阶段运行：首先通过固定基函数的短时预训练阶段筛选物理相关的小波族，随后进行自适应细化——在不填充全域高分辨率基函数的前提下调整尺度与平移参数。理论上，我们证明在特定假设下AW-PINN具有高斯过程极限，并推导其关联的神经正切核（NTK）结构。我们在多个具有局部高幅值源项且损失不平衡比高达10¹⁰:1的挑战性偏微分方程上评估AW-PINN。这些方程涵盖瞬态热传导、高度局部化泊松问题、振荡流方程及点电荷源麦克斯韦方程组，AW-PINN在所有测试中均持续优于同类现有方法。