arXiv 2026-05-17

标题	作者	发布日期	PDF链接	摘要
EntityBench：面向实体一致的长距离多镜头视频生成	Ruozhen He	2026-05-14	PDF	多镜头视频生成将单镜头生成扩展为连贯的视觉叙事，但在长序列中保持角色、物体和场景的一致性仍是挑战。现有评估通常使用独立生成的提示集，实体覆盖有限且一致性指标简单，导致标准化比较困难。我们提出EntityBench基准，包含源自真实叙事媒体的140个片段（2,491个镜头），并配有显式的逐镜头实体调度表，可同时追踪角色、物体和场景，覆盖简单/中等/困难三个难度层级，最多包含50个镜头、13个跨镜头角色、8个跨镜头场景、22个跨镜头物体，以及跨度达48个镜头的重现间隔。该基准配备三支柱评估套件，分别解构镜头内质量、提示遵循对齐度和跨镜头一致性，并设置保真度门控机制，仅将准确的实体外观纳入跨镜头评分。作为基线方法，我们提出EntityMem记忆增强生成系统，在生成开始前将已验证的逐实体视觉参考存储于持久记忆库中。实验表明，现有方法中跨镜头实体一致性随重现距离增加而急剧下降，而显式逐实体记忆在评估方法中实现了最高的角色保真度（Cohen's d = +2.33）和存在率。代码与数据见https://github.com/Catherine-R-He/EntityBench/。
ATLAS：主动还是潜在视觉推理？一个词足以兼顾两者	Ziyu Guo	2026-05-14	PDF	视觉推理常与中间视觉状态交织，已成为该领域一个有前景的方向。一种直接的方法是在推理过程中通过统一模型直接生成图像，但这在计算上成本高昂且架构上难以实现。近期的替代方案包括通过代码或工具调用的智能体推理，以及使用可学习隐藏嵌入的潜在推理。然而，智能体方法因外部执行而产生上下文切换延迟，而潜在方法缺乏任务泛化能力且难以通过自回归并行化进行训练。为结合两者优势并缓解其局限性，我们提出ATLAS框架，其中单个离散的"词"（称为功能标记）同时充当智能体操作和潜在视觉推理单元。每个功能标记与内化的视觉操作相关联，但无需视觉监督，且作为分词器词汇表中的标准标记，可通过下一标记预测生成。这种设计避免了冗长的中间视觉内容生成，同时保持与标准可扩展SFT和RL训练的兼容性，无需架构或方法修改。为进一步解决RL中功能标记的稀疏性问题，我们引入潜在锚定GRPO（LA-GRPO），通过静态加权辅助目标锚定功能标记来稳定训练，提供更强的梯度更新。大量实验和分析表明，ATLAS在具有挑战性的基准测试中实现了卓越性能，同时保持清晰的可解释性。我们希望ATLAS能为未来视觉推理研究提供新范式。
RefDecoder：通过条件视频解码增强视觉生成	Xiang Fan	2026-05-14	PDF	视频生成支撑着大量下游应用。然而，当前事实上的标准——即潜在扩散模型——通常采用强条件去噪网络，但其解码器往往保持无条件状态。我们观察到这种架构不对称性会导致细节显著丢失以及与输入图像不一致。为解决这一问题，我们认为解码器需要同等条件化以保持结构完整性。我们提出RefDecoder，一种参考条件化视频VAE解码器，通过参考注意力机制将高保真参考图像信号直接注入解码过程。具体而言，轻量级图像编码器将参考帧映射为富含细节的高维令牌，这些令牌在每个解码器上采样阶段与去噪后的视频潜在令牌协同处理。我们在多个不同解码器骨干网络（如Wan 2.1和VideoVAE+）上展示了持续改进，在Inter4K、WebVid和Large Motion重建基准测试中，相较于无条件基线实现了最高+2.1dB的PSNR提升。值得注意的是，RefDecoder可直接替换现有视频生成系统而无需额外微调，我们在VBench I2V基准测试中报告了主体一致性、背景一致性和整体质量分数的全面改进。除I2V外，RefDecoder还能良好泛化至风格迁移和视频编辑优化等广泛的视觉生成任务。
VGGT-$Ω$	Jianyuan Wang	2026-05-14	PDF	近期前馈重建模型（如VGGT）已被证明与传统基于优化的重建方法具有竞争力，同时还能提供对其他任务有用的几何感知特征。本文表明，这些模型的质量随模型和数据规模呈可预测的扩展趋势。为此我们提出VGGT-Ω，该模型在静态和动态场景的重建精度、效率及能力方面均有显著提升。为支持该模型在空前规模下训练，我们引入了提升训练效率的架构改进、支持动态场景的高质量数据标注流程，以及自监督学习协议。通过采用带多任务监督的单一密集预测头并移除高分辨率卷积层，我们简化了VGGT架构。同时使用寄存器将场景信息聚合为紧凑表征，并引入寄存器注意力机制——将帧间信息交换限制在这些寄存器中，部分替代全局注意力。通过这种方式，VGGT-Ω在训练时仅需前代模型约30%的GPU内存，使我们能使用比先前工作多15倍的监督数据进行训练，并利用海量无标注视频数据。VGGT-Ω在多个基准测试中实现了静态和动态场景重建的优异结果，例如在Sintel数据集上将相机估计精度较此前最佳结果提升77%。我们还证明，学习到的寄存器可改进视觉-语言-动作模型并支持与语言的对齐，这表明重建可作为空间理解领域强大且可扩展的代理任务。项目页面：http://vggt-omega.github.io/
在图像生成中为球形流匹配对齐潜在几何结构	Tuna Han Salih Meral	2026-05-14	PDF	用于图像生成的潜在流匹配通常沿线性路径将高斯噪声传输到变分自编码器的潜在表示。然而，两个端点的分布都集中在薄球壳上，即使预处理对齐了半径，欧几里得弦仍会偏离这些球壳。通过将每个潜在令牌分解为径向分量和角度分量，我们利用分量交换探针实验证明：解码后的感知和语义内容主要由方向承载，半径的贡献微乎其微。因此，我们将数据潜在表示投影到固定令牌半径上，将高斯噪声的径向投影作为球面先验，在冻结编码器的条件下微调解码器，并用球面线性插值替代线性插值。由此产生的测地路径在每个时间步都保持在球面上，其速度目标在构造上纯属角度变化。在匹配训练条件下，该方法在不同图像分词器上持续改善类别条件ImageNet-256的FID指标，不改变扩散架构，且无需辅助编码器或表征对齐目标。
RAVEN：基于一致性模型GRPO的实时自回归视频外推	Yanzuo Lu	2026-05-14	PDF	因果自回归视频扩散模型通过从已生成内容外推未来块，支持实时流式生成。从高保真双向教师模型中蒸馏此类生成器可得到具有竞争力的少步模型，但训练期间遇到的历史分布与推理时产生的历史分布之间存在持续差距，限制了长时域生成质量。我们提出实时自回归视频外推网络（RAVEN），这是一种训练时测试框架，将每次自展开重新打包成交替的干净历史端点序列与含噪去噪状态序列。该公式使训练注意力与推理时外推对齐，并允许下游块损失监督未来预测所依赖的历史表示。我们进一步提出一致性模型组相对策略优化（CM-GRPO），将一致性采样步骤重构为条件高斯转移，并直接对此核应用在线强化学习（RL），避免了先前流模型RL公式中采用的欧拉-丸山辅助过程。实验表明，RAVEN在质量、语义和动态程度评估上均超越近期因果视频蒸馏基线，且CM-GRPO与RAVEN结合时能提供进一步增益。
FutureSim：重放世界事件以评估自适应智能体	Shashwat Goel	2026-05-14	PDF	AI智能体正越来越多地被部署在动态、开放式的环境中，这要求它们能够随着新信息的到来实时适应。为了在实际应用场景中有效衡量这一能力，我们提出构建基于真实世界事件时间顺序回放的仿真系统。我们开发了FutureSim系统，在该系统中，智能体在与其知识截止日期之后的世界事件进行交互时，需要预测这些事件——系统会按时间顺序回放真实新闻文章，并在模拟周期内逐步揭示问题答案。我们对前沿智能体在其原生框架下进行评测，测试它们预测2026年1月至3月三个月内世界事件的能力。FutureSim揭示了这些智能体能力的显著差异：表现最佳的智能体准确率仅为25%，而许多智能体的Brier技能得分甚至低于完全不进行预测的基准。通过细致的消融实验，我们展示了FutureSim如何为研究长期测试时自适应、搜索、记忆及不确定性推理等新兴研究方向提供现实场景。总体而言，我们希望这一基准设计能够为衡量AI在真实世界长时间跨度开放式适应能力方面的进展铺平道路。
Articraft：一种用于可扩展铰接式3D资产生成的智能体系统	Matt Zhou	2026-05-14	PDF	学习理解可动3D物体的一个瓶颈是缺乏大规模且多样化的数据集。本文提出利用大型语言模型来弥补这一差距，并大规模生成可动资产。我们将生成可动3D资产的问题简化为编写构建该资产的程序。随后引入了一个新的智能体系统Articraft，能够自动编写此类程序。我们设计了一套程序化接口和工具框架，帮助大型语言模型高效完成这一任务。该模型需针对一个领域特定SDK编写代码，用于定义部件、组合几何体、指定关节，并编写测试以验证生成的资产。工具框架为模型提供受限的工作空间和接口，验证生成的资产，并返回结构化反馈。通过这种方式，大型语言模型无需关注编写URDF文件或管理复杂软件环境等细节。实验表明，该方法生成的可动资产质量优于当前最先进的可动资产生成器和通用编码智能体。利用Articraft，我们构建了Articraft-10K数据集——涵盖245个类别、超过1万个可动资产的精选数据集，并展示了其在可动资产模型训练、机器人仿真及虚拟现实等下游应用中的实用价值。
VGGT-Edit：基于残差场预测的前馈式原生三维场景编辑	Kaixin Zhu	2026-05-14	PDF	高质量三维场景重建近期在可泛化前馈架构方面取得进展，使得单次前向传播即可生成复杂环境。然而，尽管这些模型在静态场景感知中表现优异，其响应动态人类指令的能力仍十分有限，这限制了它们在交互式应用中的使用。现有编辑方法通常依赖二维提升策略，即独立编辑各视角图像后再将其提升回三维空间。这种间接流程常导致纹理模糊和几何不一致，因为二维编辑器缺乏跨视角保持结构所需的空间感知能力。为解决这些局限，我们提出VGGT-Edit——一种用于文本条件原生三维场景编辑的前馈框架。VGGT-Edit引入深度同步文本注入，将语义引导与骨干网络的空间位姿对齐，确保指令的稳定锚定。该语义信号随后由残差变换头处理，直接预测三维几何位移以形变场景，同时保持背景稳定性。为确保高保真结果，我们采用包含几何精度与跨视角一致性约束的多项目标函数监督该框架。我们还构建了DeltaScene数据集——通过自动化流程生成的大规模数据集，并采用三维一致性过滤确保真值质量。实验表明，VGGT-Edit显著优于二维提升基线方法，产生更锐利的物体细节、更强的多视角一致性，并实现近乎即时的推理速度。
几何一致性定量视频世界模型评估	Jiaxin Wu	2026-05-14	PDF	生成式视频模型正越来越多地被研究作为隐式世界模型，但评估它们是否产生物理上合理的3D结构和运动仍具挑战性。现有大多数视频评估流程严重依赖人工判断或学习型评分器，这些方法具有主观性且对几何失效的诊断能力较弱。我们提出PDI-Bench（透视畸变指数），这是一个用于审计生成视频几何一致性的量化框架。给定生成片段，我们通过分割和点跟踪（如SAM 2、MegaSaM和CoTracker3）获取以对象为中心的观测，通过单目重建将其提升至3D世界空间坐标，并计算一组投影几何残差以捕捉三个失效维度：尺度-深度对齐、3D运动一致性和3D结构刚性。为支持系统性评估，我们构建了PDI-Dataset，涵盖旨在挑战这些几何约束的多样化场景。在现有最优视频生成器上，PDI揭示了常见感知指标无法捕捉的几何特异性失效模式，并为迈向物理基础视频生成和物理世界模型提供了诊断信号。我们的代码和数据集可在https://pdi-bench.github.io/获取。