arXiv 2026-06-02

标题	作者	发布日期	PDF链接	摘要
在Blender中思考：基于视觉语言模型的分阶段可执行逆向图形	Guangzhao He	2026-06-01	PDF	逆向图形是一个长期存在且高度欠约束的问题，旨在将图像重建为可编辑的三维场景，使其能够被渲染、重新照明和操作。本研究探讨了预训练的视觉语言模型（VLMs）是否能够直接从单张图像执行可操作的逆向图形，通过将场景重建为可编辑的Blender程序，而不依赖专门的二维或三维基础模型、可微渲染或多视角监督。我们提出了分阶段可执行逆向图形（SEIG）框架，该框架通过直接在可执行的Blender代码空间中逐步优化几何、材质、构图和光照等场景要素，从单张图像重建三维场景。我们使用涵盖像素级、感知和语义保真度的多种重建指标，在多样化场景中评估了该框架。实验表明，分阶段重建显著提升了重建保真度，凸显了任务分解对通用视觉语言模型实现可执行逆向图形的重要性。最后，我们展示了重建的可编辑Blender场景所支持的各种下游应用。
通过感知扰动与奖励建模减轻多模态大语言模型作为评判者时的感知判断偏差	Seojeong Park	2026-06-01	PDF	近期多模态大语言模型展现出强大的推理能力，但其作为自动化评估器的可靠性仍受制于一个关键缺陷：当视觉证据与文本线索冲突时，多模态大语言模型评判者倾向于奖励看似合理的叙述而非感知正确的答案。我们识别并系统分析了这一现象，将其命名为感知判断偏差。通过受控视觉扰动实验，现有模态评判者常锚定响应文本而非自身视觉感知，导致评估结果不一致且不可验证。为解决该问题，我们提出感知扰动判断数据集，通过构建最小化编辑的反事实响应来隔离感知错误，并提供可验证的监督信号。基于该数据集，我们开发了统一训练框架，将结构化GRPO奖励与批次排序目标相结合，无需显式成对标签即可实现连贯的全局排序。在多种多模态大语言模型评判基准上的实验表明，我们的方法显著提升了感知保真度、排序连贯性以及与人类评估的一致性。研究结果为训练具备感知基础、可解释且对视觉推理冲突具有鲁棒性的多模态评判者提供了可扩展且可泛化的路径。
RoboDream：面向可扩展机器人数据合成的组合式世界模型	Junjie Ye	2026-06-01	PDF	扩展机器人学习需要大规模、多样化的示范数据，然而通过远程操作收集真实世界数据仍然成本高昂且耗时。虽然视频扩散模型为数据扩展提供了有前景的途径，但现有生成方法往往局限于浅层的视觉增强，或存在具身幻觉问题，导致生成物理上不可行的运动。我们提出了一种可泛化的以具身为中心的世界模型，通过合成具有新物体、新场景和新视角的逼真示范数据，实现可扩展的数据生成。该方法将生成过程锚定于渲染的机器人运动，同时以显式的场景和物体先验为条件，有效解耦了轨迹执行与环境合成。这一框架有望解锁两种强大的数据扩展能力：(1) 检索与重生——无需新运动数据即可将现有轨迹重新应用于全新场景；(2) 无道具远程操作——操作员仅需在空中进行操控，模型随后生成目标物体和场景，从而消除重置时间。通过真实世界实验，我们证明生成的数据能持续提升下游策略性能，并在多种操作任务中显著降低对真实世界数据的需求。
ProtoAda：面向多模态持续指令调优的原型引导自适应适配器扩展与几何整合	Yu-Cheng Shi	2026-06-01	PDF	多模态大语言模型（MLLMs）通过指令微调取得了优异性能，但实际部署要求其持续获取新的视觉语言能力，这使得多模态持续指令微调（MCIT）成为关键。为减少任务间干扰并促进协作，现有方法常采用稀疏架构，例如基于图像-文本相似度路由的混合LoRA专家模型。然而，具有不同响应结构的任务可能共享高度相似的视觉语言语义，导致被错误路由至同一专家；仅凭图像-文本相似度不足以实现可靠的任务分配。例如，在需要坐标预测的定位任务中，专家在学习语义相似的视觉问答任务后可能偏向生成简短文本答案。这种格式盲区任务分配将异构响应类型整合至共享参数中，引发梯度干扰并导致专家协作失效。针对该问题，我们提出ProtoAda——一种原型引导的自适应微调框架。ProtoAda引入格式感知任务原型，使任务分配与路由同时对齐任务语义和输出结构，并通过几何感知方式整合格式兼容的更新，有效复用并渐进优化现有参数。在多个基准上的大量实验表明，ProtoAda取得了优越性能，尤其适用于答案结构易受顺序微调破坏的任务。
从零到英雄：世界模型中的免训练自定义概念生成	Kiymet Akdemir	2026-06-01	PDF	自回归世界模型已成为交互式视频生成的一种强大范式，允许用户通过动作在动态生成的环境中进行导航。这类模型通常以文本提示和/或单张参考帧为条件，由此生成整个世界。然而，一旦用户导航到该帧可见范围之外，未见的区域便会由基础模型的先验知识填充，用户无法指定应出现什么内容以及出现在何处。对于游戏、交互式叙事和模拟等应用而言，可控的场景构成至关重要，而这一缺失能力构成了根本性限制。我们将这种缺失的能力称为概念生成——将用户指定的视觉概念引入世界模型，类似于游戏引擎中的生成机制。我们提出SPAWN（交换固定锚点与窗口注入），一种无需训练的概念生成方法。SPAWN利用了图像到视频骨干网络的结构特性：上下文记忆的第一个槽位固定于参考帧，并作为每个生成块的根基锚点。通过在短注入窗口内将该锚点替换为外部概念潜变量，再让原始锚点回归，概念便通过模型自身的记忆在滚动生成中自然传播。SPAWN支持从角色、道具等细粒度实体到建筑、地标等大规模元素的概念，并可接受概念图像或文本描述作为输入。实验表明，SPAWN在保持身份一致性和时间连贯性的同时，以一致的光照、比例和透视整合概念，证明无需任何训练即可在现有自回归世界模型中实现可控的概念生成。
HumanNOVA：基于单张照片的光照真实、通用且快速的3D人体虚拟化身建模	Hezhen Hu	2026-06-01	PDF	本文提出HumanNOVA，一种基于单张RGB图像生成逼真、通用且快速的三维人体化身模型。由于缺乏多样化的高质量三维人体数据，实现照片级真实感与泛化能力面临挑战。为此，我们构建了遵循两种策略的可扩展数据生成流程：第一种策略是利用现有带骨骼绑定的资产，通过日常生活姿态驱动生成动画；第二种策略是利用现有多相机人体捕捉数据，通过拟合生成更多视角用于训练。这两种策略使我们能够将资产规模扩展至10万级别，显著提升训练数据的数量与多样性。在架构方面，HumanNOVA采用前馈式、令牌条件化的人体化身建模框架，可在不到一秒内完成推理且无需测试时优化。给定输入图像与不含精细几何或外观的简化人体网格（SMPL），模型首先将两种输入编码为紧凑令牌表征，随后通过交叉注意力机制融合这些令牌作为条件信号，构建基于三平面的三维化身表征。在多个基准上的大量实验表明，本方法在定量与定性指标上均具优越性，且对多样化输入图像条件具有鲁棒性。项目页面：https://HumanNOVA.github.io
VISReg：用于JEPA训练的方差-不变性-草图正则化	Haiyu Wu	2026-06-01	PDF	自监督学习方法通过建模启发式策略或对嵌入空间进行显式正则化来防止嵌入坍塌。在后者中，VICReg将正则化分解为方差和协方差目标，兼具灵活性与可解释性。然而协方差仅捕捉二阶统计量——虽能促进去相关，但无法强制实现稳定训练所需的完整分布形态。基于草图的方法（如SIGReg）通过将嵌入对齐到各向同性高斯分布来解决此问题，但缺乏灵活性且在坍塌时面临梯度消失问题。我们提出方差-不变性-草图正则化（VISReg），用基于切片Wasserstein距离的草图目标替代协方差，在保留方差项控制尺度的同时强制实现完整分布形态。通过解耦尺度与形态，VISReg融合了VICReg的灵活性与草图方法的分布严谨性，即使在坍塌状态下也能提供稳健梯度。实验表明VISReg具有线性扩展性，在低质量数据集上优于现有正则化方法，并对长尾和低秩场景具有鲁棒性。在ImageNet-1K上预训练后，VISReg在分布外数据集上达到最优性能；在ImageNet-22K上预训练时，其分布外检测性能与使用10倍数据量（LVD-142M）的DINOv2相当。项目与代码：https://haiyuwu.github.io/visreg
AdaCodec：面向视频多模态大语言模型的预测式视觉编码	Haowen Hou	2026-06-01	PDF	视频在时间维度上存在冗余：相邻帧通常共享大部分物体、背景和布局。然而，现有视频多模态大语言模型通常将每个采样帧编码为独立的RGB图像，导致视觉令牌重复先前帧中已出现的内容。这提示了一种更直接的视频接口：仅当场景无法通过先前上下文良好预测时，才发送完整参考帧；否则传输帧间变化的紧凑描述。我们将此接口称为"预测性视觉编码"，并针对视频多模态大语言模型将其实例化为AdaCodec。AdaCodec仅在条件预测代价较高时，为参考帧分配完整视觉令牌；否则将帧间变化（包括运动与预测残差）编码为紧凑的P令牌。在全部11项基准测试中，AdaCodec在匹配视觉令牌预算条件下，均优于基于Qwen3-VL-8B的逐帧RGB基线。即使在仅1/7预算下，采用32k令牌的AdaCodec在所有长视频基准测试中仍超越224k基线；在五项通用视频基准测试中，它在提升平均得分的同时，将首令牌生成时间从9.26秒大幅缩短至1.62秒。
ClinEnv：面向智能体的交互式多阶段长周期EHR环境	Yuxing Lu	2026-06-01	PDF	临床实践并非从列举的选项中选择答案：医生会逐步收集异质性信息，并在不确定性下做出顺序性、不可逆的决策。静态基准无法探查这些问题，而现有的交互式医疗基准各自至少在其中一方面存在妥协。我们提出ClinEnv，这是一个交互式基准，通过我们称之为纵向住院模拟的范式，评估大语言模型作为主治医生处理真实住院病例的能力。每个病例自动构建为有序的决策阶段序列；在每个阶段，模型必须主动查询四个专业智能体，然后才能确定用药、操作和诊断。ClinEnv通过确定性本体匹配对模型的决策内容进行评分，同时评估其信息收集方式。在七个模型中，最强的模型仅达到0.31的决策F1分数，且结果质量与过程质量严重脱节。难度集中在管理决策和后期阶段，模型恢复出院诊断的可靠性远高于管理行动（F1分别为0.51 vs. 0.17），并且随着病例进展持续发出冗余查询。ClinEnv使这种信息获取差距（在仅评估结果的基准中不可见）变得可直接测量。
基于策略的中央凹成像与感知	Howard Xiao	2026-06-01	PDF	超高分辨率图像传感器具备捕捉精细空间细节的能力，这对许多视觉感知任务至关重要，但在实际带宽、延迟和功耗限制下，获取并处理全分辨率所有像素往往不可行。现有方法通过空间或时间降采样等采集策略应对这一挑战，但这些策略在评估任务相关性之前就不可逆地丢弃了信息。本研究提出一种实时、预测且任务感知的注视点成像系统，该系统直接在图像采集阶段运行。利用新兴的双流传感器架构，我们的方法将有限的像素带宽动态分配给任务相关的感兴趣区域，同时保持低分辨率的全局上下文。我们将注视点采集建模为传感器注意力策略学习问题，其中历史观测指导决定未来测量的动作，从而形成感知-采集闭环。通过跨多个感知任务的大规模仿真，我们证明该方法在严格像素预算下实现了高任务性能，并显著优于相同带宽下的相关基线方法。我们进一步在200兆像素双流传感器上验证了该系统，在真实带宽和延迟约束下采集真实世界视频，展示了任务驱动型采集阶段注视点成像的实际可行性。