| 生成式重聚焦:基于单张图像的灵活散焦控制 |
Chun-Wei Tuan Mu |
PDF |
景深控制在摄影中至关重要,但获得完美对焦往往需要多次尝试或特殊设备。单图像重对焦技术仍面临挑战,其难点在于既要恢复清晰内容,又要生成逼真的虚化效果。现有方法存在明显局限:需要全焦面输入图像、依赖模拟器生成的合成数据,且对光圈控制能力有限。我们提出"生成式重对焦"技术,采用两步处理流程:先通过DeblurNet从各类输入中恢复全焦面图像,再经由BokehNet生成可控虚化效果。本研究的核心创新在于半监督训练方法,通过结合合成配对数据与未配对的真实虚化图像,并利用EXIF元数据捕捉超越模拟器能力的真实光学特性。实验表明,我们的方法在散焦去模糊、虚化合成及重对焦基准测试中均达到最优性能。此外,生成式重对焦技术还支持文本引导的参数调整和自定义光圈形状功能。 |
| 世界即画布:以参考图像、轨迹与文本描绘可提示事件 |
Hanlin Wang |
PDF |
我们提出WorldCanvas框架,这是一种可提示世界事件的生成架构,通过融合文本、运动轨迹与参考图像实现丰富且用户导向的仿真。相较于纯文本方法及现有轨迹控制的图像转视频技术,我们的多模态方案将编码运动、时序与可见性的轨迹数据,与表达语义意图的自然语言、确立物体视觉特征的参考图像相结合,从而生成包含多智能体交互、物体进出场、参考引导外观及反直觉事件的连贯可控事件。生成视频不仅展现时序连贯性,更具备涌现一致性——即使物体暂时消失仍能保持身份与场景的延续性。通过支持高表现力的世界事件生成,WorldCanvas推动世界模型从被动预测器向用户可交互式仿真器演进。项目页面详见:https://worldcanvas.github.io/。 |
| 下一代嵌入预测打造卓越视觉学习模型 |
Sihan Xu |
PDF |
受自然语言生成式预训练成功的启发,我们探究相同原理能否构建强大的视觉自监督学习模型。不同于训练模型输出特征供下游任务使用,我们训练模型直接生成嵌入以执行预测任务。本研究探索了这种从学习表征到学习模型的范式转变。具体而言,模型通过因果掩码与梯度截断技术,学习基于历史图像块嵌入预测未来嵌入,我们将此方法称为"下一嵌入预测自回归"。实验证明:在ImageNet-1k数据集上,仅以下一嵌入预测为学习目标的简易Transformer模型即可取得显著效果——无需像素重建、离散标记、对比损失或任务特定头设计。该方案保持了架构简洁性与可扩展性,无需引入额外设计复杂度。经微调后,采用ViT-B与ViT-L骨干网络的模型在ImageNet-1K上分别达到83.8%与85.3%的Top-1准确率,并在ADE20K语义分割任务中展现优异迁移性能。我们相信基于嵌入的生成式预训练为视觉自监督学习提供了一种简洁、可扩展且可能模态无关的新路径。 |
| EasyV2V:基于高质量指令的视频编辑框架 |
Jinjie Mai |
PDF |
尽管图像编辑技术已取得飞速发展,视频编辑领域仍处于探索不足的阶段,面临着时序一致性、可控性与泛化能力等多重挑战。本研究系统性地探索了数据构建、模型架构与控制机制的设计空间,提出了基于指令驱动的视频编辑框架——\emph{EasyV2V}。在数据层面,我们通过快速逆变换整合现有专家模型构建多样化视频对,借助单帧监督与仿射运动共享的伪视频对将图像编辑对扩展至视频域,挖掘密集标注视频片段构建训练对,并引入过渡监督机制以学习编辑过程的动态演变。模型设计方面,我们发现预训练文生视频模型本身具备编辑潜力,从而启发了简化架构设计:仅需通过序列拼接实现条件控制,配合轻量级LoRA微调即可训练出高性能模型。控制机制上,我们通过统一掩码机制实现时空协同控制,并支持可选参考图像输入。整体而言,EasyV2V支持灵活输入组合(如视频+文本、视频+掩码+文本、视频+掩码+参考图像+文本),在视频编辑任务中取得了业界领先效果,性能超越同期学术成果与商业系统。项目主页:https://snap-research.github.io/easyv2v/ |
| DVGT:驾驶视觉几何变换器 |
Sicheng Zuo |
PDF |
从视觉输入中感知并重建三维场景几何结构对自动驾驶至关重要。然而,目前仍缺乏能够适应不同场景与相机配置的、面向驾驶任务的密集几何感知模型。为填补这一空白,我们提出驾驶视觉几何变换器(DVGT),该模型能够从一系列无位姿的多视角视觉输入中重建全局密集三维点云地图。我们首先利用DINO骨干网络提取每张图像的视觉特征,并通过交替使用视图内局部注意力、跨视图空间注意力及跨帧时序注意力来推断图像间的几何关系。随后采用多头解码机制,在首帧自车坐标系中生成全局点云地图,并逐帧推算自车位姿。与传统方法依赖精确相机参数不同,DVGT无需显式三维几何先验,可灵活处理任意相机配置。该模型直接从图像序列预测公制尺度几何信息,无需借助外部传感器进行后处理对齐。通过在nuScenes、OpenScene、Waymo、KITTI和DDAD等混合驾驶数据集上的大规模训练,DVGT在多种场景中均显著超越现有模型。代码已开源:https://github.com/wzzheng/DVGT。 |
| 关键差异:用于能力差距发现与修正的审计模型 |
Qihao Liu |
PDF |
当前多模态大语言模型(MLLMs)的常规评估方法缺乏可解释性,往往难以充分揭示模型间的显著能力差距。为此,我们提出AuditDM——一种通过主动审计模型分歧来发现并修正MLLM失效模式的自动化框架。该框架通过强化学习将MLLM微调为审计器,使其生成能最大化目标模型间分歧的挑战性问题和反事实图像。训练完成后,审计器可发掘出多样化的可解释案例,这些案例既能揭示模型弱点,又可作为无需标注的修正数据。在Gemma-3和PaliGemma-2等前沿模型上的实验表明,AuditDM成功识别出20余种不同的失效类型。基于这些发现进行微调后,所有模型在16个基准测试中均获得持续提升,甚至使30亿参数模型超越其280亿参数的对照模型。我们的研究结果表明,当数据扩展的边际效益递减时,定向模型审计为模型诊断与改进提供了有效路径。 |
| AdaTooler-V:面向图像与视频的自适应工具应用系统 |
Chaoyang Wang |
PDF |
近期研究表明,多模态大语言模型(MLLMs)能够通过视觉工具交互与多模态交错思维链(CoT)的结合获得性能提升。然而,现有开源模型常表现出盲目的工具使用推理模式,即使在无需工具的情况下也会调用视觉工具,这不仅显著增加了推理开销,还导致模型性能下降。为此,我们提出AdaTooler-V模型,该模型通过判断视觉问题是否真正需要工具来实现自适应工具调用。首先,我们引入AT-GRPO强化学习算法,该算法基于每个样本的工具效益评分自适应调整奖励尺度,激励模型仅在工具能带来实质改进时进行调用。此外,我们构建了两个支持训练的数据集:用于监督微调冷启动的AdaTooler-V-CoT-100k数据集,以及覆盖单图像、多图像和视频数据的可验证奖励强化学习数据集AdaTooler-V-300k。在十二个基准测试上的实验表明,AdaTooler-V具备强大的推理能力,在多样化视觉推理任务中超越现有方法。值得注意的是,AdaTooler-V-7B在高分辨率基准V*上达到89.8%的准确率,超越了商业闭源模型GPT-4o和Gemini 1.5 Pro。所有代码、模型及数据均已开源。 |
| 生成式对抗推理器:通过对抗性强化学习提升大语言模型推理能力 |
Qihao Liu |
PDF |
具备显式推理能力的大语言模型在数学推理方面表现出色,但仍存在过程性错误,例如计算错误、逻辑脆弱以及表面合理但实际无效的推理步骤。本文提出生成对抗推理器,这是一种基于策略的联合训练框架,旨在通过对抗性强化学习协同演化大语言模型推理器与大语言模型判别器,从而提升推理能力。该框架采用计算高效的审查机制,将每条推理链划分为逻辑完整且长度相近的片段,判别器通过简洁的结构化论证评估每个片段的合理性。学习过程融合了互补信号:大语言模型推理器因生成逻辑一致且能得出正确答案的步骤而获得奖励,判别器则通过准确检测推理过程中的错误或区分推理轨迹获得奖励。这种机制产生了密集、校准良好、基于策略的步骤级奖励,补充了稀疏的精确匹配信号,从而改善了信用分配、提高了样本效率,并增强了大语言模型的整体推理质量。在多种数学基准测试中,该方法相较于采用标准强化学习后训练的强基线模型均取得稳定提升。具体而言,在AIME24测试中,我们将DeepSeek-R1-Distill-Qwen-7B的得分从54.0提升至61.3(+7.3),将DeepSeek-R1-Distill-Llama-8B的得分从43.7提升至53.7(+10.0)。模块化判别器还能灵活支持奖励塑造,适用于教师蒸馏、偏好对齐及基于数学证明的推理等目标。 |
| StereoPilot:通过生成先验学习统一且高效的双目转换技术 |
Guibao Shen |
PDF |
立体显示技术(包括VR头显与3D影院)的快速发展,催生了市场对高质量立体视频内容日益增长的需求。然而,三维视频的制作仍面临成本高昂、流程复杂等挑战,而基于多阶段"深度-形变-修复"(DWI)流程的单目转立体自动转换技术,因存在误差传递、深度歧义以及平行/汇聚格式不一致等问题而发展受限。为应对这些挑战,我们首次构建了统一的大规模立体视频转换数据集UniStereo,该数据集涵盖两种立体格式,为公平基准测试与鲁棒模型训练提供了基础。基于此数据集,我们提出了StereoPilot模型——一种高效的前馈式模型,无需依赖显式深度图或迭代扩散采样即可直接合成目标视角。该模型通过可学习的域切换器与循环一致性损失函数,实现了对不同立体格式的无缝适配并提升了视觉一致性。大量实验表明,StereoPilot在视觉保真度与计算效率方面均显著优于现有前沿方法。项目主页:https://hit-perfect.github.io/StereoPilot/。 |
| 构造性电路放大:通过针对性子网络更新提升大型语言模型的数学推理能力 |
Nikhil Prakash |
PDF |
先前针对大语言模型内部工作机制的研究已揭示出稀疏子网络的存在,这些子网络通常被称为"电路",负责执行特定任务。此外,研究表明通过微调实现的模型性能提升往往源于模型中现有电路的强化。综合这些发现,我们推测直接干预此类电路以实现精准、任务导向的更新具有可行性。基于此,我们提出一种名为"建构式电路增强"的新方法,该方法通过分析模型推理轨迹识别关键标记,定位负责目标任务的模型组件,并仅对这些组件进行更新。在数学推理任务中的应用表明,该方法在仅修改1.59%模型组件的情况下,使多种模型的准确率最高提升11.4%,同时通过MMLU、TriviaQA和TruthfulQA基准测试验证其对模型其他能力影响甚微。这些结果证明,通过选择性更新稀疏的模型组件集合,能够可靠地增强模型的定向能力。 |