| 生成式重聚焦:基于单张图像的灵活散焦控制 |
Chun-Wei Tuan Mu |
PDF |
景深控制在摄影中至关重要,但获得完美对焦往往需要多次尝试或特殊设备。单图像重对焦技术仍面临挑战,其核心在于恢复清晰内容并生成逼真的焦外虚化效果。现有方法存在明显局限:需要全焦面输入图像、依赖模拟器生成的合成数据,且对光圈控制能力有限。我们提出生成式重对焦技术,采用两步处理流程:先通过DeblurNet从各类输入中恢复全焦面图像,再经由BokehNet生成可控焦外虚化效果。本研究的核心创新在于半监督训练方法,通过融合合成配对数据与未配对的真实虚化图像,利用EXIF元数据捕捉超越模拟器能力的真实光学特性。实验表明,我们的方法在散焦去模糊、虚化合成及重对焦基准测试中均达到最优性能。此外,生成式重对焦技术还支持文本引导的参数调整与自定义光圈形状功能。 |
| 世界即画布:以参考图像、轨迹与文本描绘可提示事件 |
Hanlin Wang |
PDF |
我们提出WorldCanvas框架,这是一个支持提示式世界事件生成的系统,通过融合文本、运动轨迹与参考图像实现丰富且用户可引导的仿真。与纯文本方法及现有轨迹控制的图像转视频技术不同,我们的多模态方案将编码运动、时序与可见性的轨迹、表达语义意图的自然语言,以及确立物体视觉特征的参考图像相结合,从而能够生成包含多智能体交互、物体进出场景、参考图像引导的外观呈现及反直觉事件的连贯可控事件。生成的视频不仅具备时间连贯性,更展现出涌现一致性——即使物体暂时消失,其身份与场景特征仍得以保持。通过支持富有表现力的世界事件生成,WorldCanvas推动世界模型从被动预测器转变为用户可交互塑造的仿真系统。项目页面详见:https://worldcanvas.github.io/。 |
| 下一代嵌入预测塑造卓越视觉学习模型 |
Sihan Xu |
PDF |
受自然语言生成式预训练成功的启发,我们探究相同原理能否构建强大的视觉自监督学习模型。不同于训练模型输出特征以供下游任务使用,我们训练模型直接生成嵌入以执行预测任务。本研究探索了这种从学习表征到学习模型的范式转变。具体而言,模型通过因果掩码和梯度截断技术,学习基于历史图像块嵌入预测未来嵌入,我们将其称为"下一嵌入预测自回归"(NEPA)。实验证明:在ImageNet-1k数据集上,仅以下一嵌入预测为学习目标的Transformer模型即表现出卓越性能——无需像素重建、离散标记、对比损失或任务特定头部。该框架保持了架构简洁性与可扩展性,无需引入额外设计复杂度。NEPA在多项任务中取得优异成果:基于ViT-B和ViT-L骨干网络微调后,在ImageNet-1K上分别获得83.8%和85.3%的Top-1准确率,并在ADE20K语义分割任务中展现出卓越的迁移能力。我们相信,基于嵌入的生成式预训练为视觉自监督学习提供了一种简洁、可扩展且可能模态无关的新范式。 |
| EasyV2V:基于高质量指令的视频编辑框架 |
Jinjie Mai |
PDF |
尽管图像编辑技术已取得飞速发展,视频编辑领域仍处于探索不足的阶段,面临着时序一致性、可控性与泛化能力等多重挑战。本研究系统性地探索了数据构建、模型架构与控制机制的设计空间,提出了基于指令驱动的视频编辑框架——\emph{EasyV2V}。在数据层面,我们通过以下策略构建多样化视频对:结合快速逆变换技术复用现有专家模型,通过单帧监督与仿射运动一致性伪配对将图像编辑对扩展为视频序列,从密集标注视频片段中挖掘高质量配对数据,并引入过渡帧监督以学习编辑效果的动态演化过程。模型设计方面,我们发现预训练文生视频模型本身具备编辑潜力,从而启发了简化架构设计:仅需通过序列拼接实现条件注入,配合轻量级LoRA微调即可训练出高性能模型。控制机制上,我们通过统一掩码机制实现时空联合控制,并支持可选参考图像输入。整体而言,EasyV2V支持灵活输入组合(如视频+文本、视频+掩码+文本、视频+掩码+参考图像+文本),在视频编辑任务中取得了业界领先效果,性能超越同期学术成果与商业系统。项目主页:https://snap-research.github.io/easyv2v/ |
| DVGT:驾驶视觉几何变换器 |
Sicheng Zuo |
PDF |
从视觉输入中感知并重建三维场景几何结构对自动驾驶至关重要。然而,目前仍缺乏能够适应不同场景与相机配置的、面向驾驶任务的密集几何感知模型。为填补这一空白,我们提出驾驶视觉几何变换器(DVGT),该模型能够从一系列无位姿的多视角视觉输入中重建全局密集三维点云地图。我们首先采用DINO骨干网络提取每张图像的视觉特征,并通过交替使用视图内局部注意力、跨视图空间注意力及跨帧时序注意力来推断图像间的几何关系。随后利用多头解码机制,在首帧自车坐标系中生成全局点云地图,并逐帧推算自车位姿。与传统方法依赖精确相机参数不同,DVGT无需显式三维几何先验,可灵活处理任意相机配置。该模型直接从图像序列预测公制尺度几何信息,无需借助外部传感器进行后处理对齐。通过在nuScenes、OpenScene、Waymo、KITTI和DDAD等混合驾驶数据集上的大规模训练,DVGT在多种场景中均显著超越现有模型。代码已开源:https://github.com/wzzheng/DVGT。 |
| 关键差异:用于能力差距发现与修正的审计模型 |
Qihao Liu |
PDF |
当前对多模态大语言模型(MLLMs)的常规评估方法缺乏可解释性,往往难以充分揭示不同模型间的显著能力差距。为此,我们提出AuditDM——一种通过主动审计模型分歧来发现并修正MLLM失效模式的自动化框架。该框架通过强化学习将MLLM微调为审计器,使其生成能最大化目标模型间分歧的挑战性问题和反事实图像。训练完成后,审计器可发掘出多样化的可解释案例,这些案例既能揭示模型弱点,又可作为无需标注的修正数据。在Gemma-3和PaliGemma-2等前沿模型上的应用表明,AuditDM能识别超过20类不同的失效模式。基于这些发现进行微调后,所有模型在16项基准测试中均获得持续提升,甚至使30亿参数模型超越其280亿参数的对照模型。我们的研究表明,当数据扩展的边际效益递减时,定向模型审计为模型诊断与优化提供了有效路径。 |
| AdaTooler-V:面向图像与视频的自适应工具应用系统 |
Chaoyang Wang |
PDF |
近期研究表明,多模态大语言模型(MLLMs)能够通过视觉工具交互与多模态交错思维链(CoT)的结合获得性能提升。然而,现有开源模型常表现出盲目的工具使用推理模式,即使在无需视觉工具的情况下仍频繁调用,这不仅显著增加了推理开销,还导致模型性能下降。为此,我们提出AdaTooler-V模型,该模型通过判断视觉问题是否真正需要工具来实现自适应工具调用。首先,我们引入AT-GRPO强化学习算法,该算法基于每个样本的"工具效益评分"自适应调整奖励尺度,激励模型仅在工具能带来实质改进时进行调用。此外,我们构建了两个训练数据集:包含10万样本的AdaTooler-V-CoT-100k用于监督微调冷启动,以及包含30万样本的AdaTooler-V-300k用于支持涵盖单图像、多图像和视频数据的可验证奖励强化学习。在十二个基准测试上的实验表明,AdaTooler-V具备强大的推理能力,在多样化视觉推理任务中超越现有方法。值得注意的是,AdaTooler-V-7B模型在高分辨率基准V*上达到89.8%的准确率,超越了商用专有模型GPT-4o和Gemini 1.5 Pro。所有代码、模型及数据均已开源发布。 |
| 生成式对抗推理器:通过对抗性强化学习增强大语言模型推理能力 |
Qihao Liu |
PDF |
具备显式推理能力的大语言模型在数学推理方面表现出色,但仍存在过程性错误,例如计算错误、逻辑脆弱以及表面合理但实际无效的推理步骤。本文提出生成对抗推理器,这是一种基于策略的联合训练框架,旨在通过对抗性强化学习协同演化大语言模型推理器与基于大语言模型的判别器,从而提升推理能力。该框架采用计算高效的审查机制,将每条推理链划分为逻辑完整且长度相近的片段,判别器通过简洁的结构化论证评估每个片段的合理性。学习过程融合了互补信号:大语言模型推理器因生成逻辑一致且能得出正确答案的步骤而获得奖励,判别器则通过准确检测推理过程中的错误或区分推理轨迹获得奖励。这种机制产生了密集、校准良好、基于策略的步骤级奖励,补充了稀疏的精确匹配信号,改善了信用分配,提高了样本效率,并增强了大语言模型的整体推理质量。在多个数学基准测试中,该方法相较于采用标准强化学习后训练的强基线模型均取得稳定提升。具体而言,在AIME24测试中,我们将DeepSeek-R1-Distill-Qwen-7B的得分从54.0提升至61.3(+7.3),将DeepSeek-R1-Distill-Llama-8B从43.7提升至53.7(+10.0)。模块化判别器还能灵活支持奖励塑形,适用于教师蒸馏、偏好对齐及基于数学证明的推理等目标。 |
| StereoPilot:通过生成先验学习统一且高效的双目转换技术 |
Guibao Shen |
PDF |
立体显示技术的快速发展,包括VR头显和3D影院的普及,使得对高质量立体视频内容的需求日益增长。然而,3D视频的制作仍然成本高昂且流程复杂,而自动化的单目转立体技术则受限于传统多阶段"深度-形变-修复"(DWI)流程的固有缺陷。该范式存在误差传递、深度歧义以及平行与汇聚式立体格式不兼容等问题。为应对这些挑战,我们首次构建了UniStereo——一个覆盖双立体格式的大规模统一数据集,为公平性能评估和鲁棒模型训练奠定基础。基于此数据集,我们提出StereoPilot模型:一种高效的前馈式架构,无需依赖显式深度图或迭代扩散采样即可直接合成目标视角。该模型通过可学习的域切换器和循环一致性损失函数,实现了对不同立体格式的自适应转换并提升视觉连贯性。大量实验表明,StereoPilot在视觉保真度与计算效率方面均显著优于现有最优方法。项目主页:https://hit-perfect.github.io/StereoPilot/。 |
| 构造性电路放大:通过针对性子网络更新提升大型语言模型的数学推理能力 |
Nikhil Prakash |
PDF |
先前针对大语言模型内部工作机制的研究揭示了稀疏子网络的存在,这些子网络通常被称为"电路",负责执行特定任务。此外,研究表明通过微调实现的模型性能提升往往源于对模型中现有电路的强化。综合这些发现,我们推测直接干预此类电路以实现精准、任务导向的更新具有可行性。基于此,我们提出了一种名为"建构式电路增强"的新方法,该方法通过分析模型推理轨迹识别关键标记,定位负责目标任务的模型组件,并仅对这些组件进行更新。在数学推理任务中的应用表明,该方法在仅修改1.59%模型组件的情况下,能使多种模型的准确率最高提升11.4%,同时通过MMLU、TriviaQA和TruthfulQA基准测试验证其对模型其他能力的影响微乎其微。这些结果证明,通过选择性更新稀疏的模型组件集合,能够可靠地增强模型的定向能力。 |