arxiv 2025-12-03

标题	作者	PDF链接	摘要
MagicQuillV2：基于分层视觉线索的精准交互式图像编辑系统	Zichen Liu	PDF	我们提出MagicQuill V2系统，该创新系统为生成式图像编辑引入了分层组合范式，弥合了扩散模型的语义生成能力与传统图形软件的精细化控制之间的鸿沟。尽管扩散变换器在整体生成方面表现出色，但其使用的单一、整体式提示词无法区分用户对内容、位置和外观的不同意图。为解决这一问题，我们的方法将创作意图解构为可堆叠的可控视觉线索：内容层定义生成对象，空间层确定对象位置，结构层控制形态特征，色彩层管理调色方案。我们的技术贡献包括：用于上下文感知内容融合的专用数据生成流程、处理所有视觉线索的统一控制模块，以及支持精确局部编辑（包括对象移除）的微调空间分支。大量实验证明，这种分层方法能有效解决用户意图鸿沟，赋予创作者对生成过程直接且直观的控制能力。
CAMEO：多视角扩散模型中的对应注意力对齐机制	Minkyung Kwon	PDF	多视角扩散模型近期已成为新视角合成的强大范式，但其实现视角一致性的内在机制尚不明确。本研究首先验证了此类模型的注意力图在训练过程中会逐渐获取几何对应关系——在参考视角与目标视角之间关注几何对应的区域，从而实现视角一致的生成。然而，这种对应信号仍不完整，其准确性会随着视角变化幅度增大而降低。基于这些发现，我们提出了CAMEO：一种简单而有效的训练技术，通过几何对应关系直接监督注意力图，以提升多视角扩散模型的训练效率与生成质量。值得注意的是，仅需监督单个注意力层即可引导模型学习精确的对应关系，从而有效保持参考图像的几何结构与空间关系，加速模型收敛，并提升新视角合成性能。CAMEO将模型收敛所需的训练迭代次数减少一半，同时在相同迭代次数下实现更优性能。我们进一步证明，CAMEO具有模型无关性，可应用于任意多视角扩散模型。
OneThinker：一体化图像与视频推理模型	Kaituo Feng	PDF	强化学习（RL）近期在多模态大语言模型（MLLMs）的视觉推理任务中取得了显著成功。然而，现有方法通常针对不同任务分别训练模型，并将图像与视频推理视为独立领域。这导致模型在向多模态推理通用系统扩展时受限，既制约了实际应用的灵活性，也阻碍了跨任务与跨模态的潜在知识共享。为此，我们提出OneThinker——一个统一图像与视频理解的全能推理模型，涵盖问答、描述、时空定位、跟踪及分割等多种基础视觉任务。为实现这一目标，我们构建了覆盖所有任务的OneThinker-600k训练语料库，并利用商业模型进行思维链标注，最终形成用于监督微调冷启动的OneThinker-SFT-340k数据集。此外，我们提出EMA-GRPO方法，通过追踪各任务奖励标准差的移动平均值来处理多任务强化学习中的奖励异质性问题，实现均衡优化。在多样化视觉基准测试上的大量实验表明，OneThinker在10类基础视觉理解任务、31个基准测试中均展现出强劲性能。该模型还表现出特定任务间的有效知识迁移能力及初步的零样本泛化能力，标志着向统一多模态推理通用系统迈出了重要一步。所有代码、模型及数据均已开源。
PPTArena：智能PPT编辑代理基准测试平台	Michael Ofengenden	PDF	我们推出PPTArena，这是一个针对PowerPoint编辑的基准测试平台，旨在衡量自然语言指令下对真实幻灯片的可靠修改能力。与图像-PDF渲染或文本转幻灯片生成不同，PPTArena专注于对100个演示文稿、2125张幻灯片及800余项针对性编辑任务（涵盖文本、图表、表格、动画和母版级样式）进行原位编辑。每个测试案例均包含原始演示文稿、完整的目标结果规范，以及采用双视觉语言模型（VLM）作为评判器的评估流程——该流程通过结构差异比对和幻灯片图像分析，分别对指令遵循度和视觉质量进行评分。

基于此框架，我们提出PPTPilot：一种具备结构感知能力的幻灯片编辑智能体。该智能体通过语义编辑序列规划，在高级程序化工具与确定性XML操作之间进行路由以实现精准控制，并依托“规划-编辑-校验”的迭代循环，依据任务特定约束对输出结果进行验证。实验表明，在复合型编辑、布局敏感型编辑及跨幻灯片编辑任务中，PPTPilot相较主流商业智能体和前沿VLM系统的性能提升超过10个百分点，在视觉保真度和演示文稿整体一致性方面表现尤为突出。尽管取得这些进展，现有智能体在PPTArena的长周期、文档级任务中仍存在不足，这凸显了实现可靠PPT编辑仍面临持续挑战。 | | 多镜头大师：可控多镜头视频生成框架 | Qinghe Wang | PDF | 当前视频生成技术在单镜头片段上表现出色，但在生成叙事性多镜头视频时面临挑战，这类视频需要灵活的镜头编排、连贯的叙事逻辑以及超越文本提示的可控性。为应对这些挑战，我们提出MultiShotMaster框架，用于实现高度可控的多镜头视频生成。我们通过整合两种新型RoPE变体，对预训练的单镜头模型进行扩展。首先，我们引入多镜头叙事RoPE，在镜头转场处施加显式相位偏移，在保持时序叙事顺序的同时实现灵活的镜头编排。其次，我们设计时空位置感知RoPE，通过融入参考标记与定位信号，实现基于时空坐标的参考信息注入。此外，为克服数据稀缺问题，我们构建了自动化数据标注流程，用于提取多镜头视频、描述文本、跨镜头定位信号及参考图像。本框架充分利用内在架构特性支持多镜头视频生成，具备文本驱动的镜头间一致性、支持运动控制的定制化主体以及背景驱动的定制化场景等特征。镜头数量与时长均可灵活配置。大量实验证明，我们的框架在生成质量与可控性方面均展现出卓越性能。 | | Video4Spatial：基于上下文引导视频生成的视觉空间智能研究 | Zeqi Xiao | PDF | 我们探究视频生成模型能否仅凭视觉数据展现人类认知核心能力——视觉空间智能。为此，我们提出Video4Spatial框架，证明仅基于视频场景上下文条件的视频扩散模型能够执行复杂空间任务。我们通过两项任务进行验证：场景导航——在遵循相机位姿指令的同时保持与场景三维几何结构的一致性；以及物体定位——该任务需要语义定位、指令遵循与路径规划能力。两项任务均仅使用视频输入，无需深度信息或位姿等辅助模态。通过框架设计与数据构建中简洁而有效的策略，Video4Spatial展现出基于视频上下文的强大空间理解能力：它能端到端规划导航路径并定位目标物体，在遵循相机位姿指令的同时保持空间一致性，并能泛化至长序列场景及域外环境。这些成果共同推动视频生成模型向通用视觉空间推理迈进。 | | ViSAudio：端到端视频驱动的双耳空间音频生成 | Mengchen Zhang | PDF | 尽管视频到音频生成领域已取得进展，但当前研究主要集中于单声道输出，缺乏空间沉浸感。现有的双耳音频生成方法仍受限于两阶段流程：首先生成单声道音频，随后进行空间化处理，这往往导致误差累积与时空不一致问题。为突破这一局限，我们提出了从无声视频直接生成端到端双耳空间音频的新任务。为支持该任务，我们构建了BiAudio数据集，包含约9.7万个视频-双耳音频对，涵盖多样化的真实场景与摄像机旋转轨迹，并通过半自动化流程构建。进一步，我们提出ViSAudio端到端框架，采用带双分支音频生成架构的条件流匹配技术，通过两个独立分支建模音频潜在流。该框架结合条件时空模块，在保持声道间一致性的同时保留独特空间特征，确保音频与输入视频的精准时空对齐。综合实验表明，ViSAudio在客观指标与主观评估上均优于现有先进方法，能生成具有空间沉浸感的高质量双耳音频，并有效适应视角变化、声源运动及多样化声学环境。项目网站：https://kszpxxzmc.github.io/ViSAudio-project。 | | 学习无需加速度测量的物理一致拉格朗日控制模型 | Ibrahim Laiche | PDF | 本文研究了一种无需加速度计算的混合方法，用于建模和控制涉及非保守力的拉格朗日系统。重点在于推导和识别物理一致性模型，这对基于模型的控制综合至关重要。拉格朗日或哈密顿神经网络虽能提供有用的结构保证，但此类模型的学习常导致不一致性，尤其在训练数据有限、不完整且含噪声的真实物理系统中。基于此观察及利用这些模型进行基于模型的非线性控制的目标，本文提出了一种依赖原创损失函数的学习算法，以提升拉格朗日系统的物理一致性。通过对不同基于学习的建模方法与所提方案进行比较分析，在仿真和实验系统上均显示出学习模型物理一致性的显著提升。随后，在实验基准测试中，利用模型的一致性验证了所提方法在反馈线性化和基于能量控制技术方面的实际应用价值。 | | MAViD：面向音视频对话理解与生成的多模态框架 | Youxin Pang | PDF | 我们提出MAViD，一种用于视听对话理解与生成的新型多模态框架。现有方法主要集中于非交互式系统，且仅限于生成受限且不自然的人类语音。该任务的主要挑战在于有效整合理解与生成能力，并实现无缝的多模态音视频融合。为解决这些问题，我们提出一种指挥者-创作者架构，将对话系统划分为两个核心组件。

指挥者负责通过将指令分解为动作和语音成分，实现理解、推理及指令生成，从而实现对交互的细粒度控制。创作者则基于这些指令生成交互式响应。此外，为解决使用双重DiT结构生成身份、音色与语调一致的长视频难题，创作者采用自回归模型与扩散模型相结合的结构：自回归模型负责音频生成，扩散模型则确保高质量视频生成。

我们还提出一种新型融合模块，以增强上下文连续片段与模态间的关联，实现同步的长时视听内容生成。大量实验表明，我们的框架能够生成生动且上下文连贯的长时对话交互，并准确解读用户的多模态查询。 | | SMP：基于物理角色控制的可复用分数匹配运动先验 | Yuxuan Mu | PDF | 能够引导智能体生成自然行为的数据驱动运动先验，在创建逼真虚拟角色中发挥着关键作用。对抗式模仿学习已成为从参考运动数据中学习运动先验的高效方法。然而，除少数特例外，对抗式先验需要针对每个新控制器重新训练，这限制了其可重用性，且在下游任务训练时必须保留原始参考运动数据。本研究提出分数匹配运动先验（SMP），该方法利用预训练运动扩散模型和分数蒸馏采样技术，构建可重复使用的任务无关型运动先验。SMP可在运动数据集上进行预训练，且独立于任何控制策略或任务。训练完成后，SMP可保持冻结状态，作为通用奖励函数重复使用，以训练策略为下游任务生成自然行为。研究表明，基于大规模数据集训练的通用运动先验可转化为多种风格特异性先验。此外，SMP能够融合不同风格，合成原始数据集中不存在的新风格。通过可复用模块化运动先验，本方法生成的运动质量可与最先进的对抗式模仿学习方法相媲美。我们在物理模拟人形角色的多样化控制任务中验证了SMP的有效性。演示视频详见：https://youtu.be/ravlZJteS20 |