arXiv 2026-06-10

标题	作者	发布日期	PDF链接	摘要
何时对齐，何时预测：多模态学习的相图	Ilay Kamai	2026-06-09	PDF	跨模态对齐（CA）和跨模态预测（CP）是多模态表示学习的主流范式，但目前尚无系统性理解：何时各自成功、何时各自失败，以及跨模态训练究竟在何种情况下有效——这一认知空白导致从业者（尤其是在生物医学或天体物理学等科学领域）面对异构仪器、多层次组织与测量时，无法诊断为何标准方法的表现不及最优单模态。我们构建了一个统一的线性框架来解答这两个问题。在带有结构化跨模态干扰相关性的尖峰信号加噪声模型下，我们推导出两种目标的分离比，揭示了互补的失效模式：对齐会白化各模态，并在干扰跨视图强相关时失效；预测通过单向白化编码可跨模态预测的内容，其恢复效果受源模态质量支配。由此生成的相图将多模态问题划分为四个区域：两者皆可、仅CA、仅CP、两者皆不可。我们提出一种数据驱动方法，利用少量标注子样本将真实数据集定位至该相图，从而在跨模态训练前确定首选目标与预测方向。在合成数据、立体视觉基准、图像-文本对以及真实天体物理数据上的实验验证了非线性场景下的预测结果，包括跨模态训练会产生负面影响的“两者皆不可”区域。我们的框架使从业者能够在投入训练前诊断多模态问题并选择正确目标。可复现结果的代码见 https://github.com/IlayMalinyak/mm_align_vs_pred。
通过目标分布设计统一审视监督微调	Tong Xie	2026-06-09	PDF	监督微调（SFT）通常最大化示范轨迹中每个token的似然。然而，观测到的token可能具有非唯一性、噪声或与模型先验不一致。严格拟合这种独热目标可能并非最优，尤其当预训练模型编码了丰富的知识先验时。本研究将SFT重新诠释为目标分布设计：我们不仅研究损失函数，更分析损失驱动模型匹配的token级目标。我们提出Q-target框架，将SFT监督分解为两个显式选择：(1) 对观测token的依赖强度，(2) 如何将剩余概率质量分配给替代方案。该视角将许多现有SFT变体统一为目标分布Q的隐式选择。基于此观点，我们提出Target-SFT，直接从期望目标分布构建训练目标。该方法在十个推理数据集-模型组合中持续表现优异，验证了基于目标方法的有效性。总体而言，我们的公式揭示了SFT训练更基础的设计原则，并为SFT目标开辟了更广阔的搜索空间。
ARM：一种采用统一离散表示的自回归大型多模态模型	Junke Wang	2026-06-09	PDF	本文介绍ARM，一种基于离散表示的自回归模型，在下一词元预测框架内统一了图像理解、生成与编辑。ARM的构建基于三项工作：首先，我们训练了一个离散语义视觉词元化器，能将图像映射为紧凑的词元序列。该词元化器通过多目标监督学习，共同促进语义可辨别性、语言对齐与忠实重建，从而在共享潜在空间中支持多样化任务。在此基础上，我们在大规模文本与图像词元序列上训练了7B参数的自回归模型，无缝发展出视觉-语言感知与生成能力。最后，为进一步优化文本到图像生成与指令引导编辑中的偏好对齐行为，ARM应用强化学习优化任务级目标，如视觉质量、指令遵循度与编辑一致性。令人惊讶的是，结果显示强化学习不仅显著提升了目标任务的性能（例如WISE整体得分从0.50提升至0.56，GEdit-Bench-EN的G_O从5.75提升至6.68），还催生了文本到图像生成与编辑之间的跨任务协同效应。这些发现共同表明，当自回归建模与强表征及偏好优化相结合时，可作为多模态智能的可扩展基础。代码：https://github.com/wdrink/ARM。
下一强制：基于多块预测的因果世界建模	Gangwei Xu	2026-06-09	PDF	自回归视频生成已成为世界行动模型（WAMs）的强大范式。然而，现有方法存在训练收敛缓慢和收敛精度有限的问题，尤其是在高帧率场景下，因为训练监督局限于当前片段，缺乏关于未来动态的明确信号；同时，由于迭代视频去噪过程，推理速度也较慢。本文提出"Next Forcing"——一种用于因果世界建模的多片段预测（MCP）框架，能够实现更快的训练、更高的精度和加速的推理。受大语言模型中多令牌预测的启发，Next Forcing引入MCP训练目标，通过轻量级辅助MCP模块增强主模型，使其能同时去噪多个未来时间跨度（next¹、next²、next³片段）的视频片段。这些MCP模块在预测深度上形成因果链，利用主模型多层融合的中间特征来预测未来动态，使近期预测能够为远期预测提供信息，并向主模型提供密集的多尺度时间监督。训练阶段，MCP模块显著加速收敛并提升收敛精度，尤其在高帧率场景：在50fps下，Next Forcing在5k训练步数时相比LingBot-VA实现93.1%的相对提升，收敛速度提升2.3倍，并在RoboTwin基准测试中创下新纪录（Clean/Random场景分别达94.1%/93.5%）。推理阶段，MCP模块可保留用于与当前片段并行预测下一视频片段，实现2倍推理加速。Next Forcing在评估视频生成物理规律遵循度的PhyWorld基准测试中同样展现显著提升，并在通用视频预训练中实现超过50%的FVD降低。
AnyMod-LLVE：基于模态无关推理的低光照视频增强	Hangfeng Liang	2026-06-09	PDF	低光照视频增强（LLVE）在弱光条件下因信息严重退化而仍具挑战性。近期多模态方法通过引入辅助模态（如事件流和红外图像）显著提升了增强性能。然而，这些方法通常假设推理时这些模态可用，这在真实场景中往往难以实现。为解决此问题，本文提出AMNet——一种统一的多模态LLVE框架，支持灵活的模态无关推理，即辅助模态可能缺失。针对模态缺失问题，我们引入空间-频谱双门控转换器，学习辅助模态与RGB输入之间的对应关系，生成隐式辅助表征以支持鲁棒增强。此外，为充分促进跨模态对应学习，我们基于仅含RGB的数据集与合成辅助模态进行大规模多模态预训练。大量实验表明，AMNet可处理任意推理时的模态组合，并在模态缺失条件下展现出卓越的LLVE性能。代码与模型已发布于项目页面。
EEVEE：面向真实世界中自改进代理的测试时提示学习	Weixian Xu	2026-06-09	PDF	本文提出EEVEE，首个面向大语言模型智能体的多数据集测试时提示学习框架，支持在真实任务流中进行测试时提示学习。现有方法主要针对单数据集场景设计，而实际应用要求模型处理来自多个数据集、领域和任务分布的异构输入流，限制了其实用性。为缓解跨数据集干扰，EEVEE引入路由器将输入划分为任务簇并分配至合适的提示配置。该设计通过路由器-提示协同进化策略优化，采用交错的路由器与提示学习阶段解决两者相互依赖问题。跨多个数据集的实验表明，该框架在异构数据流下提升了鲁棒性，同时保持单基准学习能力与效率。具体而言，EEVEE在Qwen3-4B-Instruct和DeepSeek-V3.2上分别将多基准平均分提升10.38和24.32分，较SOTA方法GEPA和ACE最高提升37.2%和48.2%。
唇部强制：用于实时唇形同步的少步自回归扩散方法	Paul Hyunbin Cho	2026-06-09	PDF	基于扩散的唇形同步模型在视觉质量和音画对齐方面表现优异，但全序列双向注意力机制和大量去噪步骤使其难以实现实时推理。我们提出Lip Forcing——据我们所知首个用于视频到视频（V2V）唇形同步的自回归扩散方法——该方法将140亿参数的音频条件双向视频扩散教师模型蒸馏为因果学生模型。推理时，学生模型仅需两步去噪即可生成每个片段，无需推理时的无分类器引导（CFG），从而实现实时唇形同步。针对唇形同步的教师轨迹分析揭示了CFG保真度-同步性权衡：无CFG预测偏向参考保真度，而CFG引导预测则偏向中轨迹频段的同步性。Lip Forcing将这一发现转化为三个基于分析的组件：同步窗口DMD、两步推理调度和基于SyncNet的奖励函数。我们在两个学生模型规模上验证了Lip Forcing，两者均从140亿参数教师模型蒸馏而来。13亿参数学生模型以31 FPS实现实时流式处理，比同等规模的双向模型快17.6倍。140亿参数学生模型——目前报道中用于V2V唇形同步的最大扩散模型——在参考保真度相当的情况下，运行速度比教师模型快39.8倍。两种规模的首帧延迟均低于毫秒级，远低于所有扩散基线模型。
数据记者智能体：将数据转化为可验证的多模态故事	Kevin Qinghong Lin	2026-06-09	PDF	数据讲述着塑造社会的故事，数据记者的职责是将原始信息转化为非专业人士也能信赖的报道。一篇高质量的新闻特写需要编辑部团队花费数周时间：挖掘背景信息、进行统计分析、选取报道角度、设计可视化呈现。现有智能体虽能独立完成单个环节——数据科学智能体可完成分析闭环，设计智能体可合成精美网页——但能否让智能体端到端地扮演数据记者角色？我们提出数据记者智能体（Data2Story），这是一个多智能体框架，将专业化角色整合为虚拟编辑部。Data2Story有两项创新：（一）主张有据可查：审查员将每个数字、角度和素材与数据、代码或外部参考文献建立关联；（二）文章多模态生成：不同于默认的纯文本与静态图表，Data2Story会推理读者想看什么，进而部署多模态工具，如地理信息交互地图和音乐音频。我们沿四个维度对Data2Story进行评测：基于18篇与专家原版文章配对的报道，（a）人类与智能体角度覆盖度；（b）53名参与者从五个维度进行的评分评估；（c）以计算机使用智能体作为评审员——这是模拟读者浏览交互文章的低成本替代方案；（d）可验证性：通过代码验证器重新执行数据相关陈述，并核对参考文献中的主张。Data2Story能产出具有竞争力且可追溯证据的多媒体故事，在透明度和可审计性方面表现突出。人类文章在编辑角度、创意设计和呈现方式上仍具优势。我们将Data2Story定位为记者的协作工具，助力实现更重证据、更透明、更可验证的新闻报道。代码与演示详见 https://data2story.github.io。
反馈对齐在自蒸馏中的作用	Semih Kara	2026-06-09	PDF	将语言模型置于额外上下文（例如对先前尝试的反馈）中进行条件化，通常能提升其响应质量。自蒸馏技术旨在让模型在缺乏该上下文时仍能保持这种改进效果。该方法通过匹配模型在两种设置下的输出分布来实现：仅看到问题的学生模型，以及同时看到上下文的自我教师模型。因此，模型所学内容取决于自我教师接收的上下文类型，但上下文的设计方式至今仍鲜有探索。我们通过训练求解器接收冻结评判器的反馈来研究自蒸馏的上下文设计。比较了三种条件：（i）二元奖励（GRPO），（ii）参考答案，以及（iii）与求解器推理轨迹对齐的逐步批评。逐步对齐的批评带来了最大提升，在Avg@12指标上比GRPO高出16.11分，比参考答案条件化的自蒸馏高出5.27分。逐令牌优势分析揭示了原因：逐步对齐的反馈仅针对推理失败的令牌，保留正确行为不变。相比之下，参考答案条件化会迫使模型在每个令牌处改变行为（即使是正确步骤），因为替代推导在措辞和方法上必然存在差异。这表明反馈与求解器推理之间的结构对齐是自蒸馏效果的关键驱动因素。
在推理模型中预测未来行为能够实现更优的引导。	Evgenii Kortukov	2026-06-09	PDF	部署的大型推理模型（LRMs）常出现意外行为。测试时引导通过干预模型隐藏表征来控制LRM输出，但可能降低输出质量。我们认为，先前的引导研究隐含依赖于检测已生成文本行为的内部特征。我们证明这些检测特征对未来行为结果的预测能力较弱，因此并非自然的干预目标。相反，我们训练激活探针从中间推理步骤预测未来行为概率。这些探针能以64%-91%的准确率预测最可能的行为，揭示出另一类内部预测特征。基于这些预测特征，我们提出文本级引导方法——未来探针受控生成（FPCG）。FPCG通过采样多个候选句子，并根据预测未来行为概率的探针选择最优结果，实现几乎无输出质量下降的引导。在多项激活引导失效的评估中，FPCG仍能有效引导。这些结果表明，区分检测特征与预测特征能实现更精细的LRM行为控制方法。