arXiv 2026-06-01

标题	作者	发布日期	PDF链接	摘要
无瓶颈统一多模态模型的表示强制	Yuqing Wang	2026-05-29	PDF	统一多模态模型（UMMs）旨在通过单一模型同时处理感知与生成任务。然而现有UMMs仍依赖冻结且独立预训练的VAE进行图像生成，这构成了结构性瓶颈。若直接移除该模块会导致质量下降，因为模型需要从原始像素中同时学习高层结构与低层细节。本文提出表征强制（RF）技术，通过将表征预测内化为模型原生能力来弥合这一差距。具体而言，RF强制解码器在生成像素之前以自回归方式预测视觉表征作为中间令牌；这些令牌随后保留在上下文中，在同一骨干网络内引导像素扩散。通过将表征从感知输出转化为生成目标，RF消除了对外部生成潜空间的依赖。我们发现RF对理解与生成均有助益。在图像生成任务中，采用RF的像素空间模型达到了基于VAE的最优统一模型水平。在图像理解任务中，像素空间RF普遍优于其VAE变体。这些结果共同为构建端到端、无瓶颈的UMMs提供了有效进展。
Lumos-Nexus：面向视频统一模型的高效频率桥接与同质潜在空间方法	Jiazheng Xing	2026-05-29	PDF	基于连接器的视频统一模型在指令引导视频合成方面展现出强大能力，但将高保真生成器集成到统一训练流程中会带来高昂的计算成本，从而限制了可实现的视觉质量。为此，我们提出Lumos-Nexus——一种训练高效的统一视频生成框架，在显著提升视觉保真度的同时，促进强推理驱动生成能力的发展。Lumos-Nexus采用两阶段设计：1）训练阶段，仅将轻量级生成器与理解模块对齐，学习接收推理驱动的语义控制；2）推理阶段，引入统一渐进频率桥接（UPFB），在共享潜在空间中逐步将生成任务移交至高容量预训练生成器，实现从粗到细的优化，在不牺牲推理质量的前提下生成高保真视频。为填补推理驱动视频生成基准的空白，我们提出VR-Bench，用于评估模型将推断意图转化为连贯且语义对齐视频内容的能力。大量实验表明，Lumos-Nexus在VBench上显著提升了视觉真实感和时间连贯性，同时在VR-Bench上展现出强大的基于推理的生成性能。代码和模型已开源：https://jiazheng-xing.github.io/nexus-lumos-home/。
面向长视频理解的线性缩放视频视觉语言模型	Cristobal Eyzaguirre	2026-05-29	PDF	视频视觉语言模型（VLMs）越来越多地应用于长时域和流式场景，但大多数视频编码器仍依赖时空自注意力机制，导致计算量和延迟随帧数呈二次方增长。现有效率方法虽提升了可扩展性，但往往以牺牲精度为代价（例如通过激进的帧/令牌丢弃或粗略的注意力近似）。我们提出StateKV，一种推理时方法，通过将跨帧上下文承载于固定容量、基于重要性的循环状态中，并配合用于解码的第二个完整逐帧缓存，使预训练的长视频VLM适应线性时间视频预填充。在三个长视频基准测试和七个覆盖三个系列、多种规模的模型上，StateKV性能接近完整自注意力，且持续优于主流的滑动窗口/基于近期性的流式近似方法，无需微调或架构改动。StateKV还降低了以FLOPs衡量的视频预填充成本，通过运行更大模型在固定计算预算下实现更强精度。这些结果表明，这是迈向可扩展长视频理解的一个实用步骤。
SOCO：视觉基础模型中语义对象对应关系的基准测试	Olaf Dünkel	2026-05-29	PDF	由于评估协议不一致以及部件级监督有限，衡量视觉基础模型中的结构化物体理解仍具挑战性。语义对应通过测试物体部件能否在实例和类别间、在外观、视角和几何形态大幅变化下实现匹配，来评估这一能力。为实现系统性的语义对应评估，我们提出SOCO——一个面向语义物体对应的新基准，它引入了对应类型分类体系，并在100个类别和超过100万对应对上提供一致且功能上有意义的关键点标注。此外，SOCO包含关键点语言描述，可评估大型视觉语言模型及其细粒度部件级理解能力。综合实验表明：(i) 视觉基础骨干网络编码了强语义结构，但在相关类别间传递对应关系时效果较差，且仅部分捕捉物体部件位置；(ii) 大型视觉语言模型在文本提示的部件定位上强于视觉参考的跨图像匹配，暴露出语言定位与细粒度视觉对应之间的差距；(iii) 对应性能对密集下游任务（包括分割、跟踪、3D姿态估计和3D检测）的预测能力显著强于ImageNet分类。综合来看，这些发现将SOCO定位为衡量视觉与多模态基础模型中结构化部件级表示质量的基准。
KLIP：基于KL散度与扩散先验的逆问题局部分布偏移检测	Alireza Kheirandish	2026-05-29	PDF	扩散模型作为计算成像的数据驱动先验已展现出良好性能，并具备一定的分布外（OOD）图像检测能力。然而，现有OOD检测方法通常需要了解偏移分布的先验知识，难以检测细微或局部化的分布偏移，且仅能处理完整图像，无法适用于逆问题中常见的间接测量数据。我们提出一种基于扩散先验与后验分布之间KL散度的OOD检测指标，该指标（i）无需任何校准数据或偏移分布的先验知识，（ii）既能检测整幅图像的OOD特征，也能定位图像中的OOD区域。实验表明，该指标可检测细微但具有语义意义的分布偏移（如健康肝脏CT与肿瘤肝脏CT的差异），并适用于多种扩散模型、数据集及逆问题。代码已开源：https://github.com/voilalab/KLIP。
使用紧凑高斯学习全局运动以实现前馈式4D重建	Mungyeom Kim	2026-05-29	PDF	从单目视频进行动态场景重建仍是计算机视觉中的一项基础性挑战。现有前馈方法逐帧按像素预测3D高斯体，存在高斯体重复及视角依赖偏差问题，阻碍了场景运动信息的有效学习。我们提出C4G——一种基于紧凑型时间戳条件可学习高斯查询令牌的前馈4D重建框架。每个令牌在完整时间上下文中聚合对应特征，并解码出位置受目标时间戳调制的3D高斯体，无需逐场景优化即可实现全局连贯的运动建模。为捕捉精细细节，我们进一步引入基于视频扩散模型的渲染增强模块。由于本框架能有效将特征聚合至高斯体，我们将此能力扩展至特征提升，构建支持点追踪与动态场景理解的4D特征场。C4G在无需相机位姿且使用显著更少高斯体的条件下，实现了强健的新视角合成性能，同时展现出更优的运动建模能力与对长时间间隔的鲁棒性。
分布式优化中误差反馈算法的严密理论	Daniel Berg Thomsen	2026-05-29	PDF	通信成本是分布式学习与一阶优化中的主要瓶颈。缓解该问题的常见方法是对智能体间交换的梯度信息进行压缩。然而，此类压缩通常会削弱基于梯度方法的收敛保证。误差反馈机制为此问题提供了简单且计算成本低廉的解决方案，但已有多种变体被提出，其相对性能仍缺乏深入理解。本文通过确定最优步长选择并构建针对每种方法的最优李雅普诺夫函数，对文献中两种主要误差反馈算法——经典误差反馈方法（EF）与误差反馈21（EF21）——提供了紧致收敛性分析。所得结果与智能体数量无关，并恢复了单智能体场景下已知的最佳保证。
有状态在线监控捕获分布式代理攻击	Davis Brown	2026-05-29	PDF	语言模型能够发现数千个严重的软件漏洞，而智能体正越来越多地被滥用于网络攻击。为避免检测，攻击者经常分散其滥用行为，将有害任务拆分到多个用户账户中，使每个单独的对话记录看起来无害。由于安全监控器每次只评估一个智能体上下文，它们在结构上无法察觉仅在跨账户聚合时才可见的滥用行为。我们通过构建（据我们所知）首个分布式智能体攻击来证明这一漏洞的存在——这是一种多智能体框架，能在完成高难度网络安全任务的同时，将有害目标隐藏于上下文受限的子智能体中，从而规避标准监控器（其捕获率仅为先前智能体攻击的五分之一）。为构建防御措施，我们开发了一种在线状态监控器，通过实时聚类收集跨多个智能体对话记录的微弱可疑信号，仅在极少数情况下升级至语言模型以标记跨用户账户的滥用行为。在大规模模拟数据中心流量的评估中，我们的监控器在帕累托效率上优于标准监控器，能提前30%捕获分布式攻击，并在网络滥用达到最有害阶段前发出警报。关键的是，这对约99%的用户流量仅带来可忽略的额外延迟。随着良性背景流量大幅增长，这种检测优势虽持续存在但会缩小。经过广泛的红队测试，我们改进了防御措施，并意外发现它还能捕获标准越狱攻击——因为自适应攻击者会跨账户复用攻击变体。我们的研究结果指向一类新型安全监控器，其推理对象是用户群体而非孤立对话记录。
CoFiDA-M：面向仅图像推理的跨域自适应概念感知特征调制方法	Nurjahan Sultana	2026-05-29	PDF	基于AI的皮肤癌筛查模型在从专家皮肤镜（源域）图像转向消费级临床（目标域）图像时，性能会出现严重下降，阻碍了实际部署。现有域适应方法往往忽略关键语义不变性（如临床概念）。虽然MONET等新型基础模型能以密集概率评分形式提供此类语义信息，但该元数据在测试阶段不可获取，导致实际图像筛查工具面临部署悖论。我们提出CoFiDA-M特权信息框架解决这一空白——该框架在训练阶段学习概念，但以纯图像模型形式部署。我们的方法训练教师网络，利用MONET概念概率指导FiLM调制器，将视觉特征转化为语义"编辑"后的特征空间。随后训练轻量级纯图像学生模型，不仅复制教师最终预测，更重现该编辑表征。这种蒸馏将临床推理"内化"至学生模型权重中。在具有挑战性的多数据集基准测试中，我们的纯图像学生模型显著超越现有最优方法，尤其在黑色素瘤召回率方面表现突出。本研究为利用含噪概率元数据作为特权信息提供了实用且可泛化的框架，展现出跨数据集强鲁棒性及超越皮肤科领域的实际部署潜力。实现代码见：https://github.com/mmu-dermatology-research/CoFiDA.git
TunerDiT：面向多事件视频生成的无训练渐进式扩散Transformer引导方法	Ruotong Liao	2026-05-29	PDF	文本到视频（T2V）生成在生成包含多个事件的长时序视频时面临挑战性问题。受扩散过程内在特性的启发，我们探究了视频扩散Transformer（DiT），并揭示了DiT去噪轨迹中的内在转折点——在此处条件文本对生成的影响从全局布局过渡到细粒度细节。基于这一发现，我们提出TunerDiT，一种简单而有效的渐进式引导方法，无需额外训练即可实现多事件生成。TunerDiT包含两个控制手柄：（1）事件分区掩码，用于强制事件边界同时允许跨事件过渡带；（2）跨事件提示融合，在后期细化阶段注入相邻事件语义。我们贡献了一套自策提示套件Meve用于多事件生成基准测试。与其他免训练方法相比，TunerDiT在8项指标上达到最优性能，并在视频一致性与事件分离之间提供可调权衡。文本对齐的改进随事件数量增加而增强，表明其具备随事件数量增长的可扩展潜力。