arxiv 2025-12-24

标题	作者	PDF链接	摘要
语义生成：基于语义空间的视频生成	Jianhong Bai	PDF	当前先进的视频生成模型通常学习视频在变分自编码器（VAE）空间中的潜在分布，并通过VAE解码器将其映射到像素空间。尽管这种方法能够生成高质量视频，但其收敛速度较慢，且在生成长视频时计算成本高昂。本文提出了一种新颖的解决方案——SemanticGen，通过在语义空间生成视频来突破这些限制。我们的核心观点是：由于视频本身存在固有冗余性，生成过程应当从紧凑的高层语义空间开始进行全局规划，再逐步添加高频细节，而非直接使用双向注意力机制对海量低层视频标记进行建模。SemanticGen采用两阶段生成流程：第一阶段通过扩散模型生成紧凑的语义视频特征，这些特征定义了视频的全局结构；第二阶段则基于这些语义特征，通过另一个扩散模型生成VAE潜在表示以产生最终输出。我们发现，与VAE潜在空间相比，在语义空间进行生成能实现更快的收敛速度。当扩展至长视频生成时，我们的方法不仅效果显著，同时具备更高的计算效率。大量实验表明，SemanticGen能够生成高质量视频，其性能优于当前最先进的方法及各类强基线模型。
长视频智能体：基于多智能体推理的长视频处理系统	Runtao Liu	PDF	多模态大语言模型及利用工具进行长视频问答的系统的最新进展，展现了针对长达数小时视频内容进行推理的潜力。然而，现有方法仍多将内容压缩为有损摘要或依赖有限工具集，这削弱了时序定位能力并遗漏了细粒度线索。我们提出一种多智能体框架：主控大语言模型协调定位智能体以确定问题相关片段，并调度视觉智能体提取目标文本观察信息。主控智能体在步数限制下进行规划，并通过强化学习训练以促进简洁、准确且高效的多智能体协作。该设计使主控智能体能够借助定位聚焦相关片段，用视觉细节补充字幕信息，并生成可解释的决策轨迹。在我们基于TVQA/TVQA+构建的剧集级数据集LongTVQA与LongTVQA+上，我们的多智能体系统显著优于强力的非智能体基线模型。实验同时表明，强化学习能进一步增强已训练智能体的推理与规划能力。代码与数据将在https://longvideoagent.github.io/公开。
空间树：多模态大语言模型中空间能力的分支发展	Yuxi Xiao	PDF	认知科学表明，空间能力的发展遵循从感知到推理再到交互的渐进过程。然而在多模态大语言模型（MLLMs）中，这种层级结构尚未得到充分理解，现有研究多局限于特定任务。我们提出受认知科学启发的SpatialTree层级框架，将空间能力划分为四个层级：低阶感知（L1）、心理映射（L2）、动态模拟（L3）和具身交互（L4）。基于此分类体系，我们构建了首个以能力为中心的层级化评测基准，系统评估了主流MLLMs在27项子能力上的表现。评估结果揭示了清晰的层级结构：L1能力呈现相对独立性，而高阶能力间存在强相关性，表明能力间的相互依赖性随层级提升而增强。通过定向监督微调实验，我们发现了有趣的迁移规律——L1内部存在负迁移现象，但从低阶到高阶能力存在显著的跨层级正向迁移与协同效应。最后，我们探索了如何系统性提升整个能力层级。研究发现，简单鼓励"深度思考"的强化学习策略并不可靠：虽能提升复杂推理能力，却会损害直觉感知。我们提出一种抑制冗余思考的自动调控策略，使强化学习能够稳定提升所有层级的表现。通过构建SpatialTree框架，我们为理解和系统化扩展MLLMs的空间能力提供了概念验证范式。
通过闭环世界建模实现视频化身的主动智能	Xuanhua He	PDF	当前视频数字人生成方法在身份保持与运动对齐方面表现优异，但缺乏真正的自主性，无法通过自适应环境交互自主实现长期目标。为此，我们提出L-IVA（长时程交互视觉数字人）——一个用于评估随机生成环境中目标导向规划能力的任务与基准，并首次构建了实现视频数字人主动智能的框架ORCA（在线推理与认知架构）。ORCA通过两项核心创新实现了内部世界模型能力：（1）构建了观察-思考-行动-反思的闭环OTAR循环，通过持续比对预测结果与实际生成内容，在生成不确定性条件下保持鲁棒的状态追踪；（2）建立分层双系统架构，其中系统2通过状态预测进行战略推理，系统1则将抽象计划转化为精确的、模型特定的动作描述。通过将数字人控制建模为部分可观测马尔可夫决策过程，并实施基于结果验证的持续信念更新，ORCA实现了开放域场景下的自主多步骤任务完成。大量实验表明，ORCA在任务成功率和行为连贯性上显著优于开环与非反思基线方法，验证了我们受内部世界模型启发的设计能够推动视频数字人从被动动画向主动目标导向行为的智能演进。
使大型语言模型成为高效密集检索器	Yibin Lei	PDF	近期研究表明，直接对大语言模型（LLMs）进行稠密检索任务的微调可获得优异性能，但其庞大的参数量导致计算效率低下。虽然先前研究揭示了LLMs在生成任务中存在显著的层级冗余，但当这些模型被适配于检索任务时——这类任务需要将完整序列编码为固定表征而非迭代生成词元——是否仍存在类似冗余尚不明确。为此，我们对基于LLM的稠密检索器进行了层级冗余的全面分析。研究发现：与生成任务不同，MLP层具有更高的可剪裁性，而注意力层对语义聚合仍至关重要。基于此发现，我们提出EffiR框架，通过"粗粒度深度缩减→细粒度宽度缩减"的分层压缩策略对MLP层进行大规模压缩，并结合检索导向的微调，构建高效检索器。在多样化BEIR数据集和不同LLM骨干网络的实验中，EffiR在保持全尺寸模型性能的同时，显著降低了模型规模与推理成本。
FedPOD：联邦学习的可部署训练单元	Daewoon Kim	PDF	本文提出FedPOD（按比例编排的衍生算法），用于优化多客户端联邦学习中的学习效率与通信成本。受FedPIDAvg启发，我们为FedPOD定义了轮次任务以提升训练效率。FedPIDAvg通过引入训练损失减少量作为预测熵的权重（采用微分项）实现了性能提升，并通过泊松分布建模数据分布及使用PID控制器，在偏态数据分布下仍降低了通信成本。然而，基于泊松分布将参与者判定为异常值并加以排除的做法可能限制数据利用率。此外，由于PID控制器需在当前轮次使用历史轮次的学习信息，要求在整个联邦学习过程中保持参与者不变。针对这些问题，FedPOD通过纳入被判定为异常值的参与者、消除对历史轮次学习信息的依赖，并采用每轮验证损失计算方法予以改进。在本次挑战中，FedPOD在Dice分数指标上（WT、ET、TC平均值分别为0.78、0.71、0.72）与预测收敛分数指标（平均0.74）上展现出与FedPIDAvg相当的性能。值得注意的是，FedPOD的设计理念借鉴了Kubernetes最小计算单元POD的架构思想，旨在实现与Kubernetes自动扩缩容机制的兼容。通过将FedPOD的轮次任务扩展至POD单元，可运用类似Kubernetes自动扩缩容的横向扩展机制实现灵活设计。本研究表明，FedPOD在提升联邦学习的效率、灵活性及多维度性能指标方面具有显著潜力。
鞍点间动力学揭示神经网络架构中的简洁性偏好	Yedi Zhang	PDF	采用梯度下降训练的神经网络常随时间推移习得复杂度递增的解，这一现象被称为简单性偏好。尽管该现象在不同架构中普遍存在，现有理论分析仍缺乏统一框架。我们提出一个理论框架，用于解释广泛神经网络类别（包括全连接网络、卷积网络及基于注意力的架构）中由鞍点到鞍点学习动态引发的简单性偏好。此处的"简单"指可用少量隐藏单元（即隐藏神经元、卷积核或注意力头）表达的解。具体而言，我们证明：线性网络会习得秩递增的解，ReLU网络会习得拐点数量递增的解，卷积网络会习得卷积核数量递增的解，而自注意力模型会习得注意力头数量递增的解。通过分析梯度下降学习的固定点、不变流形及动态过程，我们揭示鞍点到鞍点动态通过以下方式运作：沿不变流形迭代演化，逼近鞍点，再切换至另一不变流形。我们的分析还阐明了数据分布与权重初始化对学习中平台期持续时间和数量的影响，解构了先前混淆的因素。总体而言，本理论为理解梯度下降何时及为何会渐进学习复杂度递增的解提供了统一框架。
重新利用视频扩散变换器实现稳健的点跟踪	Soowon Son	PDF	点追踪旨在跨视频帧定位对应点，是4D重建、机器人技术和视频编辑的基础任务。现有方法通常依赖浅层卷积主干网络（如ResNet）独立处理各帧，缺乏时间连贯性，在复杂场景下易产生不可靠的匹配代价。通过系统分析，我们发现基于大规模真实世界视频预训练的视频扩散变换器（DiTs）具有时空注意力机制，天然展现出强大的点追踪能力，并能稳健处理动态运动和频繁遮挡。我们提出DiTracker方法，通过以下方式适配视频DiTs：（1）查询-键注意力匹配机制，（2）轻量级LoRA微调策略，（3）与ResNet主干网络的代价融合。尽管训练批次规模缩小8倍，DiTracker在极具挑战性的ITTO基准测试中达到最优性能，并在TAP-Vid基准测试中与当前最优模型持平或更优。本研究表明视频DiT特征可作为点追踪任务高效且强大的基础架构。
自回归模型中涌现的时间抽象能力，实现了分层强化学习。	Seijin Kobayashi	PDF	在大规模自回归模型中，通过下一词元预测进行预训练并结合强化学习进行微调的方法已在众多问题领域取得前所未有的成功。在强化学习过程中，这些模型通过逐词元生成新输出来进行探索。然而，这种逐词元采样的行为方式可能导致学习效率低下，尤其在奖励稀疏的情况下。本文研究表明，通过在自回归模型的内部表征空间中进行行动与探索，可以有效解决这一问题。具体而言，为发现时序抽象动作，我们引入了一个高阶非因果序列模型，其输出可控制基础自回归模型的残差流激活状态。在具有层次结构的网格世界和基于MuJoCo的任务中，高阶模型成功将长激活序列块压缩至内部控制器。关键突破在于，每个控制器能执行具有行为意义的长时序动作序列，并配备学习得到的终止条件，使得多个控制器在时间维度上的组合能够在新任务中实现高效探索。我们提出的"内部强化学习"方法——即直接对内部控制器进行强化——能够在标准强化学习微调失效的稀疏奖励场景中实现有效学习。研究结果证明了自回归模型中潜在动作生成与强化的优势，表明内部强化学习为实现基础模型中的分层强化学习提供了前景广阔的新路径。
MoE-DiffuSeq：通过稀疏注意力机制与专家混合模型增强长文档扩散模型	Alexandros Christoforos	PDF	我们提出MoE-DiffuSeq，一种基于专家混合的框架，旨在增强扩散模型生成长文档的能力。现有的基于扩散的文本生成模型（如DiffuSeq）在处理长序列时面临计算成本高和内存开销大的问题。为解决这些挑战，MoE-DiffuSeq将稀疏注意力机制与专家混合架构相结合，实现了高效且可扩展的长序列建模。我们的方法引入了一种定制的稀疏注意力机制，旨在降低计算复杂度的同时保持文本质量和连贯性。此外，我们在扩散过程中加入了软吸收状态，以加速序列重建并提高生成精度。大量实验表明，与现有扩散模型相比，MoE-DiffuSeq显著提升了训练效率和采样速度。这些优势在长文档生成场景中尤为突出，包括科学文章生成、代码库建模以及长对话生成。基准测试结果进一步显示，MoE-DiffuSeq在效率、速度、准确性和表达能力方面均有提升，推动了扩散模型在高质量长文本生成中的实际应用。