arxiv 2025-12-18

标题	作者	PDF链接	摘要
Spatia：基于可更新空间记忆的视频生成	Jinjing Zhao	PDF	现有视频生成模型因视频信号密集且高维的特性，难以保持长期的空间与时间一致性。为突破这一局限，我们提出Spatia——一种空间记忆感知的视频生成框架，其核心在于显式地将三维场景点云作为持久性空间记忆进行保存。Spatia基于该空间记忆迭代生成视频片段，并通过视觉SLAM技术持续更新记忆库。这种动态-静态解耦的设计在增强生成过程空间一致性的同时，保留了模型生成逼真动态实体的能力。此外，Spatia支持显式相机控制与三维感知交互编辑等应用，为可扩展的记忆驱动视频生成提供了几何基础坚实的框架。
追求视觉预训练中的像素级监督	Lihe Yang	PDF	在最基础的层面上，像素是我们感知世界所依赖的视觉信息源头。像素包含从底层属性到高层概念的全方位信息。自编码器是从像素或其他原始输入中学习表征的经典且历史悠久的范式。本研究证明，基于自编码器的自监督学习至今仍具竞争力，能够为下游任务生成强表征，同时保持简洁性、稳定性和高效性。我们提出的模型代号"Pixio"，是一种增强型掩码自编码器（MAE），具备更具挑战性的预训练任务和更强大的架构。该模型通过自主筛选策略在20亿张网络爬取图像上进行训练，仅需极少量人工标注。Pixio在开放场景的广泛下游任务中均展现竞争力，包括单目深度估计（如Depth Anything）、前馈式三维重建（即MapAnything）、语义分割及机器人学习等任务，其性能优于或持平于同等规模训练的DINOv3模型。我们的研究结果表明，像素空间的自监督学习可作为潜在空间方法极具前景的替代方案与补充路径。
DiffusionVL：将任意自回归模型转化为扩散式视觉语言模型	Lunbin Zeng	PDF	在近期的多模态研究中，扩散范式因其独特的解码优势，已成为自回归范式（AR）极具潜力的替代方案。然而，由于基础扩散语言模型的能力局限，扩散视觉语言模型（dVLM）的性能仍显著落后于主流模型。这引出了一个简单而根本的问题：能否基于现有强大的AR模型构建dVLM？为此，我们提出DiffusionVL——一个可从任意强大AR模型转换而来的dVLM系列。通过简单的微调，我们成功将AR预训练模型适配至扩散范式。该方法带来两个关键发现：（1）从基于AR的多模态模型向扩散范式的转换效果显著；（2）将AR语言模型直接转换为dVLM同样可行，其性能可与LLaVA风格的视觉指令调优模型相媲美。此外，我们在dVLM中引入支持任意长度生成和KV缓存复用的块解码设计，实现了显著的推理加速。大量实验表明：尽管训练数据量不足先前方法的5%，DiffusionVL在MMMU-Pro（视觉）基准上取得34.4%的性能提升，在MME（认知）基准上提升37.5%，同时实现2倍推理加速。模型与代码已发布于https://github.com/hustvl/DiffusionVL。
预测性概念解码器：训练可扩展的端到端可解释性助手	Vincent Huang	PDF	解读神经网络内部激活状态能够更真实地解释其行为机制，但由于激活空间的复杂结构，这一过程极具挑战性。现有可扩展的解读方法通常依赖人工设计的智能体，通过提出并验证关于内部激活与外部行为关联的假设来实现。我们提出将这一任务转化为端到端的训练目标，通过通信瓶颈训练可解释性助手，使其能够根据激活状态准确预测模型行为。具体而言，编码器将激活状态压缩为稀疏的概念列表，解码器读取该列表并回答关于模型的自然语言问题。我们展示了如何在大规模非结构化数据上预训练该助手，并通过微调使其具备问题解答能力。这一被我们称为"预测性概念解码器"的架构展现出良好的扩展特性：瓶颈概念的自解释评分随数据量提升而改善，下游应用性能亦同步增强。实验证明，预测性概念解码器能够有效检测越狱攻击、隐蔽提示及植入的潜在概念，并能准确揭示用户的潜在属性特征。
高斯像素编解码化身：一种用于高效渲染的混合表示法	Divam Gupta	PDF	我们提出高斯像素编解码化身（GPiCA），这是一种可从多视角图像生成并在移动设备上高效渲染的逼真头部化身。GPiCA采用独特的混合表示方法，将三角网格与各向异性3D高斯模型相结合。这种组合在保持逼真外观的同时，最大限度地提升了内存利用率和渲染效率。三角网格能高效表征面部皮肤等表面区域，而3D高斯模型则能有效处理头发、胡须等非表面区域。为此，我们开发了统一的差异化渲染管线，将网格作为半透明层融入3D高斯泼溅的体渲染框架中。通过训练神经网络，我们将面部表情编码解码为三个组件：3D面部网格、RGBA纹理和一组3D高斯模型。这些组件在统一的渲染引擎中同步渲染，整个训练过程采用多视角图像监督。实验结果表明，GPiCA在保持纯高斯模型化身的真实感同时，其渲染性能与基于网格的化身相当。
艺术智能系统：基于人工智能的双引擎艺术生成与评论系统	Shuai Liu	PDF	本文提出一种双引擎人工智能架构方法，旨在解决探索艺术演变潜在轨迹这一复杂问题。我们设计了两个相互关联的组成部分：AIDA（人工艺术家社交网络）与批判分析系统"Ismism Machine"。该架构的核心创新在于运用深度学习与多智能体协作技术，实现对艺术史发展脉络与概念创新模式的多维度模拟。该框架探索了从传统单向批判向智能化、交互式反思实践模式的转变。我们目前正将这一方法应用于当代艺术概念的实验性研究中。本研究提出了一种基于人工智能驱动批判循环的通用方法论，为艺术的计算分析提供了新的可能性。
多视图基础模型	Leo Segre	PDF	基础模型是计算机视觉应用中的关键工具。它们以单张RGB图像作为输入，输出适用于多种任务的深度特征表示。然而，当面对同一三维场景的多视角图像时，现有模型需对每张图像独立处理，往往无法为同一三维点生成一致的特征表达。我们提出了一种将基础模型转化为多视角基础模型的方法。该模型以图像集合作为输入，为每张图像输出特征图，并确保对应点的特征尽可能保持一致。这种方法无需构建统一的三维特征模型，可直接在图像空间中进行操作。

具体而言，我们展示了如何通过引入具有三维感知能力的中间注意力层来增强基于Transformer的基础模型（如DINO、SAM、CLIP），这些注意力层有助于跨视角特征匹配。以表面法线估计和多视角分割任务为例，定量实验表明，相较于现有基础模型，我们的方法显著提升了特征匹配性能。 | | GateFusion：用于主动说话人检测的层次化门控跨模态融合 | Yu Wang | PDF | 主动说话人检测（ASD）旨在识别视频每一帧中正在说话的人物。当前主流方法多采用后期融合策略整合视觉与音频特征，但这种方式往往难以捕捉细粒度的跨模态交互，而这对于非受限场景下的鲁棒性能至关重要。本文提出GateFusion架构，该架构将强预训练单模态编码器与分层门控融合解码器（HiGate）相结合。HiGate通过可学习的双模态条件门控机制，在Transformer主干网络的多层结构中自适应地将一种模态的上下文特征注入另一模态，实现渐进式多深度融合。为增强多模态学习能力，我们提出两个辅助目标：掩码对齐损失（MAL）用于对齐单模态输出与多模态预测，过正惩罚（OPP）用于抑制纯视频伪激活。GateFusion在多个高难度ASD基准测试中取得突破性成果：在Ego4D-ASD、UniTalk和WASD基准上分别达到77.8% mAP（提升9.4%）、86.1% mAP（提升2.9%）和96.1% mAP（提升0.5%），并在AVA-ActiveSpeaker数据集上展现竞争优势。跨域实验验证了模型的泛化能力，系统性消融研究则揭示了各模块的互补效益。 | | 基于稀疏生物学数据学习膀胱癌联合疗法中的模型参数动态 | Kayode Olumoyin | PDF | 在生物有机体相互作用的数学模型中，外部干预可能随时间改变其行为，而传统假设参数固定的模型通常无法捕捉这种动态演化。在肿瘤学领域，这一问题因实验数据往往稀疏且有时仅包含少数时间点的肿瘤体积数据而进一步加剧。本文提出在有限数据场景下，学习细胞间（如膀胱癌肿瘤细胞与免疫细胞）的时变相互作用及其对联合抗癌治疗的反应。我们采用物理信息神经网络方法，在无观测数据的时间点预测可能的亚群轨迹。研究证明，该方法与亚群轨迹的生物学解释具有一致性。本方法为研究生物有机体在外部干预环境下的动态相互作用提供了学习框架。 | | 动态重批处理：利用DREX实现高效早退推理 | Xuting Liu | PDF | 早退（Early-Exit，简称EE）是一种大语言模型（LLM）架构，通过仅使用模型的部分层生成较简单的词元来加速推理过程。然而，传统的批处理框架并不适用于EE LLM，因为同一批次中的请求未必同时满足早退条件。现有解决方案要么强制对批次进行统一决策（从而错失早退机会），要么通过强制提前退出而降低输出质量。我们提出动态重批处理方案，即在每个早退点动态重组批次：满足退出条件的请求立即被处理，而需要继续计算的请求则暂存于缓冲区，重新编组为新批次后转发至更深层处理。

我们设计了DREX早退推理系统，该系统通过两项关键优化实现动态重批处理：1）采用零拷贝重批处理缓冲区，避免物理数据移动；2）配备具备EE与服务等级协议感知能力的调度器，可通过分析预测给定重批处理操作是否产生增益。DREX还通过内存高效的状态复制机制，有效处理因跳过层而产生的键值缓存缺失问题。实验评估表明，在保持输出质量的前提下，DREX相比基线方法将吞吐量提升了2-12%。尤为关键的是，DREX彻底消除了非自愿退出情况，为维护EE模型预设的输出质量提供了根本保障。 |