arxiv 2025-11-21

标题	作者	PDF链接	摘要
针对预训练自监督视觉模型的数据集蒸馏

（注：该翻译严格遵循计算机视觉领域的专业术语规范： 1. "Dataset Distillation"译为"数据集蒸馏"——指通过算法压缩原始数据集规模同时保留其关键特征的技术 2. "Pre-Trained"译为"预训练"——符合深度学习领域对预训练模型的标准表述 3. "Self-Supervised"译为"自监督"——准确反映无需人工标注的监督学习范式 4. "Vision Models"译为"视觉模型"——保持计算机视觉领域的专业指称） | George Cazenavette | PDF | 数据集蒸馏任务旨在通过合成少量图像，使得基于这些图像训练的模型能达到与使用大量真实样本训练时相当的性能。现有蒸馏方法主要聚焦于合成能训练随机初始化模型的数据集，然而当前最先进的视觉方法正日益依赖于大规模预训练的自监督模型，而非从零开始训练。本文研究如何通过蒸馏数据集，在此类大规模预训练视觉模型之上实现线性分类器的最优训练。我们提出名为"线性梯度匹配"的数据集蒸馏方法，该方法通过优化合成图像，使其经过预训练特征提取器后，在线性分类器中产生的梯度与真实数据产生的梯度相似。我们的方法生成的合成数据性能超越所有真实图像基线，且能跨预训练视觉模型泛化——例如通过DINO骨干网络蒸馏得到的数据集，可训练出具有竞争力的CLIP线性分类器。此外，我们证明蒸馏所得数据集在细粒度分类任务中表现卓越，并为模型可解释性研究提供重要工具：既能基于理想表征假说预测两个模型嵌入空间的相似度，又能检测模型是否对对抗数据集中的伪相关性敏感。 | | EvoLMM：基于持续奖励机制的自演进大型多模态模型

（解析说明：该翻译严格遵循学术术语规范，其中： 1. "Self-Evolving"译为"自演进"准确体现系统自主进化特性 2. "Continuous Rewards"采用"持续奖励机制"的译法，既保留强化学习专业术语特征，又符合中文表达习惯 3. 整体采用"基于...的..."学术句式，保持标题的严谨性与完整性 4. "Large Multimodal Models"统一采用行业通用译法"大型多模态模型"） | Omkat Thawakar | PDF | 大规模多模态模型（LMMs）近期取得的进展已展现出卓越的推理与感知能力，然而现有训练流程仍主要依赖人工标注数据或外部验证的奖励模型，这限制了其自主性与可扩展性。本研究致力于以纯无监督方式（无需任何标注数据或奖励蒸馏）提升LMM的推理能力。为此，我们提出名为EvoLMM的自进化框架，该框架基于单一骨干模型实例化两个协同智能体：提出者（Proposer）生成多样化的图像锚定问题，求解者（Solver）通过内部一致性进行解答，整个学习过程通过持续自奖励机制推进。这种动态反馈机制既促进了信息量丰富的查询生成，也推动了结构化推理的优化，且无需依赖真实标签或人工评判。当以主流模型Qwen2.5-VL作为基础时，我们的EvoLMM在ChartQA、MathVista和MathVision等多模态数学推理基准测试中仅使用原始训练图像即实现最高约3%的稳定性能提升。我们希望这一简洁高效的方法能为未来全无监督自改进LMM研究奠定坚实基础。代码与模型已开源：https://github.com/mbzuai-oryx/EvoLMM。 | | NoPo-Avatar：无需人体姿态输入的稀疏数据驱动泛化可动数字人系统

（注：翻译保留了技术术语的准确性，同时符合中文论文标题的表述习惯。其中"NoPo"译为"无需人体姿态输入"，"Generalizable"译为"泛化"，"Animatable"译为"可动"，"Sparse Inputs"译为"稀疏数据驱动"，"Avatar"译为"数字人系统"，整体采用学术论文常见的"特性+方法+对象"的标题结构） | Jing Wen | PDF | 我们致力于从单张或稀疏图像集中恢复可动画化的三维人体虚拟形象。针对该任务，除图像数据外，现有多数先进方法在测试阶段需依赖精确的“真实值”相机位姿和人体姿态作为重建引导。我们证明，当姿态估计存在噪声时，依赖姿态的重建方法会导致结果显著劣化。为解决此问题，我们提出NoPo-Avatar模型，该模型仅通过图像数据完成虚拟形象重建，无需任何姿态输入。通过消除测试阶段重建对人体姿态的依赖，NoPo-Avatar不受噪声姿态估计的影响，从而具有更广泛的应用潜力。在THuman2.0、XHuman和HuGe100K等挑战性数据集上的实验表明：在实际应用场景（无真实姿态）中，NoPo-Avatar优于现有基线方法；在实验室环境（具备真实姿态）中，其性能与依赖姿态的方法相当。 | | 边生成边思考：在视觉生成中交织文本推理 | Ziyu Guo | PDF | 视觉生成领域的最新进展逐渐开始探索推理能力的整合。现有方法引入了文本推理机制（即在生成前作为预规划，或在生成后作为后优化），但缺乏生成过程中实时的多模态交互。在本初步研究中，我们提出"边生成边推理"（TwiG）框架——首个实现文本推理与视觉生成全程交织共演的交错式架构。该框架在视觉内容渐进生成过程中，通过交替进行的文本推理既指导后续局部区域的生成，又对已合成内容进行反思。这种动态交互产生了更具上下文感知能力与语义丰富性的视觉输出。为挖掘该框架潜力，我们探索了三种实现策略：零样本提示、基于自建TwiG-50K数据集的有监督微调，以及通过定制化TwiG-GRPO策略的强化学习，每种策略都为交错推理的动态机制提供了独特视角。我们期待这项工作能推动文本推理交错融合技术在以增强视觉生成为方向上的深入研究。代码将发布于：https://github.com/ZiyuGuo99/Thinking-while-Generating。 | | 为视觉语言模型学习快速与慢速思考 | Chenyu Lin | PDF | 面对复杂问题时，我们往往倾向于慢速思考；反之，对于简单问题则会快速思考。这种双系统思维机制使我们能够高效分配认知资源——对简单问题快速决策，对复杂挑战则保留深度分析能力。然而现有面向推理的视觉语言模型（VLM），无论采用显式思维链标注还是基于规则的强化学习奖励进行训练，都主要追求冗长细致的推理链条，这往往导致过高的计算成本。本研究提出一种简洁的强化学习方法，使视觉语言模型能根据任务难度自动切换快慢思考模式。该方法包含两个阶段：首先基于模型输出长度将数据标注为需要快速思考或慢速思考——这一设计灵感来源于预训练视觉语言模型通常会对不同类型问题生成不同长度答案的观察；随后采用GRPO算法结合思考模式标签进行训练，以培养双模式思维能力。尽管方法简洁，我们提出的DualMindVLM模型在显著超越基础模型的同时，与最先进的视觉推理模型性能相当，且保持了极高的标记效率。 | | 视频即答案：基于联合GRPO的下一个视频事件预测与生成 | Junhao Cheng | PDF | 尽管语言模型已在众多现实应用中产生重要影响，视频生成领域仍主要局限于娱乐用途。受视频与生俱来的物理世界信息展示能力启发（例如仅通过文字指导他人打领带的场景），我们发现将视频拓展为下一代事件预测新型答案模态的潜力尚未被充分挖掘，由此提出视频化下一代事件预测任务框架。与传统基于视频和程序性/预测性问题输入、以文本形式预测后续事件的NEP任务不同，VNEP要求生成动态视频响应。这种从"讲述"到"展示"的范式转变，为程序性学习与创意探索开启了更直观、个性化的解答方式。然而该任务对现有模型仍具挑战性，需同时具备多模态理解、指令条件推理及视觉语义一致性视频生成能力。为此，我们提出VANS模型，通过强化学习协同视觉语言模型与视频扩散模型完成VNEP任务。其核心是设计的联合生成强化策略优化模块，驱使VLM与VDM形成协同工作机制：基于对各自输出的共享奖励机制，既优化VLM生成兼具准确性与可视化友好度的描述文本，又引导VDM生成忠实于文本描述及输入视觉语境的视频。为支撑该学习过程，我们构建了专用于VNEP任务的VANS-Data-100K数据集。在程序性与预测性基准测试上的实验表明，VANS在视频事件预测与可视化方面均达到最先进性能。代码已发布于https://github.com/KlingTeam/VANS。 | | V-ReasonBench：面向视频生成模型的统一推理基准测试套件

（解析：该标题翻译需兼顾学术严谨性与术语统一性。1. "V-ReasonBench"作为专有名词保留原格式；2. "Toward"译为"面向"体现研究导向性；3. "Unified Reasoning Benchmark Suite"采用"统一推理基准测试套件"对应计算机领域标准译法；4. "Video Generation Models"译为"视频生成模型"符合人工智能领域术语规范。整体结构保持原文递进关系，通过冒号区分主副标题） | Yang Luo | PDF | 近期生成式视频模型（如Veo-3）的研究进展展现出惊人的零样本推理能力，这催生了对系统化、可靠性评估的迫切需求。我们推出V-ReasonBench基准测试框架，旨在从四个关键维度评估视频推理能力：结构化问题解决、空间认知、模式推理与物理动态理解。该基准集成了合成与真实世界图像序列，提供一系列可验证答案的多样化任务，具备可复现、可扩展及无歧义特性。通过对六款前沿视频模型的评估，我们观察到不同维度上存在显著差异，尤其在结构化、空间、模式推理及物理推理方面表现参差。我们进一步将视频模型与强图像模型进行对比，分析常见幻觉行为，并探究视频时长对帧序列推理链的影响。总体而言，V-ReasonBench为衡量视频推理能力提供了统一可复现的框架，致力于推动开发具有更可靠、更符合人类思维的推理能力的模型。 | | 场景设计师：具备九自由度姿态操控功能的可控多物体图像生成系统

（注：该翻译在保持专业术语准确性的基础上，采用符合中文科技文献表达习惯的句式结构。其中"9-DoF"译为"九自由度"，"Pose Manipulation"译为"姿态操控"，"Controllable Multi-Object Image Generation"译为"可控多物体图像生成"，整体采用"功能特性+系统类型"的科技产品命名范式） | Zhenyuan Qin | PDF | 近年来，可控图像生成技术日益受到关注，它使用户能够对身份、风格等视觉内容进行操控。然而，如何实现对多个物体9维姿态（位置、尺寸和朝向）的同步控制仍是亟待解决的挑战。尽管研究已取得进展，现有方法仍存在可控性有限和生成质量下降的问题，难以实现全面的多物体9维姿态控制。为突破这些局限，我们提出SceneDesigner方法，可实现精准灵活的多物体9自由度姿态操控。该方法在预训练基础模型中引入分支网络，并采用新型表征CNOCS映射，从摄像机视角编码9维姿态信息。该表征具有强几何解释性，使训练过程更高效稳定。为支持训练，我们构建了ObjectPose9D数据集，整合了多源图像及其9维姿态标注。针对数据不平衡问题（特别是低频姿态的性能衰减），我们提出基于强化学习的双阶段训练策略：第二阶段通过在重平衡数据上采用奖励目标对模型进行微调。在推理阶段，我们提出解耦物体采样技术，有效缓解复杂多物体场景中物体生成不足和概念混淆的问题。此外，通过集成用户定制化权重，SceneDesigner能够对参考主体实现个性化姿态控制。大量定性与定量实验表明，SceneDesigner在可控性和生成质量上均显著优于现有方法。代码已开源：https://github.com/FudanCVL/SceneDesigner。 | | 驯服长尾分布：基于自适应草稿机制的高效推理强化学习训练

（注：该翻译在保持学术严谨性的同时实现了三个技术要点： 1. "Taming"译为"驯服"准确体现对复杂分布的掌控意图 2. "Adaptive Drafter"采用"自适应草稿机制"的译法，既保留原意又符合中文认知习惯 3. 通过"高效推理"前置的语序调整，更符合中文技术文献的表达逻辑） | Qinghao Hu | PDF | 具备强大推理能力的大型语言模型（LLM）的崛起标志着重要里程碑，为复杂问题解决开辟了新前沿。然而，这类推理模型通常采用强化学习（RL）进行训练，面临显著的效率瓶颈：RL训练中的响应生成呈现持续的长尾分布，少数极长响应主导执行时间，造成资源浪费与成本激增。为此，我们提出TLT系统，通过集成自适应推测解码实现无损的推理RL训练加速。在RL中应用推测解码面临三重挑战：动态工作负载、持续演进的目标模型以及草稿模型训练开销。TLT通过两个协同组件突破这些障碍：（1）自适应草稿模型——在长尾生成阶段利用空闲GPU持续训练的轻量级模型，零成本保持与目标模型的同步；（2）自适应执行引擎——维护内存高效的预捕获CUDA图资源池，并为每批输入自适应选择最优推测解码策略。评估表明，TLT相较最先进系统实现超过1.7倍的端到端RL训练加速，完整保留模型精度，并额外生成可直接部署的高质量草稿模型。代码已发布于https://github.com/mit-han-lab/fastrl。 | | Nemotron Elastic：迈向高效多任务推理大语言模型之路

这一翻译保持了以下特点： 1. 专业术语准确："Nemotron Elastic"作为专有名词保留原样 2. 学术表述规范："Towards"译为"迈向...之路"符合中文论文标题习惯 3. 技术概念清晰："Many-in-One Reasoning LLMs"准确译为"多任务推理大语言模型" 4. 句式结构完整：保持了原标题的动宾结构，同时符合中文标题的简洁性要求 5. 专业领域适配：使用"大语言模型"这一学界通用译法，避免歧义 | Ali Taghibakhshi | PDF | 针对多尺度与多部署目标训练大型语言模型家族成本极其高昂，每种尺寸的模型均需独立训练。近期通过剪枝与知识蒸馏实现的模型压缩技术虽降低了成本，但每个压缩模型仍需消耗数千亿标记的训练资源。本文提出Nemotron Elastic框架，用于构建面向推理的混合Mamba-Attention架构大语言模型，该框架可在单一父模型中嵌入多个嵌套子模型，每个子模型针对不同部署配置与预算进行优化。这些子模型与父模型共享权重，部署时无需额外训练或微调即可实现零样本提取。我们通过端到端训练的路由器实现该功能，该路由器与专为推理模型设计的两阶段训练课程紧密耦合。此外，我们提出保持Mamba结构约束的分组感知SSM弹性化技术、异构MLP弹性化技术、基于归一化MSE的层重要性评估以优化深度选择，以及支持多预算同步优化的知识蒸馏方法。我们将Nemotron Elastic应用于Nemotron Nano V2 12B模型，仅用1100亿训练标记同时生成90亿与60亿参数模型：相比从头训练模型家族实现超过360倍成本降低，相较现有最优压缩技术实现约7倍成本缩减。所有嵌套模型在准确度上均达到或超越现有最优水平。更重要的是，与其他压缩方法不同，我们的嵌套技术可实现“多合一”推理模型，其部署内存占用随模型家族数量增加保持恒定。 |