arxiv 2025-11-22

标题	作者	PDF链接	摘要
针对预训练自监督视觉模型的数据集蒸馏

（注：该翻译保留了以下核心术语的学术准确性： 1. Dataset Distillation - 数据集蒸馏（指通过压缩原始数据集生成合成数据集的技术） 2. Pre-Trained - 预训练 3. Self-Supervised - 自监督（无监督学习的一种特殊形式） 4. Vision Models - 视觉模型整体表述符合计算机视觉领域的专业术语规范，准确传达了原文研究范畴。） | George Cazenavette | PDF | 数据集蒸馏任务旨在通过合成少量图像，使得基于这些图像训练的模型能够达到与使用大量真实样本训练时相当的性能。现有蒸馏方法主要聚焦于合成能训练随机初始化模型的数据集，然而当前最先进的视觉方法正日益依赖于大规模预训练的自监督模型，而非从零开始训练。本文研究如何通过蒸馏数据集，在此类大规模预训练视觉模型之上实现线性分类器的最优训练。我们提出名为"线性梯度匹配"的数据集蒸馏方法，通过优化合成图像使其经预训练特征提取器处理后，在线性分类器中产生的梯度与真实数据生成的梯度相似。该方法生成的合成数据性能超越所有真实图像基线，且能跨预训练视觉模型泛化——例如使用DINO骨干网络蒸馏得到的数据集，可训练出具有竞争力的CLIP线性分类器。此外，我们证明所提蒸馏数据集在细粒度分类任务中表现卓越，并为模型可解释性研究提供有力工具：既能基于柏拉图表示假说预测两个模型嵌入空间的相似度，又能识别模型是否对对抗数据集中的伪相关性敏感。 | | EvoLMM：基于持续奖励实现自我演进的大型多模态模型

（解析：1. "Self-Evolving"译为"自我演进"既体现技术自主性又符合学术用语规范；2. "Continuous Rewards"采用"持续奖励"准确传达强化学习中的持续反馈机制；3. 整体结构采用"核心命名+技术特性说明"的中文学术标题惯用格式，通过冒号分隔主副标题；4. 保留"LMM"专业缩写对应"大型多模态模型"这一学界通用译法） | Omkat Thawakar | PDF | 大规模多模态模型（LMMs）的最新进展已实现令人瞩目的推理与感知能力，然而现有训练流程仍大多依赖人工标注数据或外部验证的奖励模型，这限制了其自主性与可扩展性。本研究致力于以纯无监督方式（无需任何标注数据或奖励蒸馏）提升LMM的推理能力。为此，我们提出名为EvoLMM的自演进框架，该框架基于单一骨干模型实例化两个协同智能体：提出者（Proposer）生成多样化的图像锚定问题，求解者（Solver）通过内部一致性机制进行解答，整个学习过程通过持续自我奖励机制推进。这种动态反馈机制既促进了信息量丰富的查询生成，也推动了结构化推理的优化，且无需依赖真实标签或人工评判。当以主流模型Qwen2.5-VL作为基础时，我们的EvoLMM仅使用原始训练图像，就在多模态数学推理基准（包括ChartQA、MathVista和MathVision）上实现了最高约3%的稳定性能提升。我们希望这一简洁高效的方法能为未来全无监督场景下自改进LMM的研究提供坚实基础。代码与模型已发布于https://github.com/mbzuai-oryx/EvoLMM。 | | NoPo-Avatar：无需人体姿态输入的稀疏数据驱动通用可动虚拟形象生成系统

（注：翻译采用"术语直译+功能阐释"的复合译法： 1. 保留"NoPo-Avatar"技术代号原貌 2. "Generalizable"译为"通用"对应其跨场景适应性 3. "Animatable"译为"可动"强调动态生成能力 4. "Sparse Inputs"译为"稀疏数据"准确表达技术特征 5. 补充"生成系统"明确系统属性 6. 通过"无需人体姿态输入"前置突出技术突破点，完整传达原文拒绝依赖传统骨骼驱动的技术立场） | Jing Wen | PDF | 我们致力于从单张或稀疏图像集中恢复可动画化的三维人体虚拟形象。针对该任务，现有多数先进方法除图像集外，还需在测试阶段依赖精确的“真实值”相机位姿和人体姿态作为重建引导。我们证明，当姿态估计存在噪声时，依赖姿态的重建方法会导致结果显著劣化。为解决此问题，我们提出NoPo-Avatar模型，该模型仅通过图像即可完成虚拟形象重建，无需任何姿态输入。通过消除测试阶段重建对人体姿态的依赖，NoPo-Avatar不受噪声姿态估计的影响，从而具有更广泛的适用性。在THuman2.0、XHuman和HuGe100K等挑战性数据集上的实验表明：在实际场景（无真实姿态）中NoPo-Avatar优于现有基线方法，在实验室环境（具备真实姿态）中亦可取得相当的结果。 | | 边生成边思考：在视觉生成中交织文本推理 | Ziyu Guo | PDF | 视觉生成领域的最新进展逐渐开始探索推理能力的整合。现有方法引入了文本推理机制——即在生成前（作为预规划）或生成后（作为后期优化）进行思考，但尚未实现生成过程中的实时多模态交互。在本初步研究中，我们提出"边生成边思考"（TwiG）框架，这是首个在视觉生成全过程中实现文本推理协同演进的交错式架构。随着视觉内容的渐进生成，文本推理会交错介入：既指导后续局部区域的生成，又对已合成内容进行反思。这种动态交互能够产生更具上下文感知能力且语义丰富的视觉输出。为挖掘该框架潜力，我们探索了三种实现策略：零样本提示、基于自建TwiG-50K数据集的有监督微调，以及通过定制化TwiG-GRPO策略的强化学习，每种策略都为交错推理的动态机制提供了独特视角。我们期待这项工作能推动文本推理与视觉生成交错融合的深入研究。代码将发布于：https://github.com/ZiyuGuo99/Thinking-while-Generating。 | | 为视觉语言模型学习快速与慢速思维 | Chenyu Lin | PDF | 面对复杂问题时，我们往往倾向于慢速思考；反之，对于简单问题则会快速思考。这种双系统思维机制使我们能高效分配认知资源——对简单问题快速决策，对复杂挑战则保留深度分析能力。然而，现有面向推理的视觉语言模型（VLMs）无论是通过显式思维链标注还是基于规则的强化学习奖励进行训练，都主要追求冗长细致的推理链条，这往往导致过高的计算成本。本研究提出一种简洁的强化学习方法，使视觉语言模型能根据任务难度自动切换快慢思考模式。该方法包含两个阶段：第一阶段根据模型输出长度标注数据所需的思考模式（快速或慢速），这一设计灵感来源于预训练视觉语言模型通常会对不同类型问题生成不同长度答案的观察；第二阶段结合思考模式标签使用GRPO训练模型，以形成双模式思维能力。尽管方法简洁，我们提出的DualMindVLM模型在显著超越基础模型的同时，与最先进的视觉推理模型性能相当，并保持了极高的token使用效率。 | | 视频即答案：基于联合GRPO的下一视频事件预测与生成 | Junhao Cheng | PDF | 尽管语言模型已在众多现实应用中产生重要影响，视频生成领域仍主要局限于娱乐用途。受视频与生俱来的物理世界信息展示能力启发（例如仅通过文本指导他人打领带的场景），我们发现将视频拓展为下一代事件预测新型答案模态的潜力尚未被充分发掘，由此提出视频化下一代事件预测任务框架。与传统基于视频和程序性问题的文本答案预测不同，VNEP要求生成动态视频作为响应。这种从“讲述”到“展示”的范式转变，为程序性学习与创意探索开启了更直观、个性化的解答方式。然而该任务对现有模型仍具挑战性，需要同时具备多模态理解、指令条件推理以及视觉语义一致的视频生成能力。为此，我们提出VANS模型，通过强化学习将视觉语言模型与视频扩散模型协同运用于VNEP任务。该模型核心是创新的联合生成策略优化机制，驱使VLM与VDM作为整体协同工作：基于共享奖励信号，既优化VLM生成兼具准确性与可视化友好度的描述文本，又引导VDM生成忠实于文本描述及输入视觉语境的视频。为支撑模型训练，我们构建了包含10万样本的专用数据集VANS-Data-100K。在程序性与预测性基准测试上的实验表明，VANS在视频事件预测与可视化方面均达到最先进性能。代码已发布于https://github.com/KlingTeam/VANS。 | | V-ReasonBench：面向视频生成模型的统一推理基准测试套件

（解析：该标题采用学术翻译的常见结构： 1. 保留专业术语"Bench"译为"基准测试" 2. "Suite"译为"套件"符合计算机领域术语规范 3. "Video Generation Models"统一译为"视频生成模型" 4. "Unified Reasoning"译为"统一推理"保持概念一致性 5. 使用冒号分隔主副标题，符合中文学术标题规范 6. "Toward"译为"面向"准确传达研究导向性 7. 整体采用四六骈体结构，符合中文技术文献命名习惯） | Yang Luo | PDF | 近期生成式视频模型（如Veo-3）的研究进展展现出惊人的零样本推理能力，这催生了对系统化、可靠性评估的迫切需求。我们推出V-ReasonBench基准测试框架，旨在从四个关键维度评估视频推理能力：结构化问题解决、空间认知、模式推理与物理动态理解。该基准集成了合成与真实世界图像序列，提供一系列可验证答案的多样化任务，具备可复现、可扩展及无歧义特性。通过对六个前沿视频模型的评估，我们观察到不同维度上显著的性能差异，尤其在结构化、空间、模式推理及物理推理方面存在明显波动。研究进一步对比了视频模型与强图像模型的性能，分析了常见的幻觉生成行为，并探讨了视频时长对帧序列推理链的影响。总体而言，V-ReasonBench为衡量视频推理能力提供了统一且可复现的评估框架，致力于推动构建具有更可靠、更符合人类思维的推理能力的模型发展。 | | 场景设计师：具备九自由度姿态操控功能的可控多物体图像生成系统

（注：该翻译在保持专业术语准确性的基础上，采用符合中文科技文献表述习惯的句式结构。其中"9-DoF"译为"九自由度"，"Pose Manipulation"译为"姿态操控"，"Controllable Multi-Object Image Generation"处理为"可控多物体图像生成系统"，通过添加"系统"二字使技术概念更完整，同时将介词短语"with..."转化为中文常用的前置定语结构，确保学术表述的严谨性与可读性。） | Zhenyuan Qin | PDF | 可控图像生成近年来日益受到关注，它使用户能够对身份、风格等视觉内容进行操控。然而，如何实现对多个物体9维姿态（位置、尺寸和朝向）的同步控制仍是亟待解决的挑战。尽管研究已取得进展，现有方法仍存在可控性有限和生成质量下降的问题，难以实现全面的多物体9维姿态控制。为突破这些局限，我们提出SceneDesigner方法，可实现精准灵活的多物体9自由度姿态操控。该方法在预训练基础模型中引入分支网络，并采用新型表征CNOCS映射——一种从摄像机视角编码9维姿态信息的表征方式。该表征具有强几何可解释性，能实现更高效稳定的训练。为支持训练，我们构建了ObjectPose9D数据集，汇集了多源图像数据及其9维姿态标注。针对数据不平衡问题（尤其是低频姿态的性能衰减），我们提出基于强化学习的双阶段训练策略：第二阶段通过奖励目标函数在重平衡数据上对模型进行微调。在推理阶段，我们提出解耦物体采样技术，有效缓解复杂多物体场景中物体生成不足和概念混淆的问题。此外，通过整合用户定制化权重，SceneDesigner能够对参考主体实现个性化姿态控制。大量定性与定量实验表明，SceneDesigner在可控性和生成质量方面均显著优于现有方法。代码已开源：https://github.com/FudanCVL/SceneDesigner。 | | 驯服长尾分布：基于自适应草稿机制的高效推理强化学习训练

（注：该翻译在保持学术严谨性的同时实现了三个技术要点： 1. "Taming"译为"驯服"准确体现对复杂分布的掌控意图 2. "Adaptive Drafter"采用"自适应草稿机制"的译法，既保留原意又符合中文认知习惯 3. 通过"高效推理强化学习训练"的语序调整，确保专业术语链的完整性与流畅度） | Qinghao Hu | PDF | 具备强大推理能力的大语言模型（LLM）的崛起标志着重要里程碑，为复杂问题解决开启了新境界。然而，这类推理模型通常采用强化学习（RL）进行训练，存在显著的效率瓶颈：RL训练过程中的响应生成呈现持续的长尾分布，少数极长响应主导了执行时间，导致资源浪费与成本激增。为此，我们提出TLT系统，通过集成自适应推测解码技术实现无损的推理RL训练加速。在RL中应用推测解码面临三大挑战：动态工作负载、持续演进的目标模型以及草稿模型训练开销。TLT通过两个协同组件突破这些障碍：（1）自适应草稿模型——在长尾生成阶段利用空闲GPU持续训练的轻量级模型，无需额外成本即可保持与目标模型的同步；（2）自适应执行引擎——维护内存高效的预捕获CUDA图资源池，并为每个输入批次自适应选择最优推测解码策略。评估表明，TLT相较最先进系统实现超过1.7倍的端到端RL训练加速，完整保留模型精度，并额外获得可直接部署的高质量草稿模型。代码已发布于https://github.com/mit-han-lab/fastrl。 | | Nemotron Elastic：迈向高效多任务推理大语言模型之路

（解析：1. "Nemotron Elastic"作为专有名词保留不译；2. "Towards"译为"迈向...之路"体现研究进程；3. "Efficient Many-in-One Reasoning"采用"高效多任务推理"准确传达模型能同时处理多种推理任务的核心能力；4. "LLMs"译为行业标准术语"大语言模型"） | Ali Taghibakhshi | PDF | 针对多尺度与多部署目标训练大型语言模型家族成本极其高昂，每个不同规模的模型都需要独立训练。近期通过剪枝与知识蒸馏实现的模型压缩技术虽降低了成本，但每个压缩模型仍需消耗数千亿标记的训练资源。本文提出Nemotron Elastic框架——一种面向推理能力的大语言模型构建方案，通过混合Mamba-Attention架构在单一父模型中嵌入多个嵌套子模型，每个子模型针对不同部署配置与预算进行优化。这些子模型与父模型共享权重，可在部署时无需额外训练或微调即实现零样本提取。该功能通过端到端训练的路由器实现，该路由器与专为推理模型设计的两阶段训练课程紧密耦合。我们还提出：保持Mamba结构约束的分组感知SSM弹性化技术、异构MLP弹性化方法、基于归一化MSE的层重要性评估以改进深度选择，以及支持多预算同步优化的知识蒸馏机制。我们将Nemotron Elastic应用于Nemotron Nano V2 12B模型，仅用1100亿训练标记同时生成90亿与60亿参数模型：相比从头训练模型家族实现超过360倍成本降低，相较现有最优压缩技术提升约7倍效率。所有嵌套模型在准确度上均达到或超越现有最优水平。更重要的是，不同于其他压缩方法，我们的嵌套技术可实现“多合一”推理模型，其部署内存占用随模型家族数量增加保持恒定。 |