arxiv 2025-11-02

标题	作者	PDF链接	摘要
视频模型是否已具备零样本推理能力？基于MME-CoF基准的实证研究	Ziyu Guo	PDF	近期视频生成模型已能产出高保真度、时序连贯的视频，这表明它们可能编码了丰富的世界知识。除逼真合成外，这些模型还展现出表征视觉感知、建模与操作的新兴能力。然而一个重要问题依然存在：在具有挑战性的视觉推理场景中，视频模型是否已具备零样本推理能力？本研究通过实证分析全面探讨该问题，以主流模型Veo-3为研究对象。我们从空间、几何、物理、时序及具身逻辑等12个维度评估其推理行为，系统刻画其优势与失效模式。为规范研究框架，我们将评估数据整合为MME-CoF基准测试集，该精简化基准支持对帧序列推理（CoF）进行深度全面评估。研究发现：当前视频模型在短时域空间连贯性、细粒度语义 grounding 及局部一致性动态建模方面展现出潜力，但在长时域因果推理、严格几何约束及抽象逻辑层面仍存在局限。总体而言，它们尚未成为可靠的独立零样本推理器，但作为专用推理模型的互补视觉引擎已显现出令人鼓舞的特质。项目主页：https://video-cof.github.io
OmniX：从统一全景生成与感知到图形就绪三维场景

（注：此处采用技术文档的经典译法，保留"OmniX"专有名词不译。"Graphics-Ready"译为"图形就绪"符合计算机图形学领域术语规范，指无需预处理即可直接用于图形渲染的三维场景。"Unified Panoramic Generation and Perception"采用动宾结构译为"统一全景生成与感知"，准确保持原文技术动作的并列关系。） | Yukun Huang | PDF | 当前构建三维场景主要存在两种技术路径：程序化生成与二维提升。其中基于全景图像的二维提升技术展现出显著潜力，该方法通过利用强大的二维生成先验知识，能够创造出具有沉浸感、真实感且多样化的三维环境。本研究对该技术进行革新，实现了可直接用于基于物理的渲染、重光照及仿真的图形就绪型三维场景生成。我们的核心突破在于重新定位二维生成模型，使其具备全景感知几何结构、纹理及PBR材质的能力。与现有侧重外观生成而忽略本征属性感知的二维提升方法不同，我们提出了OmniX——一个多功能统一框架。该框架基于轻量化高效跨模态适配器结构，将二维生成先验知识复用于全景视觉任务体系，涵盖全景感知、生成与补全三大维度。此外，我们构建了大规模合成全景数据集，包含来自多样化室内外场景的高质量多模态全景样本。大量实验证实了本模型在全景视觉感知与图形就绪型三维场景生成方面的卓越性能，为沉浸式物理真实虚拟世界生成开辟了新途径。 | | 掩码扩散描述在视觉特征学习中的应用 | Chao Feng | PDF | 我们通过使用图像条件掩码扩散语言模型为图像生成描述来学习视觉特征，这一方法称为掩码扩散描述（MDC）。在训练过程中，每个图像-描述对中的文本标记会按随机选择的比例进行掩码处理，同时训练一个以视觉特征为条件的解码器来重建原始文本。训练完成后，习得的视觉特征可应用于下游视觉任务。与自回归描述方法不同，MDC中的视觉学习信号强度不依赖于各标记在序列中的位置，从而减少了对辅助目标函数的需求。在不同学术级模型和数据集上进行的线性探测实验表明，该方法习得的视觉特征与自回归方法和对比方法所生成的特征具有可比性。 | | SEE4D：通过自回归视频修复实现无需姿态估计的4D生成

（解析：1. "Pose-Free"译为"无需姿态估计"准确体现技术特性；2. "Auto-Regressive Video Inpainting"采用"自回归视频修复"的标准译法；3. "4D Generation"译为"4D生成"保持专业术语一致性；4. 整体采用"技术方法+实现目标"的中文标题惯用结构） | Dongyue Lu | PDF | 沉浸式应用要求能够从非专业视频中合成时空4D内容，且无需昂贵的3D监督。现有视频转4D方法通常依赖人工标注的相机位姿，这对实拍视频而言不仅标注成本高昂且稳定性欠佳。近期提出的"先扭曲后修复"方法通过沿新相机轨迹扭曲输入帧，并利用修复模型填充缺失区域，从而从多视角呈现4D场景，降低了对位姿标签的依赖。然而这种轨迹到轨迹的建模方式常将相机运动与场景动态相互耦合，导致建模与推断过程复杂化。我们提出SEE4D框架，采用免位姿的轨迹到相机建模范式，通过将渲染结果投射至固定虚拟相机阵列，取代显式轨迹预测，实现相机控制与场景建模的解耦。该方法训练视角条件视频修复模型，通过对真实合成的扭曲图像进行去噪学习鲁棒几何先验，并在虚拟视角间修复被遮挡或缺失区域，无需显式3D标注。基于此修复核心，我们设计了时空自回归推断流程，通过遍历虚拟相机样条曲线并采用重叠窗口扩展视频，实现有界单步复杂度的连贯生成。在跨视角视频生成与稀疏重建基准测试中，SEE4D在量化指标与定性评估上均优于依赖位姿或轨迹条件的基线方法，推动了从非专业视频实现实用化4D世界建模的进展。 | | 将图像地理定位扩展至大陆级别 | Philipp Lindenberger | PDF | 在全球范围内精确确定图像的地理位置仍是一个尚未解决的难题。由于图像数据量极其庞大（超过1亿张），标准图像检索方法效率低下，且在覆盖范围不足时完全失效。可扩展的解决方案往往需要权衡：全局分类通常只能得到粗略结果（误差超过10公里），而地面与航拍图像之间的跨视角检索又存在领域差异问题，目前主要局限于小范围区域的研究。本文提出一种混合方法，可在整个大陆尺度的广阔地理范围内实现细粒度地理定位。我们通过在训练过程中引入代理分类任务，学习能够隐式编码精确位置信息的丰富特征表示。将这些学习得到的原型与航拍图像嵌入相结合，有效增强了模型对地面数据稀疏性的适应能力。该方法实现了跨越多国的大范围直接细粒度检索。大量实验评估表明，我们的方法在欧洲大部分地区数据集上，对超过68%的查询能实现200米以内的精确定位。代码已公开于https://scaling-geoloc.github.io。 | | 对通用化运动生成的探索：数据、模型与评估 | Jing Lin | PDF | 尽管三维人体运动生成（MoGen）在标准基准测试中取得进展，现有模型在泛化能力方面仍面临根本性瓶颈。相比之下，相邻生成领域——尤其是视频生成（ViGen）——在人体行为建模中展现出卓越的泛化性能，这为MoGen提供了可迁移的研究启示。基于此观察，我们提出一个系统化迁移ViGen知识至MoGen的综合框架，涵盖三大核心支柱：数据、建模与评估。首先，我们推出ViMoGen-228K大规模数据集，包含22.8万个高质量运动样本，通过融合高精度光学动作捕捉数据、网络视频的语义标注动作以及顶尖ViGen模型生成的合成样本，构建了包含文本-运动配对与文本-视频-运动三元组的数据体系，显著扩展了语义多样性。其次，我们提出基于流匹配的扩散Transformer模型ViMoGen，通过门控多模态条件机制统一MoCap数据与ViGen模型先验。为提升效率，我们进一步开发蒸馏变体ViMoGen-light，在保持强泛化能力的同时消除对视频生成的依赖。最后，我们建立MBench分层评估基准，支持运动质量、提示符忠实度和泛化能力的细粒度评估。大量实验表明，我们的框架在自动评估与人工评估中均显著超越现有方法。相关代码、数据及评估基准将公开发布。 | | 使用Transformer学习伪随机数：置换同余生成器、课程设计与可解释性分析 | Tao Tao | PDF | 我们研究了Transformer模型学习置换同余生成器（PCG）所生成序列的能力——PCG是一类广泛使用的伪随机数生成器。相较于线性同余生成器，PCG通过对隐藏状态施加一系列位运算移位、异或操作、循环移位及截断处理，显著增加了学习难度。实验表明，在超越现有经典攻击方法的任务场景中，Transformer仍能成功对多种PCG变体生成的未知序列进行上下文预测。我们通过最高达5000万模型参数和50亿标记的数据集，将模数规模扩展至$2^{22}$。令人惊讶的是，即使输出被截断至单个比特，模型仍能实现可靠预测。当训练过程中同时呈现多个不同PRNG时，模型可联合学习它们，从不同置换模式中识别结构特征。我们揭示了模数$m$的缩放规律：实现近完美预测所需的上下文序列元素数量以$\sqrt{m}$速率增长。对于更大模数，优化过程会进入长期停滞阶段——实验中学习$m \geq 2^{20}$的模数需要引入较小模数的训练数据，这证明了课程学习的必要性。最后，我们通过分析嵌入层发现了一种新颖的聚类现象：模型自发将整数输入划分为具有位循环不变性的聚类群，揭示了表征如何从小模数向大模数迁移的机制。 | | Gistify！基于运行时执行的代码库级理解

（注：Gistify为专有技术名称，采用音译加意译的"要义解析"双关译法；"Codebase-Level Understanding"译为"代码库级理解"以保持软件工程术语的准确性；"Runtime Execution"采用行业标准译法"运行时执行"，强调程序在真实执行环境中的动态分析特性） | Hyunji Lee | PDF | 随着编程智能体在大型代码库中的部署日益普及，如何自动设计具有挑战性的代码库级评估方法显得尤为重要。我们提出Gistify任务：要求编程大语言模型必须创建一个独立、最小化且自包含的单一文件，以复现代码库的特定功能。该模型在获得代码库完整访问权限及特定入口点（如Python命令）后，生成的独立文件必须能在仅包含执行所提供命令必要组件的前提下，复现在完整代码库环境下运行相同命令的输出结果。成功完成Gistify任务需要同时具备对代码库的结构化理解能力、执行流程的精确建模能力，以及生成潜在大规模代码补丁的能力。我们的研究结果表明，当前最先进的模型难以可靠解决Gistify任务，特别是在处理具有长执行轨迹的任务时表现尤为明显。 | | 通过FP16解决训练与推理不匹配问题 | Penghui Qi | PDF | 大型语言模型（LLM）的强化学习（RL）微调常因训练策略与推理策略间的数值失配而存在不稳定性。尽管先前研究尝试通过算法修正或工程对齐来缓解该问题，但我们发现其根本原因在于浮点数精度本身。被广泛采用的BF16格式虽具有较大动态范围，但其引入的显著舍入误差破坏了训练与推理的一致性。本研究表明，仅需恢复使用\textbf{FP16}格式即可有效消除这种失配。该调整方案简洁易行：现代框架已提供完整支持，仅需修改数行代码，且无需改变模型架构或学习算法。实验结果表明，统一采用FP16可在不同任务、算法和框架中实现更稳定的优化、更快的收敛速度以及更强的性能表现。我们希望这些发现能推动学界重新审视强化学习微调中的精度权衡问题。 | | 远程劳动指数：衡量远程工作中的人工智能自动化程度 | Mantas Mazeika | PDF | 人工智能在知识与推理的研究型基准测试中进展迅速，但这些成果如何转化为经济价值与自动化能力仍不明确。为量化这一转化效果，我们提出远程劳动指数（RLI）——一个涵盖多领域的综合基准体系，由具有经济价值的真实世界项目构成，旨在评估实际场景中端到端智能体的表现。当前AI智能体在RLI中的表现接近基准下限，最优智能体的自动化率仅为2.5%。该研究为人工智能自动化讨论提供了实证依据，建立了追踪AI影响的统一框架，助力各方主体前瞻性应对AI驱动的劳动力自动化变革。 |