2025-11-01 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
视频模型是否已具备零样本推理能力？基于MME-CoF基准的实证研究	Ziyu Guo	PDF	近期视频生成模型已能产出高保真度、时序连贯的视频，这表明它们可能编码了丰富的世界知识。除逼真合成能力外，这些模型还展现出表征视觉感知、建模与操控的新兴行为。然而一个重要问题依然存在：在具有挑战性的视觉推理场景中，视频模型是否已具备零样本推理能力？本研究通过实证分析系统探讨该问题，以主流模型Veo-3为研究对象，从空间、几何、物理、时序及具身逻辑等12个维度评估其推理行为，全面刻画其优势与失效模式。为规范研究框架，我们将评估数据整合为MME-CoF基准测试集，该精简化基准支持对帧序列推理链的深入全面评估。研究发现：当前视频模型在短时域空间连贯性、细粒度语义 grounding 及局部动态一致性方面展现出潜力，但在长时域因果推理、严格几何约束及抽象逻辑层面仍存在局限。总体而言，现有模型虽尚未成为可靠的独立零样本推理器，但已展现出作为专用推理模型互补视觉引擎的积极特质。项目页面：https://video-cof.github.io
OmniX：从统一全景生成与感知到图形就绪三维场景

（注：此处采用技术文档的精准翻译原则： 1. 保留专有名词"OmniX"不译 2. "Graphics-Ready"译为行业术语"图形就绪"，指无需后期处理即可直接用于图形渲染 3. "Unified Panoramic Generation and Perception"采用"统一全景生成与感知"的学术表述 4. 整体结构保持原标题的从...到...的递进关系） | Yukun Huang | PDF | 当前构建三维场景主要存在两种技术路径：程序化生成与二维提升。其中基于全景图的二维提升技术展现出显著优势，它通过利用强大的二维生成先验知识，能够创造出具有沉浸感、真实感且多样化的三维环境。本研究对该技术进行革新，实现了可直接用于图形处理的三维场景生成，使其能够兼容基于物理的渲染、重光照及仿真操作。我们的核心突破在于重新定位二维生成模型的功能，使其具备全景感知几何结构、纹理及PBR材质的能力。与现有侧重外观生成而忽略本质属性感知的二维提升方案不同，我们提出了OmniX——一个多功能统一框架。该框架基于轻量化高效跨模态适配器结构，将二维生成先验知识复用于全景视觉任务体系，涵盖全景感知、生成与补全三大维度。此外，我们构建了大规模合成全景数据集，其中包含来自多样化室内外场景的高质量多模态全景样本。大量实验证实，我们的模型在全景视觉感知与图形就绪三维场景生成方面成效显著，为构建沉浸式物理真实虚拟世界开辟了新的技术路径。 | | 掩码扩散描述在视觉特征学习中的应用 | Chao Feng | PDF | 我们通过使用图像条件掩码扩散语言模型为图像生成描述来学习视觉特征，这一方法称为掩码扩散描述（MDC）。在训练过程中，每个图像-描述对中的文本标记会按随机选择的比例进行掩码处理，并通过以视觉特征为条件的解码器训练来重建原始文本。训练完成后，所学的视觉特征可应用于下游视觉任务。与自回归描述方法不同，MDC中的视觉学习信号强度不依赖于每个标记在序列中的位置，从而减少了对辅助目标的需求。在各种学术级模型和数据集上进行的线性探测实验表明，所学得的视觉特征与自回归和对比方法生成的特征具有可比性。 | | SEE4D：通过自回归视频修复实现无姿态约束的4D生成

（注：该翻译在保持专业术语准确性的基础上进行了以下优化处理： 1. "Pose-Free"译为"无姿态约束"，精准传达无需预设姿态参数的技术特性 2. "Auto-Regressive"采用计算机视觉领域标准译法"自回归" 3. "Video Inpainting"译为"视频修复"，符合图形学领域术语规范 4. 通过"实现...生成"的动宾结构保持学术表达的流畅性 5. 保留原始SEE4D型号名称不译，符合学术惯例） | Dongyue Lu | PDF | 沉浸式应用要求能够从非专业视频中合成时空4D内容，且无需昂贵的3D监督。现有视频转4D方法通常依赖人工标注的相机位姿，这对实景拍摄素材而言不仅标注成本高昂且稳定性欠佳。近期提出的"先扭曲后修复"方法通过沿新相机轨迹扭曲输入帧，并利用修复模型填充缺失区域，从而从多视角呈现4D场景，降低了对位姿标签的依赖。然而这种轨迹到轨迹的建模方式常使相机运动与场景动态相互耦合，增加了建模与推断的复杂性。我们提出SEE4D框架，采用无需位姿的轨迹到相机建模方法，通过将渲染结果映射至固定虚拟相机阵列来替代显式轨迹预测，从而实现相机控制与场景建模的解耦。通过训练视角条件视频修复模型，对真实合成的扭曲图像进行去噪处理以学习稳健的几何先验，并在虚拟视角间修复被遮挡或缺失区域，无需显式3D标注。基于该修复核心，我们设计了时空自回归推断流程，通过遍历虚拟相机样条曲线并采用重叠窗口扩展视频，在可控的单步复杂度内实现连贯生成。在跨视角视频生成与稀疏重建基准测试中，SEE4D在量化指标与定性评估上均优于依赖位姿或轨迹条件的基线方法，推动了从非专业视频实现实用化4D世界建模的进展。 | | 将图像地理定位扩展至大陆级别 | Philipp Lindenberger | PDF | 在全球范围内精确确定图像的地理位置仍是一个尚未解决的难题。由于图像数据量极其庞大（超过1亿张）且覆盖范围不足，标准图像检索技术效率低下且往往失效。可扩展的解决方案需要权衡取舍：全局分类通常只能得到粗略结果（误差超过10公里），而地面与航拍图像之间的跨视角检索存在领域差异问题，目前主要局限于小范围区域研究。本文提出一种混合方法，可在整个大陆尺度的广阔地理范围内实现细粒度地理定位。我们通过在训练过程中引入代理分类任务，学习能够隐式编码精确位置信息的丰富特征表示。将这些学习得到的原型与航拍图像嵌入相结合，有效增强了模型对地面数据稀疏性的适应能力。该方法实现了跨越多国的大范围直接细粒度检索。大量实验评估表明，我们的方法在欧洲大部分地区的数据集上，对超过68%的查询可实现200米范围内的精确定位。代码已公开于https://scaling-geoloc.github.io。 | | 对可泛化运动生成的探索：数据、模型与评估 | Jing Lin | PDF | 尽管三维人体运动生成（MoGen）在标准基准测试中取得进展，现有模型在泛化能力方面仍面临根本性瓶颈。相比之下，相邻生成领域（尤其是视频生成ViGen）在人体行为建模中展现出卓越的泛化性能，这为MoGen领域提供了可迁移的重要启示。基于此观察，我们提出一个全面框架，系统性地从数据、建模与评估三大支柱维度实现ViGen向MoGen的知识迁移。首先，我们构建ViMoGen-228K大规模数据集，包含22.8万个高质量运动样本，融合了高精度光学动作捕捉数据、网络视频中的语义标注动作，以及顶尖ViGen模型生成的合成样本。该数据集同时包含文本-运动配对数据与文本-视频-运动三元组数据，显著拓展了语义多样性。其次，我们提出ViMoGen模型——基于流匹配的扩散Transformer，通过门控多模态条件机制统一MoCap数据与ViGen模型的先验知识。为提升效率，我们进一步开发ViMoGen-light轻量版本，在保持强泛化能力的同时消除对视频生成的依赖。最后，我们推出MBench分层评估基准，支持运动质量、提示词保真度与泛化能力的细粒度评估。大量实验表明，我们的框架在自动评估与人工评估中均显著超越现有方法。相关代码、数据与评估基准将公开发布。 | | 使用Transformer学习伪随机数：置换同余生成器、课程设计与可解释性 | Tao Tao | PDF | 我们研究Transformer模型学习置换同余生成器（PCGs）所生成序列的能力，PCGs是一类广泛使用的伪随机数生成器（PRNGs）。相较于线性同余生成器（LCGs），PCGs通过对隐藏状态施加一系列位运算移位、异或操作、循环移位和截断处理，显著增加了学习难度。然而我们证明，在超出已公开经典攻击能力的任务中，Transformer仍能成功对来自不同PCG变体的未知序列进行上下文预测。实验中我们将模数规模扩展至$2^{22}$，使用高达5000万模型参数和包含50亿标记的数据集。令人惊讶的是，即使输出被截断至单个比特，模型仍能实现可靠预测。当训练过程中同时呈现多个不同PRNGs时，模型能够联合学习它们，从不同置换模式中识别结构特征。我们揭示了模数$m$的缩放规律：实现近乎完美预测所需的上下文序列元素数量以$\sqrt{m}$增长。对于更大模数，优化过程会进入长期停滞阶段；实验表明学习$m \geq 2^{20}$的模数需要引入较小模数的训练数据，这证明了课程学习的必要性。最后我们分析嵌入层并发现新颖的聚类现象：模型自发将整数输入分组为具有位循环不变性的聚类，揭示了表征如何从小模数向大模数迁移的机制。 | | Gistify！通过运行时执行实现代码库级理解

（注：Gistify为专有技术名称，采用音译与意译结合方式处理。"Codebase-Level Understanding"译为"代码库级理解"以准确体现技术范畴，"Runtime Execution"译为"运行时执行"符合计算机领域术语规范，整体译文保持学术文本的严谨性与技术表述的精确度） | Hyunji Lee | PDF | 随着编程智能体在大型代码库中的部署日益普及，如何自动设计具有挑战性的代码库级评估方法显得尤为重要。我们提出Gistify任务：要求编程大语言模型必须创建一个独立、最小化且自包含的单一文件，以复现代码库的特定功能。该模型在获得完整代码库访问权限及特定入口点（如Python命令）后，生成的文件必须能在完整代码库环境下复现相同命令的执行结果，同时仅包含执行该命令所必需的核心组件。成功完成Gistify任务需要模型具备三方面能力：理解代码库结构、准确建模执行流程，以及生成可能的大规模代码补丁。我们的研究结果表明，当前最先进的模型难以可靠解决Gistify任务，特别是在处理具有长执行轨迹的任务时表现尤为不足。 | | 通过FP16解决训练与推理不匹配问题 | Penghui Qi | PDF | 大型语言模型（LLM）的强化学习（RL）微调常因训练策略与推理策略间的数值失配而出现不稳定性。尽管已有研究尝试通过算法修正或工程对齐来缓解该问题，但我们发现其根本原因在于浮点数精度本身。当前广泛采用的BF16格式虽具有较大动态范围，但其引入的显著舍入误差破坏了训练与推理间的一致性。本研究证明，仅需恢复使用\textbf{FP16}格式即可有效消除这种失配。该改动简单易行：现代框架已提供完整支持，仅需数行代码调整，且无需修改模型架构或学习算法。实验结果表明，统一采用FP16能在不同任务、算法和框架中实现更稳定的优化、更快的收敛速度以及更强的性能表现。我们希望这些发现能推动学界重新审视RL微调中的精度权衡问题。 | | 远程劳动指数：衡量远程工作中的人工智能自动化程度 | Mantas Mazeika | PDF | 人工智能在知识与推理的研究型基准测试中进展迅速，但这些成果如何转化为经济价值与自动化效能仍不明确。为此我们提出远程劳动指数（RLI）——一个跨越多领域的综合基准，通过真实场景中具有经济价值的项目来评估智能体在实践环境中的端到端表现。当前AI智能体在RLI基准中表现接近基准下限，表现最佳者仅实现2.5%的自动化率。该研究为AI自动化讨论提供了实证依据，建立了追踪AI影响的统一基准，助力各方主体前瞻性应对AI驱动的劳动力自动化变革。 |

bioRxiv

标题	作者	PDF链接	摘要
通过协调偏移量，可解锁RNA-seq工具，实现快速可扩展的差异使用、异常剪接及表达检索功能。

解析： 1. "Gates"在此语境下译为"调控"更符合生物学机制描述，体现其作为分子开关的功能 2. "Protective to Repair States"采用"保护状态向修复状态转变"的表述，准确反映细胞表型转换的动态过程 3. "Schwann Cell"保留专业术语"施万细胞"，此为神经科学标准译名 4. 整体采用"调控...转变"的动词结构，使句子符合中文表达习惯，同时保持学术严谨性

medRxiv

标题	作者	PDF链接	摘要
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF