2025-10-31 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
视频模型是否已具备零样本推理能力？基于MME-CoF基准的实证研究	Ziyu Guo	PDF	近期视频生成模型已能产出高保真度、时序连贯的视频，这表明它们可能编码了丰富的世界知识。除逼真合成外，这些模型还展现出表征视觉感知、建模与操作的新兴能力。然而一个重要问题依然存在：在具有挑战性的视觉推理场景中，视频模型是否已具备零样本推理能力？本研究通过实证分析全面探讨该问题，聚焦于领先的主流模型Veo-3。我们从空间、几何、物理、时序及具身逻辑等12个维度评估其推理表现，系统刻画其优势与失效模式。为规范研究流程，我们将评估数据整合为MME-CoF基准测试集，该精简化基准支持对帧序列推理（CoF）进行深入彻底的评估。研究发现：当前视频模型在短时域空间连贯性、细粒度定位及局部一致性动态方面展现出潜力，但在长时域因果推理、严格几何约束及抽象逻辑方面仍存在局限。总体而言，它们尚未成为可靠的独立零样本推理器，但作为专用推理模型的互补视觉引擎已显现出令人鼓舞的特质。项目页面：https://video-cof.github.io
OmniX：从统一全景生成与感知到图形就绪三维场景

（注：此处采用技术文档的经典译法，保留"OmniX"专有名词不译。"Graphics-Ready"译为"图形就绪"符合计算机图形学领域术语规范，指无需预处理即可直接用于图形渲染的三维场景。"Unified Panoramic Generation and Perception"采用动宾结构译为"统一全景生成与感知"，准确保持原文技术动作的并列关系。） | Yukun Huang | PDF | 当前构建三维场景主要存在两种技术路径：程序化生成与二维提升。其中基于全景图的二维提升技术展现出显著潜力，它通过利用强大的二维生成先验知识，能够创造出具有沉浸感、真实感且多样化的三维环境。本研究推动该技术向新高度发展，实现了可直接用于基于物理的渲染、重光照与仿真的图形就绪型三维场景生成。我们的核心创新在于重新定位二维生成模型的用途，使其具备全景感知几何结构、纹理及PBR材质的能力。与现有侧重外观生成而忽略本质属性感知的二维提升方法不同，我们提出了OmniX——一个多功能统一框架。该框架基于轻量化高效跨模态适配器结构，将二维生成先验知识复用于全景视觉任务体系，涵盖全景感知、生成与补全三大维度。此外，我们构建了大规模合成全景数据集，包含来自多样化室内外场景的高质量多模态全景样本。大量实验证实了本模型在全景视觉感知与图形就绪型三维场景生成方面的卓越性能，为沉浸式物理真实虚拟世界生成开辟了新路径。 | | 掩码扩散描述在视觉特征学习中的应用 | Chao Feng | PDF | 我们通过使用图像条件掩码扩散语言模型为图像生成描述来学习视觉特征，这一方法称为掩码扩散描述（MDC）。在训练过程中，每个图像-描述对中的文本标记会按随机选择的比例进行掩码处理，同时训练一个以视觉特征为条件的解码器来重建原始文本。训练完成后，习得的视觉特征可应用于下游视觉任务。与自回归描述方法不同，MDC中的视觉学习信号强度不依赖于每个标记在序列中的位置，从而减少了对辅助目标函数的需求。在各种学术级模型和数据集上进行的线性探测实验表明，该方法学习到的视觉特征与自回归和对比方法生成的特征具有可比性。 | | SEE4D：通过自回归视频修复实现无姿态约束的4D生成

（注：该翻译在保持专业术语准确性的基础上进行了以下优化： 1. "Pose-Free"译为"无姿态约束"，精准传达无需预设姿态参数的技术特性 2. "Auto-Regressive"采用计算机视觉领域标准译法"自回归" 3. "4D Generation"译为"4D生成"，保留四维时空的维度概念 4. "Video Inpainting"使用学界通用术语"视频修复" 5. 通过"实现...通过..."的句式结构，清晰呈现技术路径的逻辑关系） | Dongyue Lu | PDF | 沉浸式应用要求能够从非专业视频中合成时空4D内容，且无需昂贵的3D监督。现有视频转4D方法通常依赖人工标注的相机位姿，这对实景拍摄素材而言不仅标注成本高昂且稳定性欠佳。近期提出的"先扭曲后修复"方法通过沿新相机轨迹扭曲输入帧，并利用修复模型填充缺失区域，从而从多视角呈现4D场景，降低了对位姿标签的依赖。然而这种轨迹到轨迹的建模方式常将相机运动与场景动态相互耦合，使建模与推断过程复杂化。我们提出SEE4D框架，采用无需位姿的轨迹到相机建模方法，通过将渲染结果映射至固定虚拟相机阵列来替代显式轨迹预测，从而实现相机控制与场景建模的解耦。该方法训练视角条件视频修复模型，通过对真实合成的扭曲图像进行去噪来学习稳健的几何先验，并在虚拟视角间修复被遮挡或缺失区域，无需显式3D标注。基于此修复核心，我们设计了时空自回归推断流程，通过遍历虚拟相机样条线并采用重叠窗口扩展视频序列，实现了有限单步复杂度下的连贯生成。在跨视角视频生成与稀疏重建基准测试中，SEE4D在量化指标与定性评估上均优于依赖位姿或轨迹条件的基线方法，推动了从非专业视频实现实用化4D世界建模的进展。 | | 将图像地理定位扩展至大陆级别 | Philipp Lindenberger | PDF | 在全球范围内确定图像的精确地理位置仍是一个尚未解决的难题。由于图像数据量极其庞大（超过1亿张）且覆盖范围不足，标准图像检索技术效率低下且往往失效。可扩展的解决方案需要权衡取舍：全局分类通常只能得到粗略结果（误差超过10公里），而地面与航拍图像之间的跨视角检索存在领域差异问题，目前主要局限于小范围区域研究。本文提出一种混合方法，可在整个大陆尺度的广阔地理范围内实现细粒度地理定位。我们通过在训练阶段采用代理分类任务，学习能够隐式编码精确位置信息的丰富特征表示。将这些学习得到的原型与航拍图像嵌入相结合，有效增强了模型对地面数据稀疏性的适应能力。该方法实现了跨越多国的大范围直接细粒度检索。我们的大量实验表明，在覆盖欧洲大部分地区的数据集上，本方法能在200米误差范围内对超过68%的查询实现精确定位。代码已公开于https://scaling-geoloc.github.io。 | | 对通用化运动生成的探索：数据、模型与评估

（注：该翻译在保持学术严谨性的同时，通过冒号结构清晰呈现原文的三个核心维度。采用"通用化"对应"Generalizable"以突出跨场景适应能力，"探索"一词精准传达"Quest"蕴含的研究导向性，并通过四字短语"数据、模型与评估"形成符合中文表达习惯的排比结构，既完整保留专业术语又体现学术文本的简洁性。） | Jing Lin | PDF | 尽管三维人体运动生成（MoGen）在标准基准测试中取得进展，现有模型在泛化能力方面仍面临根本性瓶颈。相比之下，相邻生成领域——尤其是视频生成（ViGen）——在人体行为建模中展现出卓越的泛化性能，这为MoGen领域提供了可迁移的重要启示。基于此观察，我们提出一个系统化迁移ViGen知识至MoGen的综合框架，涵盖三大核心支柱：数据、建模与评估。首先，我们推出ViMoGen-228K大规模数据集，包含22.8万个高质量运动样本，融合了高精度光学动作捕捉数据、来自网络视频的语义标注动作，以及顶尖ViGen模型生成的合成样本。该数据集同时包含文本-运动配对与文本-视频-运动三元组，显著扩展了语义多样性。其次，我们提出ViMoGen模型——基于流匹配的扩散Transformer，通过门控多模态条件机制统一MoCap数据与ViGen模型先验。为提升效率，我们进一步开发ViMoGen-light蒸馏变体，在保持强泛化能力的同时消除对视频生成的依赖。最后，我们推出MBench分层评估基准，支持运动质量、提示符忠实度和泛化能力的细粒度评估。大量实验表明，我们的框架在自动评估与人工评估中均显著优于现有方法。相关代码、数据与评估基准将公开发布。 | | 使用Transformer学习伪随机数：置换同余生成器、课程设计与可解释性分析 | Tao Tao | PDF | 我们研究了Transformer模型学习置换同余生成器（PCG）生成序列的能力——PCG是一类广泛使用的伪随机数生成器。相较于线性同余生成器，PCG通过对隐藏状态施加一系列位运算移位、异或操作、循环位移和截断处理，显著增加了学习难度。实验表明，在超越现有经典攻击方法的任务场景中，Transformer仍能成功对未见过的多种PCG变体序列进行上下文预测。我们通过最高达5000万模型参数和50亿标记的数据集，将模数规模扩展至$2^{22}$。令人惊讶的是，即使输出被截断至单个比特，模型仍能实现可靠预测。当训练过程中同时呈现多个不同PRNG时，模型能够通过识别不同置换模式的结构特征进行联合学习。我们揭示了模数$m$的缩放规律：实现近完美预测所需的上下文序列元素数量以$\sqrt{m}$速率增长。对于更大模数，优化过程会进入长期停滞阶段——实验表明学习$m \geq 2^{20}$的模数需要融合较小模数的训练数据，这证明了课程学习策略的必要性。最后，我们通过分析嵌入层发现了一种新颖的聚类现象：模型会自发将整数输入划分为具有位级旋转不变性的聚类群，这揭示了表征如何从小模数向大模数实现知识迁移。 | | Gistify! 通过运行时执行实现代码库级理解

（注：采用技术文档常见的"！"保留与动词化处理，准确传达"通过程序运行时的执行过程来理解整个代码库"的核心概念，符合计算机系统领域的专业表述习惯） | Hyunji Lee | PDF | 随着编程智能体在大型代码库中的部署日益普及，如何自动设计具有挑战性的代码库级评估方法显得尤为重要。我们提出Gistify任务：要求编程大语言模型必须创建一个独立、最小化且自包含的文件，以复现代码库的特定功能。该模型被授予对整个代码库的完全访问权限及特定入口点（如Python命令），生成的文件必须能在仅包含执行所提供命令必要组件的前提下，复现在完整代码库环境下运行相同命令的输出结果。成功完成Gistify任务需要同时具备对代码库结构的深刻理解、对其执行流程的精确建模能力，以及生成潜在大型代码补丁的技术。我们的研究结果表明，当前最先进的模型难以可靠解决Gistify任务，特别是在处理具有长执行轨迹的任务时表现尤为明显。 | | 通过FP16解决训练与推理不匹配问题 | Penghui Qi | PDF | 大型语言模型（LLM）的强化学习（RL）微调常因训练策略与推理策略间的数值失配而存在不稳定性。尽管先前研究尝试通过算法修正或工程对齐来缓解该问题，但我们发现其根本原因在于浮点数精度本身。当前广泛采用的BF16格式虽具有较大动态范围，但其引入的显著舍入误差破坏了训练与推理的一致性。本研究表明，仅需恢复使用FP16格式即可有效消除这种失配。这一改动极为简便：现代框架已提供完整支持，仅需数行代码变更，且无需调整模型架构或学习算法。实验结果表明，统一采用FP16能在不同任务、算法和框架中实现更稳定的优化、更快的收敛速度以及更强的性能表现。我们希望这些发现能推动学界重新审视强化学习微调中的精度权衡问题。 | | 远程劳动指数：衡量远程工作中的人工智能自动化程度 | Mantas Mazeika | PDF | 人工智能在知识与推理的研究型基准测试中进展迅速，但这些成果如何转化为经济价值与自动化能力仍不明确。为量化这一转化效果，我们提出远程劳动指数（RLI）——一个涵盖多行业的综合性基准体系，通过真实场景中具有经济价值的项目来评估智能体端到端的实际表现。研究显示，AI智能体在RLI基准上的表现接近基准下限，表现最佳的主体仅实现2.5%的自动化率。该研究成果将人工智能自动化讨论锚定于实证依据，为追踪AI影响建立统一基准，助力相关方前瞻性应对AI驱动的劳动力自动化变革。 |

bioRxiv

标题	作者	PDF链接
血流在血管丛形成过程中协调内皮细胞的集体迁移，并通过血管内皮生长因子受体3（Vegfr3/Flt4）促进血管生成性芽突的消退	Chen, Y.	PDF
人类和牛血清白蛋白，而非小鼠血清和卵清白蛋白，可通过激活蛋白激酶依赖性细胞分裂过程促进存活但不可培养结核分枝杆菌的复苏。	Morishige, Y.	PDF
人类与牛血清白蛋白，而非小鼠血清及卵清白蛋白，可通过激活蛋白激酶依赖性细胞分裂过程，促进存活但非可培养结核分枝杆菌的复苏。	Morishige, Y.	PDF
导航过程中内嗅-海马环路内的空间周期性计算

（注：译文通过"自其最早的分裂周期起"准确对应"since their earliest division cycles"的时态含义；"生长缓慢的细胞谱系"既保留了"slow growing lineages"的专业性，又符合中文生物学表述规范；"克隆群体"作为"clonal populations"的标准译法，确保学术概念的精确传递。） | Delgado-Roman, I. | PDF | | | Rtf1依赖的转录暂停调控心脏发生过程

（翻译说明： 1. 保留专业术语"Rtf1"不翻译，维持学术规范性 2. "transcriptional pausing"译为"转录暂停"，符合分子生物学标准译法 3. "cardiogenesis"译为"心脏发生过程"，既保持专业又符合中文表达习惯 4. 采用"调控"对应"regulates"，准确体现生物学功能关系 5. 整体采用主谓宾结构，符合中文科技论文标题表达规范） | Langenbacher, A. D. | PDF | | | 黑水虻（Hermetia illucens）的隐存多样性及驯化影响 | Generalovic, T. N. | PDF | |

medRxiv

标题	作者	PDF链接	摘要
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF