跳转至

arXiv 2026-05-08

标题 作者 发布日期 PDF链接 摘要
ActCam:面向视频生成的零样本联合相机与三维运动控制 Omar El Khalifi 2026-05-07 PDF 在艺术创作应用中,视频生成需要对表演和摄影进行精细控制,即演员的运动和摄像机轨迹。我们提出ActCam,一种零样本视频生成方法,能够将驱动视频中的角色运动联合迁移至新场景,并支持逐帧控制内外摄像机参数。ActCam基于任意预训练的图像到视频扩散模型,该模型接受场景深度和角色姿态的条件输入。给定包含运动角色的源视频和目标摄像机运动,ActCam生成在帧间保持几何一致的姿态和深度条件。随后我们采用两阶段条件调度进行单次采样:早期去噪步骤同时使用姿态和稀疏深度约束场景结构,之后移除深度,仅用姿态引导细化高频细节而不过度约束生成。我们在多个涵盖不同角色运动和挑战性视角变化的基准上评估ActCam。结果表明,与仅姿态控制及其他姿态与摄像机方法相比,ActCam提升了摄像机遵循度和运动保真度,并在人类评估中更受青睐,尤其在视角大幅变化时。我们的结果强调,精心设计的摄像机一致性条件与分阶段引导可在无需训练的情况下实现强大的联合摄像机与运动控制。项目页面:https://elkhomar.github.io/actcam/。
UniPool:面向混合专家模型的全局共享专家池 Minbin Huang 2026-05-07 PDF 现代混合专家(MoE)架构通过严格的逐层规则分配专家容量:每个Transformer层拥有独立的专家集合。这种设计将深度扩展与专家参数线性增长绑定,并假设每一层都需要独立的专家容量。然而,近期分析及我们的路由探测实验对这一分配规则提出质疑:在多个生产级MoE模型中,将深层学习型top-k路由器替换为均匀随机路由后,下游准确率仅下降1.0-1.6个百分点。受此冗余现象启发,我们提出UniPool架构,将专家容量视为全局架构预算,用独立逐层路由器访问的单一共享池替代逐层专家所有权。为实现共享下的稳定均衡训练,我们引入池级辅助损失以平衡整个池的专家利用率,并采用NormRouter为共享专家池提供稀疏且尺度稳定的路由。在基于LLaMA架构的五个模型规模(1.82亿、4.69亿、6.5亿、8.3亿和9.78亿参数)上,使用Pile数据集30B tokens训练后,UniPool在验证损失和困惑度指标上持续优于匹配的vanilla MoE基线。在这些规模下,UniPool相较vanilla MoE最高降低验证损失0.0386。除原始损失改进外,我们的结果将池规模确定为显式深度扩展超参数:仅使用vanilla专家参数预算41.6%-66.7%的缩减池UniPool变体,在测试规模下即可匹配或超越逐层MoE。这表明在共享池设计下,专家参数无需随深度线性增长,可在保持比vanilla MoE更高效的同时实现次线性增长。进一步分析显示,UniPool的优势可与更细粒度的专家分解协同作用。
BAMI:GUI 基础中的无训练偏差缓解 Borui Zhang 2026-05-07 PDF GUI接地是实现GUI代理执行点击、拖拽等任务的关键能力。然而,在ScreenSpot-Pro基准等复杂场景中,现有模型往往表现欠佳。通过采用提出的\textbf{掩码预测分布(MPD)}归因方法,我们识别出错误的主要来源有两方面:高图像分辨率(导致精度偏差)和复杂界面元素(导致歧义偏差)。为解决这些问题,我们提出\textbf{偏差感知操作推理(BAMI)},该方法包含两项关键操作——由粗到细聚焦和候选选择,以有效缓解这些偏差。大量实验结果表明,BAMI在无需训练的条件下显著提升了多种GUI接地模型的准确率。例如,将我们的方法应用于TianXi-Action-7B模型后,其在ScreenSpot-Pro基准上的准确率从51.9%提升至57.8%。此外,消融实验证实了BAMI方法在不同参数配置下的鲁棒性,凸显了其稳定性和有效性。代码已开源:https://github.com/Neur-IO/BAMI。
EMO:面向涌现模块化的专家混合预训练 Ryan Wang 2026-05-07 PDF 大型语言模型通常以整体系统的方式部署,即便应用场景仅需代码、数学或特定领域知识等狭窄能力子集,仍需加载完整模型。混合专家模型(MoE)看似提供了替代方案——每个输入仅激活部分专家,但实践中,针对特定领域限制推理时仅使用部分专家会导致严重的性能下降。这限制了其在内存受限场景中的实用性,尤其当模型规模更大、稀疏性更强时。我们提出EMO,一种专为模块化设计的MoE架构——支持专家子集的独立使用与组合,且无需人工定义先验知识。核心思路是鼓励来自相似领域的token依赖相似的专家。由于同一文档内的token通常共享领域,EMO限制它们从共享池中选择专家,同时允许不同文档使用不同专家池。这一简单约束使得在预训练过程中仅通过文档边界就能自然形成连贯的专家分组。我们在1T token上预训练了1B活跃参数、14B总参数的EMO模型。作为完整模型,其性能与标准MoE相当。关键在于,它支持选择性使用专家:仅保留25%(12.5%)的专家时,性能绝对下降仅1%(3%),而标准MoE在相同设置下完全失效。我们进一步发现,EMO中的专家子集在语义层面(如数学或代码等领域)实现专业化,这与标准MoE中观察到的低层级句法专业化形成鲜明对比。总体而言,我们的研究结果为大型稀疏模型的模块化、内存高效部署指明了路径,并为可组合架构开辟了新可能。
基于验证器的数学推理难题生成 Yuhang Lai 2026-05-07 PDF 大型语言模型在解决科学和数学问题方面展现出强大能力,但在生成有效、具有挑战性且新颖的问题方面仍存在困难——这是推动大语言模型训练和实现自主科学研究的关键组成部分。现有问题生成方法要么依赖昂贵的人类专家参与,要么采用简单的自我博弈范式,这些方法常因奖励破解而产生无效问题。本研究提出VHG框架,这是一种基于三方自我博弈的验证器增强型难题生成框架。通过将独立验证器整合到传统的出题者-解题者二元结构中,我们的设计约束出题者的奖励由问题有效性(由验证器评估)和难度(由解题者评估)共同决定。我们实例化了两种验证器变体:硬符号验证器和基于软语言模型的验证器,并在不定积分任务和通用数学推理任务上进行了评估。实验结果表明,VHG在所有基线方法中均以明显优势胜出。
Relit-LiVE:通过联合学习环境视频实现视频重光照 Weiqing Xiao 2026-05-07 PDF 近期研究表明,大规模视频扩散模型可通过先将视频分解为内在场景表征,再在新光照条件下执行前向渲染,从而被重新用作神经渲染器。尽管前景可观,这一范式从根本上依赖于精确的内在分解,而这对真实世界视频而言仍高度不可靠,常导致重光照过程中出现外观扭曲、材质破损及累积的时间伪影。本文提出Relit-LiVE,一种新颖的视频重光照框架,无需预先获取相机位姿即可生成物理一致、时间稳定的结果。我们的核心洞察在于将原始参考图像显式引入渲染过程,使模型能够恢复内在表征中不可避免丢失或损坏的关键场景线索。此外,我们提出一种新颖的环境视频预测方法,在单一扩散过程中同步生成重光照视频及与各相机视角对齐的逐帧环境贴图。这种联合预测强化了几何-光照对齐,自然支持动态光照与相机运动,在显著提升视频重光照物理一致性的同时,降低了对已知逐帧相机位姿的要求。大量实验表明,Relit-LiVE在合成与真实世界基准测试中持续优于现有最优的视频重光照与神经渲染方法。除重光照外,本框架自然支持场景级渲染、材质编辑、物体插入及流式视频重光照等广泛下游应用。项目地址:https://github.com/zhuxing0/Relit-LiVE。
全球大语言模型排行榜为何具有误导性:面向异构监督式机器学习的小型投资组合 Jai Moondra 2026-05-07 PDF 通过成对人工反馈对大型语言模型(LLM)进行排名,支撑了当前针对开放式任务(如创意写作和问题解决)的排行榜。我们分析了来自Arena的52个LLM在116种语言中的约8.9万次比较,发现最佳拟合的全局Bradley-Terry(BT)排名具有误导性。近三分之二的决定性投票相互抵消,即使全局BT排名前50的模型在统计上也无法区分(前50名模型间的成对获胜概率最多为0.53)。我们将这一失败归因于语言、任务和时间维度上强烈且结构化的意见异质性。此外,我们发现一个重要特征——语言起关键作用。按语言(及语系)分组能大幅提升投票一致性,使ELO分数的离散度提高两个数量级(即排名高度一致)。表面上的全局噪声实际上是多个一致但相互冲突的子群体的混合。为应对监督机器学习中的这种异质性,我们引入了(λ, ν)-组合框架,即通过小型模型集合实现预测误差不超过λ,并覆盖至少ν比例的用户。我们将此问题建模为集合覆盖问题的变体,并利用底层集合系统的VC维提供理论保证。在Arena数据上,我们的算法仅需5个不同的BT排名即可在适度λ下覆盖超过96%的投票,而全局排名覆盖率仅为21%。我们还构建了包含6个LLM的组合,其覆盖的投票数量是全局排名前6名LLM的两倍。进一步地,我们利用公平性正则化分类模型集成,在COMPAS数据集上为分类问题构建组合,并证明这些组合可用于检测数据盲点,这对政策制定者可能具有独立参考价值。
优化器-模型一致性:使用与预训练相同的优化器进行全量微调时遗忘更少 Yuxing Liu 2026-05-07 PDF 在训练大型语言模型(LLMs)的预训练和微调阶段,优化器都扮演着重要角色。本文发现,在监督微调(SFT)阶段,使用与预训练阶段相同的优化器进行全参数微调,相比其他优化器以及(可能令人惊讶的)LoRA方法,能实现更好的学习-遗忘权衡——即在保持新任务性能相同或更优的同时遗忘更少。我们将这种现象称为"优化器-模型一致性"。为深入理解这一现象,通过控制实验和理论分析,我们证明:1)优化器通过正则化效应影响激活值来塑造模型,导致预训练检查点周围产生不同景观;2)针对这种正则化效应,SFT中的权重更新应遵循特定结构以降低预训练知识的遗忘,而使用相同优化器即可实现。此外,我们专门比较了Muon和AdamW在预训练与SFT全流程中的表现,发现Muon在推理任务微调时表现更差。通过合成语言建模实验,我们证明这源于Muon强烈的机械记忆倾向,这种倾向可能损害小样本数据下的模式习得能力——这正是SFT场景的特征。
当无基准存在时:在没有真实标签的情况下验证大语言模型比较安全性评分 Sushant Gautam 2026-05-07 PDF 许多部署场景在相关语言、行业或监管体系的标注基准尚未建立时,就需要比较候选语言模型的安全性。我们将此场景形式化为无基准比较安全评分,并明确了基于场景的审计可作为部署证据的契约条件。评分仅在固定场景包、评分细则、审计员、评审员、采样配置和重跑预算下有效。由于缺乏标注数据,我们以工具有效性链替代真实标签一致性:即对受控安全与消融模型的响应差异、目标驱动方差对审计员和评审员人为因素的支配性、以及跨重跑的稳定性。我们在本地优先评分工具SimpleAudit中实例化该链条,并在挪威安全包上完成验证。安全与消融目标的AUROC值介于0.89至1.00之间,目标身份是主导方差成分(η²≈0.52),严重性分布曲线在十次重跑后趋于稳定。将该链条应用于Petri表明其兼容两种工具。实质性差异出现在链条上游的声明契约执行与部署适配环节。通过挪威公共部门采购案例(比较Borealis与Gemma 3)展示实际证据:更安全的模型取决于场景类别与风险度量。因此,评分、匹配差值、临界比率、不确定性以及所使用的审计员和评审员必须一并报告,而非简化为单一排名。
AI协同数学家:利用智能体AI加速数学家的工作 Daniel Zheng 2026-05-07 PDF 我们推出AI合作数学家——一个供数学家交互式利用AI智能体进行开放式研究的工作台。该AI合作数学家经过优化,能够为数学工作流程中探索性与迭代性的现实需求提供全方位支持,包括构思、文献检索、计算探索、定理证明及理论构建。通过提供异步、有状态的工作空间来管理不确定性、细化用户意图、追踪失败假设并输出原生数学成果,该系统模拟了人类协作工作流程。在早期测试中,AI合作数学家已帮助研究者解决开放性问题、发现新研究方向,并挖掘出被忽视的文献引用。除展示了一种高度交互的AI辅助数学发现范式外,该AI合作数学家还在高难度问题解决基准测试中取得了顶尖成果,包括在FrontierMath第四层级获得48%的得分——这是所有被评估AI系统中的最高纪录。