| ActCam:面向视频生成的零样本联合相机与三维运动控制 |
Omar El Khalifi |
2026-05-07 |
PDF |
在艺术创作应用中,视频生成需要对表演和摄影进行精细控制,即演员的运动和摄像机轨迹。我们提出ActCam,一种零样本视频生成方法,能够将驱动视频中的人物动作联合迁移至新场景,并支持对每帧的内外摄像机参数进行控制。ActCam基于任意预训练的图像到视频扩散模型,该模型接受场景深度和人物姿态作为条件。给定包含运动人物的源视频和目标摄像机运动,ActCam生成在帧间保持几何一致的姿态和深度条件。随后我们采用两阶段条件调度的单次采样过程:早期去噪步骤同时使用姿态和稀疏深度条件以强化场景结构,之后移除深度条件,仅通过姿态引导优化高频细节而不过度约束生成。我们在多个涵盖不同人物动作和挑战性视角变化的基准上评估ActCam。结果表明,与仅姿态控制及其他姿态与摄像机方法相比,ActCam在摄像机遵循度和运动保真度上表现更优,并在人类评估中更受青睐,尤其在视角大幅变化时。我们的结果强调,精心设计的摄像机一致性条件与分阶段引导可在无需训练的情况下实现强大的联合摄像机与运动控制。项目页面:https://elkhomar.github.io/actcam/。 |
| UniPool:面向混合专家模型的全局共享专家池 |
Minbin Huang |
2026-05-07 |
PDF |
现代混合专家(MoE)架构通过严格的逐层规则分配专家容量:每个Transformer层拥有独立的专家集合。这种设计将深度扩展与专家参数线性增长绑定,并假设每一层都需要独立的专家容量。然而,近期分析及我们的路由探测实验对这一分配规则提出质疑:在多个生产级MoE模型中,将深层学习型top-k路由器替换为均匀随机路由后,下游准确率仅下降1.0-1.6个百分点。受此冗余现象启发,我们提出UniPool架构,将专家容量视为全局架构预算,用独立逐层路由器访问的单一共享池替代逐层专家所有权。为实现共享下的稳定均衡训练,我们引入池级辅助损失函数以平衡整个池中的专家利用率,并采用NormRouter为共享专家池提供稀疏且尺度稳定的路由。在基于LLaMA架构的五个模型规模(参数规模分别为182M、469M、650M、830M和978M)上,使用Pile数据集30B tokens训练后,UniPool在验证损失和困惑度指标上持续优于匹配的原始MoE基线。在这些规模下,UniPool相比原始MoE将验证损失最多降低0.0386。除原始损失改进外,我们的结果将池规模确定为显式的深度扩展超参数:仅使用原始MoE专家参数预算41.6%-66.7%的缩减池UniPool变体,在测试规模下即可达到或超越逐层MoE的性能。这表明在共享池设计下,专家参数无需随深度线性增长;它们可以亚线性增长,同时保持比原始MoE更高的效率和有效性。进一步分析表明,UniPool的优势可与更细粒度的专家分解协同作用。 |
| BAMI:GUI 基础中的无训练偏差缓解 |
Borui Zhang |
2026-05-07 |
PDF |
GUI grounding是实现GUI代理执行点击、拖拽等任务的关键能力。然而,在ScreenSpot-Pro基准等复杂场景中,现有模型往往表现欠佳。通过使用我们提出的\textbf{掩码预测分布(MPD)}归因方法,我们识别出错误的主要来源有两个:高图像分辨率(导致精度偏差)和复杂的界面元素(导致歧义偏差)。为解决这些问题,我们引入了\textbf{偏差感知操作推理(BAMI)},该方法包含两项关键操作:从粗到细的聚焦和候选选择,以有效缓解这些偏差。大量实验结果表明,BAMI在无需训练的情况下显著提升了多种GUI grounding模型的准确性。例如,将我们的方法应用于TianXi-Action-7B模型后,其在ScreenSpot-Pro基准上的准确率从51.9\%提升至57.8\%。此外,消融研究证实了BAMI方法在不同参数配置下的鲁棒性,凸显了其稳定性和有效性。代码已开源:https://github.com/Neur-IO/BAMI。 |
| EMO:面向涌现模块化的专家混合预训练 |
Ryan Wang |
2026-05-07 |
PDF |
大型语言模型通常以整体系统的方式部署,即使应用仅需代码、数学或特定领域知识等狭窄能力子集,仍需加载完整模型。混合专家模型(MoE)看似提供了替代方案——每个输入仅激活部分专家,但实践中,针对特定领域限制推理时仅使用部分专家会导致严重的性能下降。这限制了其在内存受限场景中的实用性,尤其当模型规模更大、稀疏性更高时。我们提出EMO,一种专为模块化设计的MoE——支持独立使用和组合专家子集,且无需人工定义先验知识。核心思路是鼓励相似领域的token依赖相似的专家。由于同一文档内的token通常共享领域,EMO限制它们从共享的专家池中选择专家,同时允许不同文档使用不同的专家池。这一简单约束仅利用文档边界即可在预训练中形成连贯的专家分组。我们在1T token上预训练了1B激活参数、14B总参数的EMO模型。作为完整模型,其性能与标准MoE相当。关键在于,它支持选择性使用专家:仅保留25%(12.5%)的专家时,性能绝对下降仅1%(3%),而标准MoE在相同设置下完全崩溃。我们进一步发现,EMO中的专家子集在语义层面(如数学或代码等领域)实现专业化,这与标准MoE中观察到的低层句法专业化形成对比。总体而言,我们的研究结果为大型稀疏模型的模块化、内存高效部署指明了路径,并为可组合架构开辟了新可能。 |
| 基于验证器的数学推理难题生成方法 |
Yuhang Lai |
2026-05-07 |
PDF |
大型语言模型在解决科学和数学问题方面展现出强大能力,但在生成有效、具有挑战性且新颖的问题方面仍存在困难——这是推动大语言模型训练和实现自主科学研究的关键环节。现有问题生成方法要么依赖昂贵的人类专家参与,要么采用简单的自我博弈范式,常因奖励欺骗导致生成无效问题。本研究提出VHG框架,这是一种基于三方自我博弈的验证器增强型难题生成框架。通过将独立验证器整合到传统的出题者-解题者二元结构中,我们的设计约束出题者的奖励由问题有效性(验证器评估)和难度(解题者评估)共同决定。我们实例化了两种验证器变体:硬符号验证器和基于软大语言模型的验证器,并在不定积分任务和通用数学推理任务上进行了评估。实验结果表明,VHG以显著优势全面超越所有基线方法。 |
| Relit-LiVE:通过联合学习环境视频实现视频重光照 |
Weiqing Xiao |
2026-05-07 |
PDF |
近期研究表明,通过先将视频分解为内在场景表征,再在新光照条件下进行前向渲染,大规模视频扩散模型可被重新用作神经渲染器。尽管前景广阔,但该范式从根本上依赖于精确的内在分解,而这对真实世界视频而言仍高度不可靠,常导致重光照过程中出现外观失真、材质破损及累积时间伪影。本文提出Relit-LiVE,一种无需预先获取相机位姿即可生成物理一致、时间稳定结果的视频重光照新框架。我们的核心洞察在于:在渲染过程中显式引入原始参考图像,使模型能够恢复内在表征中不可避免丢失或损坏的关键场景线索。此外,我们提出一种新颖的环境视频预测方法,在单一扩散过程中同步生成重光照视频及与各相机视角对齐的逐帧环境贴图。这种联合预测强化了几何-光照对齐,自然支持动态光照与相机运动,在显著提升视频重光照物理一致性的同时,降低了对已知逐帧相机位姿的要求。大量实验表明,Relit-LiVE在合成与真实基准测试中持续优于现有最优的视频重光照与神经渲染方法。除重光照外,本框架自然支持场景级渲染、材质编辑、物体插入及流式视频重光照等广泛下游应用。项目地址:https://github.com/zhuxing0/Relit-LiVE。 |
| 全球大语言模型排行榜为何具有误导性:面向异构监督式机器学习的小型投资组合 |
Jai Moondra |
2026-05-07 |
PDF |
通过成对人工反馈对大型语言模型(LLM)进行排名,支撑了当前创意写作和问题解决等开放式任务的排行榜。我们分析了来自Arena的52个LLM在116种语言中的约8.9万次比较,发现最佳拟合的全局Bradley-Terry(BT)排名具有误导性。近三分之二的决定性投票相互抵消,即使全局BT排名前50的模型在统计上也无法区分(前50名模型间的成对获胜概率至多为0.53)。我们将这一失败归因于语言、任务和时间维度上强烈且结构化的意见异质性。此外,我们发现一个重要特征——语言起关键作用。按语言(及语系)分组后,投票一致性大幅提升,导致ELO分数差异扩大两个数量级(即排名高度一致)。表面上的全局噪声实际上是多个连贯但相互冲突的子群体的混合。为应对监督机器学习中的这种异质性,我们引入了(λ, ν)-组合框架——即一组小型模型集合,其预测误差不超过λ,且至少覆盖ν比例的用户。我们将此问题建模为集合覆盖问题的变体,并利用底层集合系统的VC维提供理论保证。在Arena数据上,我们的算法仅需5个不同的BT排名即可在适度λ下覆盖超过96%的投票,而全局排名仅覆盖21%。我们还提供了一个包含6个LLM的组合,其覆盖的投票数是全局排名前6个LLM的两倍。进一步地,我们利用公平性正则化分类模型集成,在COMPAS数据集上构建分类问题的组合,并证明这些组合可用于检测数据盲点,这对政策制定者可能具有独立参考价值。 |
| 优化器-模型一致性:使用与预训练相同的优化器进行全参数微调时,遗忘更少 |
Yuxing Liu |
2026-05-07 |
PDF |
优化器在训练大型语言模型的预训练和微调阶段都扮演着重要角色。本文发现,在监督微调阶段,使用与预训练阶段相同的优化器进行全参数微调,能够实现更优的学习-遗忘权衡——即在保持新任务性能相同或更优的同时遗忘更少,效果优于其他优化器,甚至可能优于LoRA。我们将这一现象称为优化器-模型一致性。为深入理解该现象,通过控制实验和理论分析,我们证明:1) 优化器通过对激活值产生正则化效应来塑造模型,导致预训练检查点周围形成不同损失景观;2) 针对这种正则化效应,微调阶段的权重更新需遵循特定结构以降低对预训练知识的遗忘,而使用相同优化器即可实现该结构。此外,我们专门比较了Muon和AdamW在预训练与微调全流程中的表现,发现Muon在推理任务微调时性能更差。通过合成语言建模实验,我们证明这源于Muon强烈的死记硬背倾向,这种倾向可能损害小样本数据下的模式习得能力——这正是监督微调面临的情况。 |
| 当没有基准时:在没有真实标签的情况下验证大语言模型比较安全性评分 |
Sushant Gautam |
2026-05-07 |
PDF |
许多部署场景在缺乏针对特定语言、行业或监管体系的标注基准时,仍需比较候选语言模型的安全性。我们将此场景形式化为无基准比较安全评分,并明确基于场景的审计可作为部署证据的契约条件。评分仅在固定场景包、评分标准、审计员、评审员、采样配置及重跑预算下有效。由于缺乏标注数据,我们以工具有效性链条替代真实标注一致性:对受控安全与消融模型的响应差异、目标驱动方差对审计员与评审员人为因素的支配性、以及跨重跑稳定性。我们在本地优先评分工具SimpleAudit中实例化该链条,并在挪威语安全包上验证。安全与消融目标的AUROC值介于0.89至1.00之间,目标身份是主导方差成分(η²≈0.52),严重性分布经十次重跑后趋于稳定。将该链条应用于Petri表明其兼容两种工具。实质性差异出现在链条上游的声明契约执行与部署适配环节。挪威公共部门采购案例(对比Borealis与Gemma 3)展示了实际证据:更安全的模型取决于场景类别与风险度量。因此,评分、匹配差值、临界率、不确定性及使用的审计员与评审员必须联合报告,而非简化为单一排名。 |
| AI协同数学家:利用智能体AI加速数学家的工作 |
Daniel Zheng |
2026-05-07 |
PDF |
我们推出AI合作数学家——一个供数学家以交互方式利用AI智能体进行开放式研究的工作台。该AI合作数学家经过优化,可为数学工作流程中探索性与迭代性的现实需求提供全方位支持,涵盖构思、文献检索、计算探索、定理证明及理论构建。通过构建异步、有状态的工作空间来管理不确定性、精炼用户意图、追踪失败假设并输出原生数学成果,该系统模拟了人类协作工作流程。在早期测试中,AI合作数学家已帮助研究者解决开放性问题、识别新研究方向,并发现被忽视的文献引用。除展示一种高度交互的AI辅助数学发现范式外,该AI合作数学家还在高难度问题求解基准测试中达到顶尖水平,包括在FrontierMath第四层级取得48%的得分——这是所有被评估AI系统中的最高纪录。 |