| ActCam:面向视频生成的零样本联合相机与三维运动控制 |
Omar El Khalifi |
2026-05-07 |
PDF |
对于艺术类应用,视频生成需要精细控制表演与摄影两个维度,即演员的运动轨迹与摄像机运动轨迹。我们提出ActCam,一种零样本视频生成方法,既能将驱动视频中的人物动作迁移至新场景,又能实现每帧内外部摄像机参数的独立控制。ActCam基于任意预训练的图像到视频扩散模型构建,该模型需支持场景深度与人物姿态的条件控制。给定包含运动人物的源视频与目标摄像机运动轨迹,ActCam可生成帧间几何一致的姿态与深度条件。我们采用两阶段条件调度的单次采样流程:早期去噪步骤同时使用姿态与稀疏深度条件约束场景结构,随后移除深度条件,仅保留姿态引导以细化高频细节,避免过度约束生成效果。我们在多个涵盖不同人物动作与挑战性视角变化的基准测试中评估ActCam。结果表明,相较于纯姿态控制及其他姿态-摄像机联合方法,ActCam在摄像机跟随度与运动保真度方面表现更优,尤其在视角大幅变化时获得人类评估者的更高偏好。我们的研究揭示,通过精心设计的摄像机一致性条件与分阶段引导,无需训练即可实现强大的摄像机-运动联合控制。项目页面:https://elkhomar.github.io/actcam/。 |
| UniPool:面向混合专家模型的全局共享专家池 |
Minbin Huang |
2026-05-07 |
PDF |
现代混合专家(MoE)架构通过严格的逐层规则分配专家容量:每个Transformer层拥有独立的专家集合。这种设计将深度扩展与专家参数线性增长相耦合,并假设每一层都需要独立的专家容量。然而,近期分析及我们的路由探测实验对这一分配规则提出质疑:在多个生产级MoE模型中,将深层学习型top-k路由器替换为均匀随机路由后,下游准确率仅下降1.0-1.6个百分点。受此冗余现象启发,我们提出UniPool架构——将专家容量视为全局架构预算,用独立逐层路由器访问的单一共享池替代逐层专家所有权。为实现共享条件下的稳定均衡训练,我们引入池级辅助损失以平衡整个池中的专家利用率,并采用NormRouter为共享专家池提供稀疏且尺度稳定的路由。在基于LLaMA架构的五个模型规模(182M、469M、650M、830M和978M参数)上,使用Pile数据集30B tokens训练后,UniPool在验证损失和困惑度指标上持续优于匹配的vanilla MoE基线。在这些规模下,UniPool相较vanilla MoE最高降低验证损失0.0386。除原始损失改进外,我们的研究结果将池规模确定为显式深度扩展超参数:仅使用vanilla专家参数预算41.6%-66.7%的缩减池UniPool变体,在测试规模下即可匹配或超越逐层MoE性能。这表明在共享池设计下,专家参数无需随深度线性增长,可在保持比vanilla MoE更高效能的同时实现次线性增长。进一步分析显示,UniPool的收益可与更细粒度的专家分解协同作用。 |
| BAMI:GUI 基础中的无训练偏差缓解 |
Borui Zhang |
2026-05-07 |
PDF |
GUI grounding是实现GUI代理执行点击、拖拽等任务的关键能力。然而,在ScreenSpot-Pro基准等复杂场景中,现有模型往往表现欠佳。通过采用所提出的\textbf{掩码预测分布(MPD)}归因方法,我们识别出错误的主要来源有两个:高图像分辨率(导致精度偏差)和复杂的界面元素(导致歧义偏差)。为解决这些问题,我们引入了\textbf{偏差感知操作推理(BAMI)},该方法包含两项关键操作:从粗到细的聚焦和候选选择,以有效缓解这些偏差。大量实验结果表明,BAMI在无需训练的情况下显著提升了多种GUI grounding模型的准确性。例如,将我们的方法应用于TianXi-Action-7B模型后,其在ScreenSpot-Pro基准上的准确率从51.9%提升至57.8%。此外,消融研究证实了BAMI方法在不同参数配置下的鲁棒性,凸显了其稳定性和有效性。代码已开源:https://github.com/Neur-IO/BAMI。 |
| EMO:面向涌现模块化的专家混合预训练 |
Ryan Wang |
2026-05-07 |
PDF |
大型语言模型通常以整体系统的方式部署,即使应用仅需代码、数学或特定领域知识等狭窄能力子集,仍需加载完整模型。混合专家模型(MoE)看似提供了替代方案——每个输入仅激活部分专家,但实践中,针对特定领域限制推理时仅使用部分专家会导致严重的性能下降。这限制了其在内存受限场景中的实用性,尤其当模型规模更大、稀疏性更高时。我们提出EMO,一种专为模块化设计的MoE架构——支持独立使用和组合专家子集——且无需人工定义先验知识。核心思路是鼓励相似领域的token依赖相似的专家。由于同一文档内的token通常共享领域,EMO限制这些token从共享的专家池中选择专家,同时允许不同文档使用不同的专家池。这一简单约束使得在预训练过程中仅凭文档边界就能自然形成连贯的专家分组。我们在1T token上预训练了1B激活参数、14B总参数的EMO模型。作为完整模型,其性能与标准MoE相当。关键在于,它支持选择性使用专家:仅保留25%(12.5%)的专家时,性能绝对下降仅1%(3%),而标准MoE在相同设置下完全崩溃。我们进一步发现,EMO中的专家子集在语义层面(如数学或代码等领域)实现专业化,这与标准MoE中观察到的低层句法专业化形成鲜明对比。总体而言,我们的研究结果为大规模稀疏模型的模块化、内存高效部署指明了方向,并为可组合架构开辟了新可能。 |
| 基于验证器的数学推理难题生成 |
Yuhang Lai |
2026-05-07 |
PDF |
大型语言模型在解决科学和数学问题方面展现出强大能力,但在生成有效、具有挑战性且新颖的问题方面仍存在困难——这是推动大语言模型训练和实现自主科学研究的关键环节。现有问题生成方法要么依赖昂贵的人类专家参与,要么采用简单的自我对弈范式,这类方法常因奖励破解机制而产生无效问题。本研究提出VHG框架,这是一种基于三方自我对弈的验证器增强型难题生成框架。通过将独立验证器整合到传统的出题者-解题者二元结构中,我们的设计约束出题者的奖励由问题有效性(验证器评估)和难度(解题者评估)共同决定。我们实例化了两种验证器变体:硬符号验证器和基于大语言模型的软验证器,并在不定积分任务和通用数学推理任务上进行了评估。实验结果表明,VHG以明显优势全面超越所有基线方法。 |
| Relit-LiVE:通过联合学习环境视频实现视频重光照 |
Weiqing Xiao |
2026-05-07 |
PDF |
近期研究表明,大规模视频扩散模型可通过先将视频分解为内在场景表征,再在新光照条件下执行前向渲染,从而被重新用作神经渲染器。尽管前景可观,但该范式从根本上依赖于精确的内在分解,而这一过程在真实世界视频中仍高度不可靠,常导致重光照时出现外观失真、材质破损及时间伪影累积等问题。本文提出Relit-LiVE——一种无需预知相机位姿即可生成物理一致、时间稳定结果的视频重光照新框架。我们的核心洞察在于:在渲染过程中显式引入原始参考图像,使模型能够恢复内在表征中不可避免丢失或损坏的关键场景线索。此外,我们提出一种新颖的环境视频预测方法,在单一扩散过程中同步生成重光照视频与每个相机视角对应的逐帧环境贴图。这种联合预测强化了几何-光照对齐,自然支持动态光照与相机运动,在显著提升视频重光照物理一致性的同时,降低了对逐帧相机位姿已知的要求。大量实验表明,Relit-LiVE在合成与真实基准测试中均持续优于现有最优视频重光照及神经渲染方法。除重光照外,本框架自然支持场景级渲染、材质编辑、物体插入及流式视频重光照等广泛下游应用。项目地址:https://github.com/zhuxing0/Relit-LiVE。 |
| 全球大语言模型排行榜为何具有误导性:面向异构监督式机器学习的小型组合 |
Jai Moondra |
2026-05-07 |
PDF |
通过成对人工反馈对大型语言模型(LLM)进行排名,支撑了当前开放式任务(如创意写作和问题解决)的排行榜。我们分析了来自Arena的52个LLM在116种语言中的约8.9万次比较,发现最佳拟合的全局Bradley-Terry(BT)排名具有误导性。近三分之二的决定性投票相互抵消,即使全局BT排名前50的模型在统计上也无法区分(前50名模型之间的成对获胜概率最多为0.53)。我们将这一失败归因于语言、任务和时间维度上强烈且结构化的意见异质性。此外,我们发现一个重要特征——语言起关键作用。按语言(及语系)分组后,投票一致性大幅提升,导致ELO分数分布范围扩大两个数量级(即排名高度一致)。表面上的全局噪声实际上是多个连贯但相互冲突的子群体的混合。为应对监督机器学习中的这种异质性,我们引入了$(λ, ν)$-组合框架,即一组小型模型集合,其预测误差不超过$λ$,且至少覆盖$ν$比例的用户。我们将此问题建模为集合覆盖问题的变体,并利用底层集合系统的VC维提供理论保证。在Arena数据上,我们的算法仅需5个不同的BT排名即可在适度$λ$下覆盖超过96%的投票,而全局排名仅覆盖21%。我们还提供了一个由6个LLM组成的组合,其覆盖的投票数是全局排名前6个LLM的两倍。进一步地,我们在COMPAS数据集上使用公平性正则化分类模型集成构建了分类问题的组合,并证明这些组合可用于检测数据盲点,这对政策制定者可能具有独立参考价值。 |
| 优化器-模型一致性:使用与预训练相同的优化器进行全量微调时遗忘更少 |
Yuxing Liu |
2026-05-07 |
PDF |
在训练大型语言模型(LLMs)的预训练和微调阶段,优化器都扮演着重要角色。本文发现,在监督微调(SFT)阶段,使用与预训练相同的优化器进行全参数微调,相比其他优化器以及(可能令人惊讶的)LoRA方法,能够实现更好的学习-遗忘权衡——即在保持新任务性能相同或更优的同时遗忘更少。我们将此现象称为"优化器-模型一致性"。为深入理解这一现象,通过控制实验和理论分析,我们证明:1)优化器通过对激活值产生正则化效应来塑造模型,导致预训练检查点周围形成不同的损失景观;2)针对这种正则化效应,SFT中的权重更新需要遵循特定结构以降低对预训练知识的遗忘,而使用相同优化器即可实现这种结构。此外,我们专门比较了在预训练和SFT阶段均使用Muon与AdamW的情况,发现Muon在推理任务微调时表现更差。通过合成语言建模实验,我们证明这源于Muon强烈的死记硬背倾向,这种倾向可能损害小样本数据下的模式习得能力——而这正是SFT场景的特点。 |
| 当不存在基准时:在没有真实标签的情况下验证大语言模型比较安全性评分 |
Sushant Gautam |
2026-05-07 |
PDF |
许多部署场景需要在相关语言、行业或监管体系的标注基准建立之前,对候选语言模型进行安全性比较。我们将此场景形式化为无基准比较安全评分,并明确在何种契约下,基于场景的审计可被解读为部署证据。评分仅在固定的场景包、评分细则、审计员、评审员、采样配置及重跑预算下有效。由于缺乏标注数据,我们以工具有效性链条替代真实标注一致性:即对受控安全与消融对照的响应性、目标驱动方差对审计员和评审员人为因素的支配性,以及跨重跑的稳定性。我们在本地优先评分工具SimpleAudit中实例化该链条,并在挪威语安全包上完成验证。安全与消融目标的AUROC值介于0.89至1.00之间,目标身份是主导方差成分(η²≈0.52),严重性分布曲线在十次重跑后趋于稳定。将该链条应用于Petri框架表明,两种工具均可兼容。实质性差异出现在链条上游,即主张契约执行与部署适配环节。通过挪威公共部门采购案例(对比Borealis与Gemma 3)展示实际证据:更安全的模型取决于场景类别与风险度量指标。因此,评分、匹配差值、临界比率、不确定性以及所使用的审计员与评审员必须一并报告,而非简化为单一排名。 |
| AI协同数学家:利用智能体AI加速数学家的工作 |
Daniel Zheng |
2026-05-07 |
PDF |
我们推出AI合作数学家——一个供数学家交互式利用AI智能体进行开放式研究的工作台。该AI合作数学家经过优化,能够为数学工作流程中探索性与迭代性的现实需求提供全方位支持,包括构思、文献检索、计算探索、定理证明及理论构建。通过提供异步、有状态的工作空间来管理不确定性、细化用户意图、追踪失败假设并输出原生数学成果,该系统模拟了人类协作工作流程。在早期测试中,AI合作数学家帮助研究者解决了开放性问题,发现了新的研究方向,并挖掘了被忽视的文献引用。除展示了一种高度交互的AI辅助数学发现范式外,该AI合作数学家还在高难度问题求解基准测试中取得了领先成果,包括在FrontierMath第四层级获得48%的得分——这是所有已评估AI系统中的最高纪录。 |