跳转至

arxiv 2025-12-04

标题 作者 PDF链接 摘要
独特人生,共享世界:从单一生平视频中学习 Tengda Han PDF 我们提出"单一生涯"学习范式,即仅使用单一个体采集的自我中心视角视频训练专属视觉模型。通过利用单一生涯中自然捕获的多视角数据,我们以自监督方式学习视觉编码器。实验揭示三项核心发现:首先,在不同个体生涯数据上独立训练的模型能形成高度对齐的几何理解。我们通过在室内外不同个体数据集上训练视觉编码器,并引入基于交叉注意力的新型度量指标,量化了不同模型内部表征的功能对齐程度。其次,单一生涯模型可学习具有泛化能力的几何表征,能有效迁移至未知环境的下游任务(如深度估计)。第三,仅使用同一人物单周不超过30小时的数据训练,即可达到与30小时多样化网络数据训练相当的性能,彰显了单一生涯表征学习的优势。总体而言,我们的研究证实:世界共享的结构特征既能促使个体生涯训练的模型保持一致性,也为视觉表征学习提供了强有力的信号。
SimFlow:简化且端到端的潜在归一化流训练 Qinyu Zhao PDF 归一化流(NFs)通过学习数据与高斯分布之间的可逆映射来实现建模。先前的研究通常面临两个局限性:其一,它们通过在训练样本或变分自编码器(VAE)的隐变量中添加随机噪声作为数据增强手段,从而引入了包含额外加噪与去噪步骤的复杂流程;其二,它们使用预训练且参数固定的VAE编码器,导致重建与生成质量未能达到最优。本文发现,这两个问题可以通过一种极为简单的方式解决:只需将原本由VAE编码器预测的方差固定为一个常数(例如0.5)。一方面,这种方法使编码器能够输出更广泛的标记分布,同时让解码器学会从增强后的标记分布中重建清晰图像,从而避免了额外的噪声设计或去噪步骤。另一方面,固定方差简化了VAE的证据下界,使得联合训练VAE与NF的过程更加稳定。在ImageNet $256 \times 256$生成任务中,我们的模型SimFlow取得了2.15的gFID分数,优于当前最优方法STARFlow(gFID 2.40)。此外,SimFlow能够无缝集成端到端表示对齐(REPA-E)方法,将gFID进一步提升至1.91,在NF领域创造了新的性能标杆。
海报助手:迈向专业平面设计的布局推理与可控编辑 Jiazhe Wei PDF 平面设计作为现代视觉传达的基石,是推广文化与商业活动的重要媒介。当前研究已尝试利用大型多模态模型实现设计流程自动化,但现有方法常存在几何布局失准问题,且缺乏专业工作流所需的迭代式、图层级编辑能力。为突破这些局限,我们提出PosterCopilot框架,通过增强布局推理与可控编辑能力推动专业平面设计智能化。具体而言,我们设计渐进式三阶段训练策略:扰动监督微调、视觉-现实对齐强化学习、审美反馈强化学习,使大型多模态模型获得几何理解与美学推理的双重布局设计能力。此外,我们构建了完整工作流,将训练后的设计模型与生成模型耦合,在保持全局视觉一致性的同时,实现图层可控的迭代编辑与精细化元素调整。大量实验表明,PosterCopilot能生成几何精确且美学卓越的布局,为专业迭代式设计提供前所未有的可控性。
辐射网格用于体积重建 Alexander Mai PDF 我们提出辐射网格技术,这是一种利用Delaunay四面体剖分生成的恒定密度四面体单元来表示辐射场的方法。与Voronoi图不同,Delaunay四面体剖分产生的是现有硬件原生支持的简单三角形结构。因此,我们的模型能够通过光栅化和光线追踪两种方式实现精确且快速的体绘制。我们开发了一种新型光栅化方法,在各种平台上(假设图元数量和分辨率相当的情况下)实现了比所有现有辐射场表示技术更快的渲染速度。优化Delaunay顶点位置会引发拓扑不连续性(边翻转问题)。为解决这一难题,我们采用Zip-NeRF风格的主干网络,即使在拓扑结构变化时也能表达平滑变化的场。我们的渲染方法精确求解体绘制方程,能够在标准消费级硬件上实现高质量实时视图合成。这种四面体网格结构还适用于多种创新应用场景,包括鱼眼镜头畸变校正、基于物理的仿真、编辑操作以及网格提取等。
技能工厂:用于学习认知行为的自我蒸馏方法 Zayne Sprague PDF 利用长链思维进行推理的模型运用了多种认知技能,例如答案验证、回溯、采用替代方法重试等。先前研究表明,当基础语言模型展现出这些技能时,通过强化学习(RL)进一步训练该模型可以学会运用这些技能。那么,如何让模型掌握基础模型尚未展现的技能呢?我们的研究"技能工厂"(SkillFactory)提出了一种方法,通过在强化学习前的监督微调(SFT)阶段对模型进行微调,使其初步掌握这些技能。该方法不依赖于从更强模型中进行知识蒸馏,而是利用模型自身生成的样本,通过重新组织以符合目标技能格式的训练数据。这些"银牌"SFT轨迹可能并不完美,但能有效引导模型在强化学习阶段掌握技能。评估结果显示:(1)从SkillFactory的SFT初始化开始,尽管强化学习前性能较低,但有助于模型在强化学习后泛化至任务的更复杂变体;(2)模型确实运用了认知技能;(3)经过强化学习的SkillFactory模型相比经过强化学习的基础模型,在跨领域任务上表现出更强的抗退化能力。我们的研究表明,在强化学习前习得的归纳偏置有助于模型掌握稳健的认知技能运用。
空间工具:通过双重交互式强化学习实现工具增强的空间推理 Siyi Chen PDF 视觉语言模型(VLMs)在定性视觉理解方面表现出色,但在具身应用所需的精确空间度量推理方面仍存在困难。智能体范式提出,视觉语言模型可通过调用多种工具来增强这些能力,例如深度估计器、分割模型和姿态估计器。然而,如何在不依赖人工提示策略或固定预定义工具流程的前提下实现这一愿景,仍是开放挑战——现有方法限制了模型自主探索最优工具使用模式的能力。强化学习虽有望突破这一局限,但由于多工具推理的搜索空间过大,目前仍局限于单一视觉工具的应用。

我们提出了双重交互式强化学习(DIRL),这是一个两阶段训练框架,通过交互探索与反馈机制使视觉语言模型学会协调多种工具。在教学阶段,我们将单一工具专家(通过交互式强化学习训练)的演示与前沿模型(使用全部工具)的轨迹相结合;在探索阶段,模型通过持续强化学习进一步优化多工具协调能力。我们的模型SpaceTools具备工具增强的空间推理能力,在空间理解基准测试(RoboSpatial-Home、BLINK、BOP-ASK)中达到最先进性能,并成功将七自由度机器人作为工具实现了可靠的真实世界操作。DIRL相较于标准监督微调基线(在RoboSpatial上提升12%)和强化学习基线(在RoboSpatial上提升16%)均有显著改进。项目页面:https://spacetools.github.io/。 | | 通过协作式自我对弈学习可操控的澄清策略 | Jonathan Berant | PDF | 为处理未明确或模糊的查询,人工智能助手需要制定一种管理不确定性的策略,以决定:(a)何时推测用户意图并直接回答,(b)何时列举并回应多种可能的意图,以及(c)何时提出澄清性问题。然而,此类策略需根据用户偏好或交互模式等情境因素进行调整。例如,在小型屏幕或语音交互场景中,枚举多种可能的用户意图会显得繁琐。本研究提出通过自我博弈训练可调控的策略来管理此类不确定性。通过设置两个智能体——一个模拟用户,另一个模拟AI助手——我们生成对话场景:用户提出可能模糊的查询,助手需决定如何回应。关键之处在于,模型以每个澄清问题的数值成本及每个生成词汇的成本作为输入,并被要求采取能最大化最终奖励的行动,该奖励为经过成本惩罚调整后的准确度。我们采用强化自我训练方法训练模型以获得高奖励,结果表明该方法能形成可调控的策略:该策略可根据预设成本值可预测地调整行为,从而实现更高的奖励与准确度。此外,我们的训练流程还能泛化至训练阶段未出现过的数值成本场景。 | | Uber、Ola与Rapido比价应用 | Ashlesha Gopinath Sawant | PDF | 在当今日益发展的世界中,拥有像Ola、Uber和Rapido这样优质的叫车服务对我们的日常出行至关重要。用户在选择最合适、最高效的出行方式时常常面临困难,既希望经济实惠,又希望能在更短时间内到达目的地。本项目提供了一个网络应用程序,通过比较用户输入目的地后Ola、Uber和Rapido的预估费用,帮助用户选择最有利的出行方案。后端采用Python技术获取数据,为用户提供不同平台的费用对比,并最终推荐最优选择。本研究还探讨了在使用API、Android Studio模拟器、Appium以及位置比对过程中遇到的数据获取问题和挑战。因此,本项目旨在提高叫车服务的透明度,提升效率,并为用户带来更优质的体验。 | | 评估说明书:记录人工智能评估的结构化框架 | Florian Bordes | PDF | 基准测试的快速扩散给可复现性、透明度和科学决策带来了严峻挑战。然而与数据集和模型不同——它们受益于数据手册和模型卡片等结构化文档框架——评估方法却缺乏系统化的记录标准。我们提出"评估事实说明书",这是一个通过分类学体系与问卷式方法记录人工智能系统评估的结构化描述框架。该框架从五个基本维度组织评估特征:背景(评估者与时间)、范围(评估对象)、结构(评估构建要素)、方法(运行机制)以及校准(可靠性/有效性/鲁棒性体现)。我们将该分类体系实现为包含五个部分的实践问卷,涵盖强制性与建议性记录要素。通过对多个基准测试的案例研究,我们证明评估事实说明书能有效捕捉从传统基准测试到LLM即评估者等多元评估范式,同时保持记录的一致性与可比性。我们期待评估事实说明书能被纳入现有及新发布的评估框架,推动评估工作向更高透明度和可复现性发展。 | | 解决至多六个节点因果结构中存在经典-量子差距的问题 | Shashaank Khanna | PDF | 贝尔发现存在无法用经典方式再现的量子关联,这一成果不仅是量子力学基础理论中最重要的突破之一,也具有实际应用价值。贝尔的原始结论基于简单的二分因果结构,但类似结果在更复杂的因果结构中也得到了验证。本文研究了节点数不超过六的所有因果结构中,唯一尚未解决"是否存在经典方法无法实现的量子关联"这一问题的结构。通过采用施加额外关联约束的方法,我们证明了该因果结构中确实存在此类量子关联,从而完整揭示了六节点及以下因果结构中支持非经典量子关联的全貌。我们还通过其他因果结构进一步展示了该方法的适用性。 |