| TailLoR:在参数高效持续学习中保护主成分 |
Marius Dragoi |
2026-06-04 |
PDF |
基于谱分解的参数高效微调方法推动了持续学习的发展。本文提出TailLoR方法,利用预训练权重的奇异基U和V作为固定参考框架,学习应用于奇异值矩阵的低秩更新。软谱惩罚机制抑制与主导奇异方向对齐的更新,在减少干扰的同时将细粒度适配引导至高度灵活的长尾谱坐标。 |
| HANDOFF:基于蒸馏互补教师的人形智能体任务空间全身控制 |
Lizhi Yang |
2026-06-04 |
PDF |
人形机器人在现实世界部署时,指令空间(即任务规划与全身控制之间的接口)的选择至关重要。现有全身控制器通常需要规划器难以从任务语义中生成的密集运动学或空间参考。我们提出一种紧凑、显式的接口,具备直观性、通用性、模块化特性,且表达能力足以应对多样化操作技能。为此,我们引入HANDOFF——遵循该接口的单一全身控制器,通过多教师KL蒸馏与上下文条件门控机制,将三位互补专家(安全滤波数据驱动的全身运动追踪、行走控制、跌倒恢复)蒸馏为混合专家学生模型。在Unitree G1平台上,HANDOFF实现了与最先进速度追踪相当的性能,并提供了目前最大的鲁棒操作工作空间之一。我们进一步通过多个自然语言驱动的任务执行验证硬件可行性,该系统由VLM驱动的智能规划器支持,无需任务特定数据或控制器微调。 |
| Code2LoRA:软件演化下代码语言模型的超网络生成适配器 |
Liliana Hotsko |
2026-06-04 |
PDF |
代码语言模型需要仓库级别的上下文来解决导入、API和项目约定问题。现有方法通过长输入(通过RAG或依赖分析检索)或通过每个仓库的微调和LoRA来注入这些知识——这在仓库规模上成本高昂,且对不断演变的代码库缺乏鲁棒性。我们提出Code2LoRA,一个超网络框架,能够生成仓库特定的LoRA适配器,在零推理时间令牌开销下有效注入仓库知识。Code2LoRA支持两种使用场景:Code2LoRA-Static将单个仓库快照转换为适配器,适用于稳定代码库的理解;而Code2LoRA-Evo维护一个由GRU隐藏状态支持的适配器,该状态随每次代码差异更新,适用于活跃开发的演变代码库。为了评估Code2LoRA与参数高效微调基线的对比,我们构建了RepoPeftBench,一个包含604个Python仓库的基准测试,包含两个赛道:静态赛道包含40K训练和12K测试断言补全任务,演变赛道包含215K提交衍生训练和87K提交衍生测试任务。在静态赛道上,Code2LoRA-Static实现了63.8%的跨仓库和66.2%的仓库内精确匹配,达到了每个仓库LoRA的上限;在演变赛道上,Code2LoRA-Evo实现了60.3%的跨仓库精确匹配(比单个共享LoRA高出5.2个百分点)。Code2LoRA的代码可在https://anonymous.4open.science/r/code2lora-6857找到;模型检查点和RepoPeftBench数据集可在https://huggingface.co/code2lora找到。 |
| TempoVLA:学习速度可控的视觉-语言-动作策略 |
Dong Jing |
2026-06-04 |
PDF |
机器人操作在低风险过渡阶段需要快速执行,而在高风险接触阶段则需要缓慢精确的运动。然而,现有的视觉-语言-动作模型(VLAs)仅从训练演示中继承单一固定速度。先前通过模型压缩、KV缓存复用或强化学习加速VLA的努力,仅将策略从一种固定速度切换至另一种,几乎未探索减速机制。我们观察到每个预测动作的幅度已能控制机器人移动速度,这为可控执行速度提供了直接路径。基于此发现,我们提出TempoVLA——一种通过显式条件控制执行速度的单一VLA模型。TempoVLA包含两个耦合组件:(1)数据端的可变速度轨迹增强(VSTA),通过合并或拆分动作将演示重新定时至任意目标速度,同时保留运动语义;(2)模型端的速度条件机制,将速度信息输入策略。统计显示VSTA能以可忽略的运动误差达到指定速度。仿真与真实任务实验表明,TempoVLA实现了双向灵活速度控制,而VSTA通过更优数据利用进一步提升了默认1倍速性能。此外,通过与大型多模态模型协作,TempoVLA实现了动态速度控制——在低风险阶段加速,在高风险阶段减速。 |
| 在重复博弈中与自适应对手进行遗憾最小化 |
Mingyang Liu |
2026-06-04 |
PDF |
本文研究在与能够基于历史对局做出反应的适应性对手进行重复博弈时的遗憾最小化问题。在线学习中标准的外部遗憾指标已知无法捕捉这种适应性。为刻画玩家的反事实推理,我们引入重复策略遗憾(RP-Regret)这一博弈论指标,该指标衡量当所有玩家都能对历史对局做出反应时,实际累积效用与事后最优累积效用之间的差异。与现有该场景下的遗憾概念相比,我们的指标更契合重复博弈特性,能在保持所有玩家最小化该指标时发现更优均衡可能性的同时,允许更强的比较对象和约束更少的对手。我们首先确定了实现时间次线性RP-Regret的必要条件,涉及遗憾定义中玩家比较策略的变异性,以及比较对象与对手策略的记忆长度。随后研究最小化RP-Regret的附加条件和可证明算法——该指标在策略空间上天然具有非凸性。为应对这一挑战,我们提出三种算法:(i) 基于优化预言机的方法(类似部分在线非凸学习先验工作的假设);(ii) 每次迭代最小化RP-Regret的凸线性化代理函数;(iii) 在对手策略缓慢变化时直接最小化RP-Regret。此外,当所有玩家都能运行最小化RP-Regret(或其线性化变体)的算法时,可学习到重复博弈的某些子博弈完美均衡。实验表明,最小化我们的遗憾指标能在猎鹿博弈等场景中引导出更高效用的合作解。 |
| PAR3D:一种具有部件感知表示的统一三维多模态大语言模型,用于场景理解 |
Shaohui Dai |
2026-06-04 |
PDF |
近期,三维多模态大语言模型(3D-MLLMs)的进展为三维场景理解任务提供了统一解决方案,涵盖视觉问答、描述生成及指代分割等。然而,现有3D-MLLMs仍以物体为中心,难以建模对三维环境具身交互至关重要的细粒度部件结构。本文提出PAR3D——一种统一的部件感知三维多模态大语言模型框架,使模型能够理解、推理并定位三维场景中的物体及其部件。为支持部件感知三维场景理解的训练与评估,我们构建了ScenePart数据集,该合成三维场景数据集包含部件级标注与语言指令。我们进一步开发了部件感知三维表征学习,以细粒度部件级语义丰富三维视觉表征,并提出层级化分割查询生成机制,通过层级化物体-部件查询定位部件目标。大量实验表明,本方法显著提升了部件级问答与指代分割性能,同时在物体级视觉语言任务中保持强劲表现。 |
| 操作引导的渐进式人机文本转换基准:面向多粒度AI文本检测 |
Sondos Mahmoud Bsharat |
2026-06-04 |
PDF |
随着AI写作助手日益融入实际的起草与修订工作流程,许多文档不再纯粹由人类或AI独立完成,而是人类与AI渐进式协同编辑的产物。然而,现有AI文本检测基准主要聚焦于最终输出结果,对AI作者身份信号如何在修订过程中产生、累积或消失的理解十分有限。我们提出OpAI-Bench,一个操作引导的基准测试,用于研究从人类到AI文本在文档、句子、词元和跨度粒度上的渐进式转化。OpAI-Bench以人类撰写的文档为起点,在预定义的AI覆盖级别和五种代表性AI编辑操作下,为每个样本构建九个顺序修订版本,覆盖四个领域,同时保留多个粒度下的完整作者身份溯源。该基准支持对8个文档级检测器、7个句子级检测器和2个细粒度词元/跨度级检测器进行全面评估。实验表明,AI文本的可检测性不仅受AI编辑内容比例的影响,还受编辑操作、领域和累积修订历史的影响。有趣的是,我们注意到混合作者身份的中间版本往往比完全人类撰写或高度AI编辑的端点版本更难检测,揭示了现有基准未能捕捉的非单调检测模式。OpAI-Bench为分析在现实渐进式编辑场景下,AI辅助写作是否、何时以及如何变得可检测提供了受控测试平台。我们的代码和基准可在https://github.com/VILA-Lab/OpAI-Bench获取。 |
| DNQ:面向部分可观测n人博弈的深度纳什Q网络 |
Qintong Xie |
2026-06-04 |
PDF |
许多现实世界的竞争系统要求多个决策者在共享约束、有限信息和重复互动下同时行动,例如拍卖、资源分配和安全竞争。我们以多轮同步竞价作为此类问题的受控测试平台,并提出DNQ——一种基于求解器在环的均衡监督框架,用于训练竞价智能体。DNQ交替进行轨迹收集、基于评论家的收益估计、均衡计算和策略模仿。在每个访问状态中,共享评论家预测成对收益矩阵或精确的N玩家收益张量,外部求解器计算均衡策略,智能体通过最小化其掩码策略与求解器推导的均衡目标之间的KL散度进行训练。我们聚焦于可扩展的成对公式,与精确公式相比,该公式大幅降低了均衡求解成本和训练时间,同时共享评论家跨智能体和状态分摊收益学习。实验通过评论家损失、策略熵、竞价资源使用和训练成本对比了成对变体和精确变体,结果表明成对方法可扩展至更多智能体,而精确方法在联合博弈规模增长时变得计算上不可行。这些结果揭示了重复竞争环境中策略保真度与可扩展性之间的权衡。 |
| 无需递归的预训练递归网络 |
Akarsh Kumar |
2026-06-04 |
PDF |
训练循环神经网络(RNN)需要跨长序列计算进行信用分配。标准的时间反向传播(BPTT)在此问题上表现不佳:其时间顺序性限制了并行计算能力,且存在梯度消失或爆炸问题,导致难以学习长程关联。我们提出监督记忆训练(SMT)方法,通过将RNN训练简化为单步记忆转换标签$(m_t, x_{t+1}) \rightarrow m_{t+1}$上的监督学习,完全规避了循环信用传播。SMT通过训练基于Transformer的编码器实现预测状态目标——仅保留预测未来所需的过去信息——来获取这些记忆标签。通过解耦"记忆内容"与"记忆更新方式",SMT实现了时间并行的RNN训练,任意两个token间具有稳定的$O(1)$长度梯度路径——全程无需展开RNN。实验表明,在语言建模和像素序列建模等任务上预训练多种RNN架构时,SMT性能优于BPTT。该方法使非线性RNN能更好地捕捉长程依赖关系并实现并行训练,有望解锁构建过去经验时间抽象模型的规模化能力。 |
| 复杂度平衡扩散分裂 |
Noam Issachar |
2026-06-04 |
PDF |
标准连续时间生成模型依赖单一架构,必须处理从各向同性噪声到复杂数据分布等差异极大的信号状态。虽然扩大模型容量能提升性能,但将庞大的网络均匀部署在整个生成时间线上本质上效率低下。本文提出复杂度均衡分割(CBS),这是一种基于原则的时间容量分配框架,通过多个专用子网络分担生成工作负载。CBS基于函数逼近理论和de Boor等分布原理,将扩散时间线划分为近似负担相等的片段,将更多表征容量分配给生成动力学更难建模的区域。为估计局部复杂度,我们引入两种互补且易处理的监控函数:基于流狄利克雷能量的空间度量,以及基于采样轨迹加速度的几何度量。通过轻量级辅助模型估计这些复杂度分布,我们的方法无需启发式时间分割或计算昂贵的搜索过程。在多种架构(SiT、JiT和UNet)和数据集上的广泛评估表明,CBS在不增加每步推理成本的情况下持续提升合成质量。特别地,在带CFG的SiT-XL上,CBS相比朴素时间分割将FID改善了约35%。项目页面见https://noamissachar.github.io/CBS/。 |