| TailLoR:在参数高效持续学习中保护主成分 |
Marius Dragoi |
2026-06-04 |
PDF |
基于谱分解的参数高效微调方法推动了持续学习的发展。本文提出TailLoR方法,利用预训练权重的奇异基U和V作为固定参考框架,学习应用于奇异值矩阵的低秩更新。软谱惩罚机制抑制与主导奇异方向对齐的更新,在减少干扰的同时将细粒度适配引导至高度灵活的长尾谱坐标中。 |
| HANDOFF:基于蒸馏互补教师的人形机器人任务空间全身控制 |
Lizhi Yang |
2026-06-04 |
PDF |
人形机器人要在现实世界中部署,指令空间(即任务规划与全身控制之间的接口)的选择至关重要。现有全身控制器通常需要规划器难以从任务语义中生成的密集运动学或空间参考。我们提出一种紧凑、显式的接口,该接口直观、通用、模块化且具有足够的表现力,可支持多种操作技能。为此,我们引入HANDOFF——一种遵循该接口的单一全身控制器,通过多教师KL蒸馏,在上下文条件门控机制下,从三个互补专家(基于安全过滤数据的全身运动追踪、行走和跌倒恢复)中蒸馏出混合专家学生模型。在Unitree G1上,HANDOFF达到了最先进的速度追踪性能,并提供了最大的鲁棒操作工作空间之一。我们进一步通过多个自然语言驱动的任务执行演示了硬件可行性,这些任务由VLM驱动的智能规划器支持,无需特定任务数据或控制器微调。 |
| Code2LoRA:软件演化下代码语言模型的超网络生成适配器 |
Liliana Hotsko |
2026-06-04 |
PDF |
代码语言模型需要仓库级别的上下文来解决导入、API调用和项目约定问题。现有方法通过长输入(通过RAG或依赖分析检索)或通过每个仓库的微调和LoRA注入这些知识——这在仓库规模下成本高昂,且对不断演变的代码库适应性差。我们提出Code2LoRA,一个超网络框架,能够生成仓库特定的LoRA适配器,在零推理时令牌开销下有效注入仓库知识。Code2LoRA支持两种使用场景:Code2LoRA-Static将单个仓库快照转换为适配器,适用于理解稳定的代码库;而Code2LoRA-Evo维护一个由GRU隐藏状态支持的适配器,该状态随每次代码差异更新,适用于活跃开发的演进代码库。为评估Code2LoRA与参数高效微调基线的性能,我们构建了RepoPeftBench,一个包含604个Python仓库的基准测试,设有两个赛道:静态赛道包含4万训练和1.2万测试的断言补全任务,演进赛道包含21.5万次提交衍生的训练和8.7万次提交衍生的测试任务。在静态赛道上,Code2LoRA-Static实现了63.8%的跨仓库和66.2%的仓库内精确匹配,达到了每个仓库LoRA的上限;在演进赛道上,Code2LoRA-Evo实现了60.3%的跨仓库精确匹配(比单个共享LoRA高出5.2个百分点)。Code2LoRA的代码可在https://anonymous.4open.science/r/code2lora-6857获取;模型检查点和RepoPeftBench数据集可在https://huggingface.co/code2lora获取。 |
| TempoVLA:学习速度可控的视觉-语言-动作策略 |
Dong Jing |
2026-06-04 |
PDF |
机器人操作在低风险过渡阶段需要快速执行,而在高风险接触阶段则要求缓慢精确的运动。然而,现有的视觉-语言-动作模型(VLAs)仅从训练演示中继承单一固定速度。先前通过模型压缩、KV缓存复用或强化学习加速VLA的努力,仅将策略从一种固定速度切换至另一种,几乎未涉及减速机制。我们观察到每个预测动作的幅度已能控制机器人移动速度,这为可控执行速度提供了直接路径。基于此发现,我们提出TempoVLA——一种通过显式条件控制执行速度的单一VLA模型。TempoVLA包含两个耦合组件:(1)数据侧的变速轨迹增强模块(VSTA),通过合并或拆分动作将演示重新定时至任意目标速度,同时保持运动语义;(2)模型侧的条件机制,将速度信息输入策略网络。统计显示VSTA能以可忽略的运动误差达到指定速度。仿真与真实任务实验表明,TempoVLA实现了双向灵活速度控制,而VSTA通过更优数据利用进一步提升了默认1倍速性能。此外,与大型多模态模型协同工作时,TempoVLA可实现动态速度控制:在低风险阶段加速,在高风险阶段减速。 |
| 在重复博弈中与自适应对手进行遗憾最小化 |
Mingyang Liu |
2026-06-04 |
PDF |
本文研究在具有自适应对手的重复博弈中的遗憾最小化问题,对手能根据博弈历史做出反应。在线学习中标准的外部遗憾指标已知无法捕捉这种适应性。为考虑玩家的反事实推理,我们提出重复策略遗憾(RP-Regret)这一博弈论指标,该指标衡量当所有玩家都能对博弈历史做出反应时,实际累积效用与事后最优累积效用之间的差异。与现有该场景下的遗憾概念相比,我们的指标更契合重复博弈特性,能在保持所有玩家最小化该指标时发现更优均衡可能性的同时,支持更强的比较对象和约束更少的对手。我们首先确定了在时间上实现次线性RP-Regret的必要条件,这些条件涉及遗憾定义中玩家比较策略的变化幅度,以及比较对象和对手策略的记忆长度。随后我们研究了最小化RP-Regret的附加条件和可证明算法——该指标在策略空间中天然具有非凸性。为应对这一挑战,我们提出三种算法:(i)基于优化预言机的算法(类似部分在线非凸学习先前工作的假设);(ii)每次迭代最小化RP-Regret的凸线性化替代函数的算法;(iii)当对手策略缓慢变化时直接最小化RP-Regret的算法。此外,当所有玩家都能运行最小化RP-Regret(或其线性化变体)的算法时,重复博弈的某些子博弈完美均衡可被学习。实验表明,最小化我们的遗憾指标能在猎鹿博弈等场景中引导出更高效用的合作解。 |
| PAR3D:一种具有部件感知表示的统一三维多模态大语言模型,用于场景理解 |
Shaohui Dai |
2026-06-04 |
PDF |
近期,三维多模态大语言模型(3D-MLLMs)的进展为三维场景理解任务(包括视觉问答、描述生成和指代分割)提供了统一解决方案。然而,现有3D-MLLMs仍以物体为中心,难以建模对三维环境具身交互至关重要的细粒度部件结构。本文提出PAR3D——一个统一的部件感知三维多模态大语言模型框架,使模型能够理解、推理并定位三维场景中的物体及其部件。为支持部件感知三维场景理解的训练与评估,我们构建了ScenePart——一个包含部件级标注和语言指令的合成三维场景数据集。我们进一步开发了部件感知三维表征学习,以细粒度部件级语义丰富三维视觉表征,并提出层级分割查询生成机制,通过层级化物体-部件查询定位部件目标。大量实验表明,本方法显著提升了部件级问答与指代分割性能,同时在物体级视觉-语言任务中保持优异表现。 |
| 操作引导的渐进式人机文本转换基准:面向多粒度AI文本检测 |
Sondos Mahmoud Bsharat |
2026-06-04 |
PDF |
随着AI写作助手越来越多地融入实际的起草和修订流程,许多文档不再纯粹由人类或AI单独完成,而是人类与AI渐进式协作编辑的产物。然而,现有的AI文本检测基准主要关注最终输出,对AI作者身份信号在修订过程中如何产生、累积或消失的理解十分有限。我们提出OpAI-Bench,一个基于操作引导的基准,用于研究从人类到AI文本在文档、句子、词元和跨度粒度上的渐进式转换。OpAI-Bench从人类撰写的文档出发,在预定义的AI覆盖级别和五种代表性AI编辑操作下,为每个样本构建九个顺序修订版本,涵盖四个领域,同时保留多个粒度下的完整作者身份溯源。该基准支持对8个文档级检测器、7个句子级检测器和2个细粒度词元/跨度级检测器进行全面评估。实验表明,AI文本的可检测性不仅受AI编辑内容比例的影响,还受编辑操作、领域和累积修订历史的影响。有趣的是,我们注意到混合作者身份的中间版本往往比完全人类撰写或大量AI编辑的端点版本更难检测,这揭示了现有基准未能捕捉的非单调检测模式。OpAI-Bench为分析在现实渐进式编辑场景下AI辅助写作是否、何时以及如何变得可检测提供了受控测试平台。我们的代码和基准可在https://github.com/VILA-Lab/OpAI-Bench获取。 |
| DNQ:面向部分可观测n人博弈的深度纳什Q网络 |
Qintong Xie |
2026-06-04 |
PDF |
许多现实世界的竞争系统要求多个决策者在共享约束、有限信息和重复互动下同时行动,例如拍卖、资源分配和安全竞争。我们以多轮同步竞价为受控测试平台研究此类问题,并提出DNQ——一种基于求解器在环的均衡监督框架,用于训练竞价智能体。DNQ交替进行轨迹收集、基于评论家的收益估计、均衡计算和策略模仿。在每个访问状态中,共享评论家预测成对收益矩阵或精确的N玩家收益张量,外部求解器计算均衡策略,智能体通过最小化其掩码策略与求解器推导的均衡目标之间的KL散度进行训练。我们聚焦于可扩展的成对公式,与精确公式相比,该公式大幅降低均衡求解成本和训练时间,同时共享评论家跨智能体和状态分摊收益学习。实验通过评论家损失、策略熵、竞价资源使用和训练成本对比成对变体与精确变体,结果表明成对方法可扩展至更多智能体,而精确方法在联合博弈规模增长时变得计算上不可行。这些结果揭示了重复竞争环境中策略保真度与可扩展性之间的权衡。 |
| 无需递归的预训练循环网络 |
Akarsh Kumar |
2026-06-04 |
PDF |
训练循环神经网络(RNN)需要在整个长序列计算过程中分配信用。标准的时间反向传播(BPTT)在此问题上表现不佳:其时间维度上的顺序性限制了并行性,且存在梯度消失或爆炸问题,导致难以学习长程关联。我们提出监督记忆训练(SMT),该方法通过将RNN训练简化为单步记忆转换标签$(m_t, x_{t+1}) \rightarrow m_{t+1}$上的监督学习,完全规避了循环信用传播。SMT通过训练基于Transformer的编码器实现预测状态目标——仅保留预测未来所需的过去信息——来获取这些记忆标签。通过解耦"记忆什么"与"如何更新记忆",SMT实现了时间并行的RNN训练,任意两个token间具有稳定的$O(1)$长度梯度路径——且无需展开RNN。我们发现,在语言建模和像素序列建模等任务上预训练各类RNN架构时,SMT的性能优于BPTT。SMT使非线性RNN能够更好地捕捉长程依赖关系并进行并行训练,这为构建过去经验时间抽象模型的规模化发展提供了可能。 |
| 复杂度平衡扩散分裂 |
Noam Issachar |
2026-06-04 |
PDF |
标准连续时间生成模型依赖单一架构,必须处理从各向同性噪声到复杂数据分布等差异极大的信号状态。虽然扩大模型容量能提升性能,但在整个生成时间线上均匀部署大规模网络本质上效率低下。本文提出复杂度均衡分割(CBS),这是一种基于原则的时间容量分配框架,通过多个专用子网络分配生成工作负载。CBS基于函数逼近理论和de Boor等分布原理,将扩散时间线划分为近似负担相等的片段,为生成动力学建模更困难的区域分配更多表征容量。为估计局部复杂度,我们引入两种互补且易处理的监控函数:基于流Dirichlet能量的空间度量,以及基于采样轨迹加速度的几何度量。通过轻量级辅助模型估计这些复杂度分布,该方法无需启发式时间分割或计算昂贵的搜索过程。在多种架构(SiT、JiT和UNet)和数据集上的广泛评估表明,CBS在不增加单步推理成本的情况下持续提升合成质量。特别地,在带CFG的SiT-XL上,CBS相比朴素时间分割将FID提升约35%。项目页面见https://noamissachar.github.io/CBS/。 |