| TailLoR:在参数高效持续学习中保护主成分 |
Marius Dragoi |
2026-06-04 |
PDF |
基于谱分解的参数高效微调方法推动了持续学习的发展。本文提出TailLoR方法,利用预训练权重的奇异基U和V作为固定参考框架,学习应用于奇异值矩阵的低秩更新。软谱惩罚机制抑制与主导奇异方向对齐的更新,在减少干扰的同时将细粒度适应引导至高度灵活的长尾谱坐标中。 |
| HANDOFF:基于蒸馏互补教师的人形机器人任务空间全身控制 |
Lizhi Yang |
2026-06-04 |
PDF |
人形机器人在现实世界中部署时,指令空间(即任务规划与全身控制之间的接口)的选择至关重要。现有全身控制器通常需要规划器难以从任务语义中生成的密集运动学或空间参考。我们提出一种紧凑、显式的接口,具备直观性、通用性、模块化特性,且表达能力足以应对多样化操作技能。为此,我们引入HANDOFF——遵循该接口的单一全身控制器,通过多教师KL散度蒸馏与上下文条件门控机制,将三位互补专家(基于安全滤波数据的全身运动追踪、步态控制、跌倒恢复)的知识蒸馏为混合专家学生模型。在Unitree G1平台上,HANDOFF实现了与最先进速度追踪相当的性能,并提供了当前最大的鲁棒操作工作空间之一。我们进一步通过多个自然语言驱动的任务推演验证了硬件可行性,该过程由基于VLM的智能体规划器驱动,无需任务特定数据或控制器微调。 |
| Code2LoRA:软件演化下代码语言模型的超网络生成适配器 |
Liliana Hotsko |
2026-06-04 |
PDF |
代码语言模型需要仓库级别的上下文来解决导入、API和项目约定问题。现有方法通过长输入(通过RAG或依赖分析检索)或通过每个仓库的微调和LoRA注入这些知识——这在仓库规模下成本高昂,且对不断演变的代码库脆弱。我们提出Code2LoRA,一个超网络框架,生成仓库特定的LoRA适配器,有效注入仓库知识且推理时无额外token开销。Code2LoRA支持两种使用场景:Code2LoRA-Static将单个仓库快照转换为适配器,适用于稳定代码库的理解;而Code2LoRA-Evo维护一个由GRU隐藏状态(按代码差异更新)支持的适配器,适用于活跃开发的演变代码库。为评估Code2LoRA与参数高效微调基线的对比,我们构建了RepoPeftBench,一个包含604个Python仓库的基准测试,设有两个赛道:静态赛道包含4万训练和1.2万测试断言补全任务,演变赛道包含21.5万次提交衍生的训练和8.7万次提交衍生的测试任务。在静态赛道上,Code2LoRA-Static实现63.8%跨仓库和66.2%仓库内精确匹配,达到每个仓库LoRA的上限;在演变赛道上,Code2LoRA-Evo实现60.3%跨仓库精确匹配(比单一共享LoRA高5.2个百分点)。Code2LoRA的代码可在https://anonymous.4open.science/r/code2lora-6857获取;模型检查点和RepoPeftBench数据集可在https://huggingface.co/code2lora获取。 |
| TempoVLA:学习速度可控的视觉-语言-动作策略 |
Dong Jing |
2026-06-04 |
PDF |
机器人操作在低风险过渡阶段(需快速执行)与高风险接触阶段(需慢速精确运动)之间交替切换。然而现有视觉-语言-动作模型仅继承训练演示中的单一固定速度。此前通过模型压缩、KV缓存复用或强化学习加速VLA的尝试,仅将策略从一种固定速度迁移至另一种,几乎未探索减速机制。我们观察到每个预测动作的幅值已决定机器人移动速度,这为可控执行速度开辟了直接路径。基于此发现提出TempoVLA——通过显式条件控制执行速度的单一VLA模型。TempoVLA包含两个耦合组件:(1) 数据端可变速度轨迹增强模块,通过合并或拆分动作将演示重新定时至任意目标速度,同时保留运动语义;(2) 模型端条件机制,将速度参数输入策略网络。统计显示VSTA在达到目标速度时运动误差可忽略。仿真与真实任务实验表明,TempoVLA实现双向灵活速度控制,同时VSTA通过更优数据利用率提升默认1倍性能。此外,与大型多模态模型协同工作时,TempoVLA可实现动态速度控制:在低风险阶段加速,高风险阶段减速。 |
| 在重复博弈中与自适应对手进行遗憾最小化 |
Mingyang Liu |
2026-06-04 |
PDF |
本文研究在与能基于历史对局做出反应的适应性对手进行重复博弈时的遗憾最小化问题。在线学习中标准的外部遗憾指标已知无法捕捉这种适应性。为考虑玩家的反事实推理,我们引入重复策略遗憾(RP-Regret)这一博弈论指标,该指标衡量当所有玩家都能对历史对局做出反应时,实际累积效用与事后最优累积效用之间的差异。相较于该领域现有遗憾概念,我们的指标更契合重复博弈场景,能在维持所有玩家最小化该指标时发现更优均衡可能性的同时,允许更强的比较对象和约束更少的对手。我们首先识别出实现时间次线性RP-Regret的必要条件,这些条件涉及遗憾定义中玩家比较策略的变异性,以及比较对象与对手策略的记忆长度。随后研究最小化RP-Regret的附加条件和可证明算法——该指标在策略空间上天然具有非凸性。为应对这一挑战,我们提出三种算法:(i) 基于优化预言机的算法(类似部分在线非凸学习研究的假设);(ii) 每次迭代最小化RP-Regret凸线性化代理的算法;(iii) 在对手策略缓慢变化时直接最小化RP-Regret的算法。此外,当所有玩家都能运行最小化RP-Regret(或其线性化变体)的算法时,重复博弈的某些子博弈完美均衡可被学习。实验表明,最小化我们的遗憾指标能在猎鹿博弈等场景中引导出更高效用的合作解。 |
| PAR3D:一种面向场景理解、具有部件感知表示的统一3D-MLLM |
Shaohui Dai |
2026-06-04 |
PDF |
近期,三维多模态大语言模型(3D-MLLMs)的进展为三维场景理解任务提供了统一解决方案,涵盖视觉问答、描述生成及指代分割等方向。然而,现有3D-MLLMs仍以物体为中心,难以建模对三维环境具身交互至关重要的细粒度部件结构。本文提出PAR3D——一种统一的部件感知三维多模态大语言模型框架,使模型能够理解、推理并定位三维场景中的物体及其部件。为支持部件感知三维场景理解的训练与评估,我们构建了ScenePart数据集,该合成三维场景数据集包含部件级标注与语言指令。我们进一步开发了部件感知三维表征学习,以细粒度部件语义增强三维视觉表征,并提出层级化分割查询生成机制,通过层级化物体-部件查询实现部件目标的定位。大量实验表明,本方法显著提升了部件级问答与指代分割性能,同时在物体级视觉语言任务中保持强劲表现。 |
| 操作引导的渐进式人机文本转换基准:面向多粒度AI文本检测 |
Sondos Mahmoud Bsharat |
2026-06-04 |
PDF |
随着AI写作助手日益融入实际的起草与修订流程,许多文档不再纯粹由人类或AI独立完成,而是人类与AI渐进式协作编辑的产物。然而,现有AI文本检测基准主要聚焦于最终输出,对AI作者身份信号如何在修订过程中产生、累积或消失的理解十分有限。我们提出OpAI-Bench,一个基于操作引导的基准,用于研究从人类到AI文本在文档、句子、词元和跨度粒度上的渐进式转化。OpAI-Bench以人类撰写的文档为起点,在预定义的AI覆盖级别和五种代表性AI编辑操作下,为每个样本构建九个连续修订版本,覆盖四个领域,并在多个粒度上保留完整的作者身份溯源。该基准支持对8个文档级检测器、7个句子级检测器和2个细粒度词元/跨度级检测器进行全面评估。实验表明,AI文本的可检测性不仅受AI编辑内容比例的影响,还受编辑操作、领域和累积修订历史的影响。有趣的是,我们发现混合作者身份的中间版本往往比完全人类撰写或高度AI编辑的端点更难检测,揭示了现有基准遗漏的非单调检测模式。OpAI-Bench为分析在现实渐进式编辑场景下,AI辅助写作是否、何时以及如何变得可检测提供了受控测试平台。我们的代码和基准可在https://github.com/VILA-Lab/OpAI-Bench获取。 |
| DNQ:面向部分可观测多人博弈的深度纳什Q网络 |
Qintong Xie |
2026-06-04 |
PDF |
许多现实世界的竞争系统要求多个决策者在共享约束、有限信息和重复互动下同时行动,例如拍卖、资源分配和安全竞争。我们以多轮同步竞价作为此类问题的受控测试平台,并提出DNQ——一种基于求解器在环的均衡监督框架,用于训练竞价智能体。DNQ交替进行轨迹收集、基于评论家的收益估计、均衡计算和策略模仿。在每个访问状态中,共享评论家预测成对收益矩阵或精确的N玩家收益张量,外部求解器计算均衡策略,智能体通过最小化其掩码策略与求解器推导的均衡目标之间的KL散度进行训练。我们聚焦于可扩展的成对公式,与精确公式相比,该公式大幅降低了均衡求解成本和训练时间,同时共享评论家跨智能体和状态分摊了收益学习。实验通过评论家损失、策略熵、竞价资源使用和训练成本对比了成对变体和精确变体,结果表明成对方法可扩展至更多智能体,而精确方法在联合博弈规模增长时变得计算上不可行。这些结果揭示了重复竞争环境中策略保真度与可扩展性之间的权衡。 |
| 无需递归的预训练循环网络 |
Akarsh Kumar |
2026-06-04 |
PDF |
训练循环神经网络(RNN)需要跨长序列计算进行信用分配。标准的时间反向传播(BPTT)在此问题上表现不佳:其时间维度上的顺序性限制了并行计算能力,且存在梯度消失或爆炸问题,导致难以学习长程关联。我们提出监督记忆训练(SMT),该方法通过将RNN训练简化为单步记忆转换标签$(m_t, x_{t+1}) \rightarrow m_{t+1}$上的监督学习,完全规避了循环信用传播。SMT通过训练基于Transformer的编码器实现预测状态目标——仅保留预测未来所需的过去信息——来获取这些记忆标签。通过解耦"记忆内容"与"记忆更新方式",SMT实现了时间并行RNN训练,任意两个token间具有稳定的$O(1)$长度梯度路径——全程无需展开RNN。实验表明,在语言建模和像素序列建模等任务上预训练多种RNN架构时,SMT性能优于BPTT。SMT使非线性RNN能更好地捕捉长程依赖并实现并行训练,有望解锁构建过去经验时间抽象模型的规模化能力。 |
| 复杂度平衡扩散分裂 |
Noam Issachar |
2026-06-04 |
PDF |
标准连续时间生成模型依赖于单一架构,必须处理从各向同性噪声到复杂数据分布等差异极大的信号状态。虽然扩大模型容量能提升性能,但在整个生成时间线上均匀部署大规模网络本质上效率低下。本文提出复杂度平衡分割(CBS),这是一个基于原则的时间容量分配框架,通过多个专用子网络分布生成工作负载。CBS基于函数逼近理论和de Boor等分布原理,将扩散时间线划分为近似负担相等的片段,将更多表征容量分配给生成动力学更难建模的区域。为估计局部复杂度,我们引入两种互补且易处理的监控函数:基于流Dirichlet能量的空间度量,以及基于采样轨迹加速度的几何度量。通过轻量级辅助模型估计这些复杂度分布,我们的方法无需启发式时间分割或计算昂贵的搜索过程。在多种架构(SiT、JiT和UNet)和数据集上的广泛评估表明,CBS在不增加单步推理成本的情况下持续提升合成质量。特别地,在带CFG的SiT-XL上,CBS相比朴素时间分割将FID改进了约35%。项目页面见https://noamissachar.github.io/CBS/。 |