| EvoArena:在动态环境中追踪记忆演化以实现鲁棒的大语言模型智能体 |
Jundong Xu |
2026-06-11 |
PDF |
大型语言模型(LLM)智能体在多项基准测试中展现出强劲性能,但多数评估仍假设静态环境。相比之下,现实部署本质上是动态的,要求智能体持续调整其知识、技能和行为以适应变化的环境与更新的任务条件。为填补这一空白,我们提出EvoArena——一个将环境变化建模为终端、软件和社交领域渐进式更新序列的基准套件。我们进一步提出EvoMem,一种基于补丁的记忆范式,将记忆演化记录为结构化的更新历史,使智能体能够通过记忆变化推理环境演化。实验表明,当前智能体在EvoArena上表现不佳,在演化的终端、软件和社交偏好领域平均准确率仅39.6%。EvoMem持续提升性能,在EvoArena上平均提升1.5%,同时将GAIA和LoCoMo等标准基准测试分别提升6.1%和4.8%。除单个任务外,EvoMem还将EvoArena上的链级准确率提升3.7%,该场景要求成功完成一系列连续相关的演化子任务。机制分析显示,EvoMem改善了记忆中的证据捕获能力,表明能更完整地保留演化环境状态。我们的结果凸显了在评估和记忆中对演化建模对于可靠智能体部署的重要性。 |
| 通过检索增强的强化微调学习类比推理 |
Zilin Xiao |
2026-06-11 |
PDF |
检索增强生成(RAG)已成为将语言模型锚定于外部知识的标准机制,但基于词汇或语义相似性的传统检索方法难以胜任复杂推理任务:语义相似的问题可能需要完全不同的解决策略,而表面不同的问题却可能共享相同的底层推理模式。我们提出检索增强强化微调(RA-RFT),这是一种通过类比推理训练语言模型的后训练框架。RA-RFT利用黄金相关性蒸馏训练检索器,使其根据预期推理收益而非语义重叠对上下文进行排序,随后通过强化微调方法结合检索到的类比演示对策略模型进行微调,使模型学会在可验证结果奖励下利用推理轨迹。我们进一步分析了检索上下文的多样性,发现推理感知检索能呈现互补的解决策略,为不同问题提供独特的推理支架。在具有挑战性的数学推理基准测试中,RA-RFT始终优于标准强化微调方法。例如,在AIME 2025平均@32准确率上,针对Qwen3-1.7B和Qwen3-4B模型,RA-RFT分别比GRPO提升7.1和2.8个百分点——这表明推理感知检索是独立的改进维度,与奖励设计或训练课程方面的进展正交。 |
| InterleaveThinker:强化智能体交错生成 |
Dian Zheng |
2026-06-11 |
PDF |
近期图像生成器在单图生成与编辑中展现出惊人的照片真实感与指令遵循能力。然而受限于架构设计,它们无法实现交错生成(文本-图像序列),而这一能力在视觉叙事、引导与具身操控中具有关键应用。即便最新的开源统一多模态模型在此方面表现也有限。本文提出InterleaveThinker——首个旨在赋予任意现有图像生成器交错生成能力的多智能体流水线。具体而言,我们采用规划智能体组织图像-文本输入序列,指导图像生成器执行每一步所需操作。随后引入批评智能体评估生成器输出,识别偏离规划指令的样本,并优化指令以重新生成。为实现该流水线,我们构建了Interleave-Planner-SFT-80k与Interleave-Critic-SFT-112k数据集进行格式冷启动,进而开发Interleave-Critic-RL-13k数据集,利用GRPO强化生成轨迹内逐步指令修正能力。由于单次交错生成轨迹可能涉及超过25次生成器调用,优化完整轨迹在计算上不可行。因此我们提出准确率奖励与逐步奖励,使单步强化学习能有效引导整个生成轨迹。实验表明,InterleaveThinker提升了多种图像生成器的性能。在交错生成基准测试中,其表现与Nano Banana及GPT-5相当。令人惊讶的是,该方法在基于推理的基准测试中也显著增强了基础模型——例如在4步FLUX.2-klein上,我们在WISE与RISE指标中观察到大幅提升。 |
| Mana:灵巧操作关节工具 |
Zhao-Heng Yin |
2026-06-11 |
PDF |
关节工具操作由于需要协调内部自由度与接触丰富的交互,仍是灵巧机器人领域的主要挑战。尽管先前研究主要聚焦于刚体物体,但关节工具的使用因其物理复杂性以及功能性抓取与操作策略的学习难度,至今仍未被充分探索。我们提出Mana(操作动画师),这是一个通用的仿真到现实框架,将灵巧操作重新诠释为动画问题。受计算机动画启发,Mana采用从粗到细的流水线,通过运动规划与强化学习,将程序化生成的抓取关键帧转化为操作轨迹。数据生成过程基本实现自动化,仅需数次鼠标点击即可指定功能可供性(每件工具耗时<1分钟)。在涵盖不同尺度与关节类型的四种关节工具上,Mana实现了抓取与手内操作的零样本仿真到现实迁移,为灵巧关节工具使用提供了可扩展的解决方案。 |
| 面向可扩展空间生成的模态强制 |
Bardienus Pieter Duisterhof |
2026-06-11 |
PDF |
文本到图像(T2I)模型包含丰富的空间先验知识。合成逼真且杂乱的场景需要理解几何结构,包括透视和相对尺度。先前的研究通过调整T2I模型利用这一先验进行深度预测,但需要密集的深度数据并涉及复杂的方案。我们提出模态强制(Modality Forcing),这是一种简单、可扩展的后训练方案,使用在稀疏深度数据上训练的单一DiT模型实现图像与深度的联合生成。模态强制通过为每个模态分配独立的噪声水平,支持图像和深度以任意排列进行条件生成与联合生成。每个模态的解码器使我们能够在稀疏的真实世界深度数据上训练,并实现强泛化能力的深度预测。我们进一步证明模态强制继承了T2I预训练的可扩展性:通过从头训练一组T2I模型(参数规模从3.7亿到33亿),我们发现使用更多图像数据训练的更大模型能产生更精确的深度。我们的最强模型与最先进的单目深度估计器性能相当,相比现有的图像-深度联合生成模型,绝对相对误差(AbsRel)降低了57%。这些结果有力证明,图像生成是空间感知任务中可扩展的预训练目标。https://modality-forcing.github.io/ |
| RepWAM:基于表征视觉-动作分词器的世界动作建模 |
Junke Wang |
2026-06-11 |
PDF |
本文提出RepWAM,一种基于表征视觉-动作分词器的表征中心世界动作模型。现有世界动作模型通常继承自预训练视频生成模型的重建导向分词器。尽管这些分词器能保持视觉保真度,但仅靠像素重建对学习连接未来预测与机器人控制的指令遵循动态提供的指导有限。为此,我们探索了用于表征中心世界动作建模的语义视觉-动作潜在空间。具体而言,我们训练了一个表征视觉-动作分词器,将视觉输入映射为对齐的视觉与潜在动作标记。随后预训练世界动作模型,使其在语言指令下联合建模未来视觉状态及连接这些状态的潜在动作,并通过适配真实机器人轨迹实现闭环操作。在真实世界操作任务与仿真基准上的实验表明,RepWAM在多种操作场景中均展现出强劲性能,而消融实验凸显了语义视觉-动作分词相较于重建导向方案的优越性。这些结果确立了表征视觉-动作分词作为世界动作模型的有前景基础,并朝着通用机器人策略迈进一步。代码与权重将发布于https://github.com/wdrink/RepWAM。 |
| SpatialClaw:重新思考智能体空间推理的动作接口 |
Seokju Cho |
2026-06-11 |
PDF |
空间推理——即确定物体位置、相互关系及三维运动的能力——仍是视觉语言模型(VLM)面临的基础性挑战。工具增强型代理试图通过为VLM配备专业感知模块来解决这一问题,但其有效性受限于调用这些工具的动作接口。本研究探讨了该接口设计如何塑造代理进行开放式空间推理的能力。现有空间代理要么采用单次代码执行策略(在观察到任何中间结果前就确定完整分析方案),要么依赖结构化工具调用接口(通常缺乏自由组合操作或针对任务定制分析的灵活性)。这两种设计均难以支持开放式的复杂三维/四维空间推理。为此我们提出SpatialClaw——一种无需训练的空间推理框架,采用代码作为动作接口。SpatialClaw维护着预加载输入帧及感知与几何原语集合的有状态Python内核,让基于VLM的代理能根据所有先前输出逐步骤编写可执行代码单元,从而灵活组合操作感知结果,并根据中间文本/视觉观察及具体问题需求动态调整分析策略。在涵盖静态与动态三维/四维空间推理任务的20项基准测试中,SpatialClaw取得59.9%的平均准确率,较最新空间代理提升11.2个百分点,且在两个模型家族的六种VLM骨干网络上均实现一致性提升,无需针对特定基准或模型进行适配。 |
| $\texttt{WEAVER}$:更好、更快、更长——一种有效的机器人操作世界模型 |
Arnav Kumar Jain |
2026-06-11 |
PDF |
世界模型(WMs,即学习型模拟器)对机器人技术的潜在影响深远——策略评估、策略改进和测试时规划——所有这些都只需有限的真实世界交互。为解锁这些下游能力,世界模型需同时满足三个必要条件:$\textit{(i)}$ 保真度(即生成与真实世界相关的模拟轨迹)、$\textit{(ii)}$ 一致性(即生成在长时间跨度内保持连贯的模拟轨迹)以及$\textit{(iii)}$ 效率(即快速生成模拟轨迹)。我们提出$\texttt{WEAVER}$(面向具身推理的多视角世界估计):一种同时实现这三个必要条件的世界模型架构,在机器人操作任务上取得了最先进成果。$\texttt{WEAVER}$是一种多视角世界模型,通过流匹配损失训练以预测未来潜在状态和奖励值。我们提炼了模型架构、记忆和预测目标中的关键设计决策,这些决策对于解锁此前世界建模方法难以处理的长时间动态操作任务至关重要。我们将$\texttt{WEAVER}$应用于机器人硬件,展示了其在策略评估(与真实世界成功率的相关系数$ρ$=0.870)、策略改进(在$π_{0.5}$机器人基础模型基础上真实世界成功率提升$38\%$)和测试时规划(真实世界成功率提升$14\%$,且速度较先前世界模型快$5-10$倍)方面的有效性。$\texttt{WEAVER}$在分布外场景评估中也展现出优于先前世界模型的性能。代码、模型和视频见:https://arnavkj1995.github.io/WEAVER/。 |
| 理解用于图神经网络的截断位置编码 |
James Flora |
2026-06-11 |
PDF |
位置编码(PEs)在理论和实践上均能增强图神经网络(GNNs)的能力。两类最主流的PEs——谱类(如拉普拉斯特征空间、有效电阻)和游走类(邻接矩阵的多项式)——在表达能力上理论等价,其表达能力介于1-WL与3-WL测试之间。然而,这种等价性假设GNN使用这些PEs的"完整"版本,这需要$O(n^3)$的时间和空间复杂度。实际应用中,研究者通常使用这些编码的截断变体,例如前$k$个特征空间或邻接矩阵的幂次。但截断PEs的理论性质尚不明确。本研究首次系统探究截断PEs。理论上,我们证明在截断条件下,多类PEs在表达能力上存在根本性差异。作为推论,我们表明截断谱类PEs不再强于1-WL测试。我们还研究了一类谱PEs——$k$阶调和距离,以揭示即使密切相关的截断PEs在表达能力上的差异。最后,实验证明在真实数据集上,混合使用截断PEs优于任何单一类型。 |
| 使用大型语言模型进行社会与行为科学的自动化可重复性评估 |
Tobias Holtdirk |
2026-06-11 |
PDF |
在社会科学与行为科学中,可重复性通常由独立研究人员通过重新分析原始数据来评估,以判断已发表的研究结果能否复现。然而,这类方法资源消耗大且难以规模化。本研究证明,大型语言模型(LLMs)能够自动化可重复性评估。我们选取了行为与社会科学领域N=76项已发表研究(含预设结论),将LLM生成的分析结果与原始发现及人类重新分析结果进行对比。其中7项研究中,LLM无法生成有效的效应量估计值。在其余研究中,我们的LLM流程在Cohen's d值±0.05容差范围内,成功复现了41%研究的原始效应量。此外,在96%的案例中,LLM流程得出了与原始研究一致的定性结论(即重新分析是否支持原始主张)。作为对比,人类重新分析者在34%的研究中复现了原始效应量,并在74%的案例中得出相同定性结论。综合来看,这些结果表明LLM可作为自动化可重复性评估的可扩展工具,为社会科学与行为科学实证结果的系统性审计奠定基础。 |