arXiv 2026-05-25

标题	作者	发布日期	PDF链接	摘要
SkillOpt：自我进化智能体技能的执行业务策略	Yifan Yang	2026-05-22	PDF	当前的智能体技能要么是手工构建的，要么是一次性生成的，要么是通过松散控制的自我修订演化而来——这些方法都不具备类似深度学习优化器的特性，也无法在反馈下持续改进初始状态。我们认为，技能应当被训练为冻结智能体的外部状态，遵循与权重空间优化相同的可复现原则。据我们所知，SkillOpt是首个面向智能体技能的系统化可控文本空间优化器：独立的优化器模型将带评分的轨迹转化为对单个技能文档的有界增删改操作，仅当编辑能严格提升保留验证分数时才被采纳。通过文本学习率预算、拒绝编辑缓冲区和逐轮慢速/元更新机制，技能训练在保持稳定性的同时，部署阶段无需增加任何推理时模型调用。在六个基准测试、七个目标模型和三种执行框架（直接对话、Codex、Claude Code）中，SkillOpt在全部52个评估单元（模型、基准、框架组合）上取得最优或持平成绩，并击败了每个单元中的人类专家、一次性LLM、Trace2Skill、TextGrad、GEPA和EvoSkill等所有竞争对手。在GPT-5.5上，它将直接对话模式下的无技能平均准确率提升23.5个百分点，在Codex智能体循环中提升24.8个百分点，在Claude Code中提升19.1个百分点。迁移实验进一步表明，优化后的技能工件在跨模型规模迁移、跨Codex与Claude Code执行环境迁移，以及迁移至邻近数学基准测试时仍能保持价值，无需额外优化。
Geo-Align：基于度量几何奖励的视频生成对齐	Zizun Li	2026-05-22	PDF	近年来，相机控制视频生成技术取得了显著进展。然而，现有视频到视频重渲染方法主要依赖合成数据集的监督微调。当前，同步多视角真实世界视频数据极度匮乏。因此，主流范式在处理分布外真实世界视频时往往泛化能力有限，模型难以精确遵循物理尺度和相机轨迹。为弥补这一不足，我们提出Geo-Align——首个专为相机控制视频重渲染设计的强化学习框架。该框架基于预训练模型，通过尺度感知感知奖励机制进行优化。具体而言，我们引入度量3D估计器从生成视频中提取精确相机轨迹，显式惩罚旋转和平移偏差。此外，我们精心设计了基于真实条件视频与合成数据目标相机轨迹的数据管线策略，彻底消除对配对数据的依赖。大量实验表明，Geo-Align在精确相机可控性和视觉保真度方面持续优于现有监督学习基线，验证了本方法的有效性。
PiD：基于像素扩散的快速高分辨率潜在解码	Yifan Lu	2026-05-22	PDF	目前大多数实用的高分辨率文本到图像系统（包括潜在扩散模型和自回归模型）都在紧凑的潜在空间中生成图像，并通过解码器将生成的潜在表示映射回像素。然而，这种潜在到像素的解码器以重建为目标，优化方向是逆转编码器而非合成更多细节，并且在百万像素尺度下成本急剧上升。这一缺陷要求更高效且更具表现力的解码范式。受可扩展像素空间扩散技术最新进展的启发，我们提出PiD（像素扩散解码器），将潜在解码重构为条件像素扩散，将解码与上采样统一为单一生成模块。通过在像素空间中直接去噪，PiD能以低延迟合成4倍甚至8倍上采样图像。针对潜在条件化，轻量级sigma感知适配器将含噪潜在表示注入像素扩散主干网络，使PiD能够解码部分去噪的潜在表示并提前终止潜在扩散过程。为进一步提升效率，我们采用DMD2对模型进行蒸馏，将推理步骤缩减至4步。PiD既适用于传统VAE潜在表示，也适用于近期基于RAE模型使用的语义潜在表示（如SigLIP、DINOv2）。在消费级RTX 5090上，PiD将512×512图像的潜在表示解码为2048×2048像素仅需不到1秒，峰值内存占用13 GB；在GB200 GPU上最快可达210毫秒，比级联扩散超分辨率管线快约6倍，且视觉保真度更优。
大语言模型作为噪声信道：香农视角下的模型容量与缩放定律	Xu Ouyang	2026-05-22	PDF	现有的大语言模型（LLMs）缩放定律，主要是单调幂律，无法解释新兴的非单调现象，例如灾难性过训练和量化导致的性能退化——在这些情况下，尽管计算量增加，性能反而下降。我们提出香农缩放定律，这是一个统一的理论框架，基于香农-哈特利定理，将LLM训练建模为通过噪声信道的信息传输。通过将模型参数映射为信道带宽、训练令牌映射为信号功率，我们的公式明确捕捉了学习信号与固有噪声之间的相互作用。这一视角揭示了LLM的基本香农容量：在未保持足够信噪比（SNR）的情况下扩展模型规模或数据量，必然会放大噪声，导致从单调改进到U形性能退化的转变。我们通过在Pythia和OLMo2上进行的实验验证了该理论，实验涉及高斯噪声、量化以及在数学、问答和代码任务上的监督微调等扰动。香农缩放定律始终优于经典缩放定律和近期提出的扰动感知定律，取得了较高的$R^2$分数，并准确捕捉了先前方法遗漏的损失盆地。它还能进行外推：在$\leq$6.9B参数的Pythia模型和$\leq$180B令牌的数据上拟合后，可预测未见过的12B模型在多达307B令牌时的表现，合并$R^2$为0.847，而单调基线方法则完全失效。
从原始经验到技能消费：模型生成代理技能的系统性研究	Zisu Huang	2026-05-22	PDF	语言智能体通过复用从过往经验中提炼的结构化程序性产物——即"技能"——来持续提升自身能力。其中，领域级与模型生成型技能尤为值得关注：前者通过编码领域特有的重复性流程实现快速领域适配，后者则突破了人工精心设计的规模限制。然而，尽管技能提取方法层出不穷，学界对其理解仍十分有限——目前尚无一项研究能完整覆盖技能全生命周期（经验生成→技能提取→技能消费），系统回答这些技能是否真正有效、何时有效、以及决定其成败的关键因素。为填补这一空白，我们构建了基于实用性的评估框架，在涵盖五个多样化智能体任务领域的场景中，对多种提取器与目标智能体进行了系统性实验。研究发现：模型生成型技能虽整体有益，但存在显著的负迁移现象；提取器与目标智能体的表现并不统一——某模型可能成为强提取器却弱于消费技能，反之亦然，且技能效用与模型规模或基线任务强度无关。为解释这些现象，我们深入剖析生命周期各阶段：分析经验构成如何塑造技能质量、界定有用技能的特征属性、探究同一技能在不同消费主体间的迁移规律。最终，我们将研究发现转化为具体的元技能——该技能引导提取过程聚焦于与实用价值直接相关的特征，不仅持续提升跨领域技能质量，更显著降低了负迁移现象。
SPACENUM：重新审视视觉语言模型中的空间数值理解	Jianshu Zhang	2026-05-22	PDF	视觉-语言模型（VLMs）正越来越多地被部署在具身环境中，需要输出动作幅度和空间坐标等数值。尽管这些数字看似有意义，但目前尚不清楚这些数值输出是否真正基于空间感知。因此，在本研究中，我们通过SpaceNum这一统一框架重新审视空间数值理解，该框架涵盖两种互补场景：空间探索中的动态转换数值，以及空间推理中的静态布局数值。我们构建了Num2Space和Space2Num两个双向任务，以评估VLMs在视觉侧空间结构与语言侧数值表征之间的映射能力。我们系统研究了当前VLMs是否真正理解空间场景中的数值。在动态转换和静态布局两种场景中，我们发现模型大多未能将数值与空间含义建立关联，且表现常接近随机猜测。通过错误分析、推理轨迹分析和受控干预实验，我们表明当前VLMs严重依赖浅层空间线索，难以构建稳定的坐标感知表征，且无法从视觉观察中抽象出结构化空间布局。我们进一步证明，显式推理仅带来边际提升，而微调可部分改善空间数值理解能力，并迁移至外部空间推理基准测试。
ETCHR：编辑以澄清和利用推理	Beichen Zhang	2026-05-22	PDF	多模态大语言模型已推动视觉推理的进步，但纯文本思维链在处理需要精细聚焦或视角转换的问题时仍存在瓶颈。"以图像思考"范式缩小了这一差距，但现有方法要么受限于固定预定义工具包，要么因统一多模态方法产生噪声中间图像。我们探索第三种方案：使用专用图像编辑模型，并将其与理解模型解耦。然而，现成的图像编辑器作为推理助手存在两个互补性缺陷：语言侧缺陷——被训练为被动指令跟随者的编辑器无法将抽象问题映射到适当的视觉变换；生成侧缺陷——编辑正确性随推理深度增加而下降。基于此分析，我们提出ETCHR（编辑以澄清和驾驭推理），这是一种面向问题、具备推理感知能力的图像编辑器，与下游理解模型解耦，并通过两阶段训练策略针对上述缺陷：通过编辑轨迹的监督微调进行推理模仿，随后利用基于VLM的奖励进行推理增强，以提升编辑正确性和下游推理准确性。由于编辑器是解耦的，ETCHR可无训练地接入不同开源和闭源MLLM。在五类任务（细粒度感知、图表理解、逻辑推理、拼图复原和3D理解）中，ETCHR将Qwen3-VL-8B的平均Pass@1从55.95提升至60.77（+4.82），Gemini-3.1-Flash-Lite从65.08提升至70.55（+5.47），1T参数MoE模型Kimi K2.5从76.55提升至81.16（+4.61）。
从激活到因果：人类大脑中因果视觉表征的发现	Yuval Golbari	2026-05-22	PDF	识别人类大脑中哪些脑区表征视觉概念是神经科学的核心挑战。现有方法通过激活最大化定位粗略的功能区域（如面孔、场景），即识别出对目标概念相比其他概念激活更强的脑区。然而，仅凭强激活并不能证明该区域表征概念本身，因为这种反应可能由相关的视觉或语义线索驱动。我们提出BrainCause框架，该自动化系统结合生成模型与脑模型，通过合成受控刺激并进行针对性因果检验来验证神经表征。给定描述目标概念的查询后，该框架构建包含概念图像、移除目标概念但保留其他图像内容的反事实编辑图像、以及候选相关干扰物图像的针对性刺激集。随后使用图像到fMRI编码模型预测脑反应，并搜索对目标概念反应特异性高于相关替代物的表征。BrainCause返回经验证的候选表征，并提出后续fMRI实验以进一步检验或扩展其发现。该方法成功复现已知功能定位，并在数十个概念中识别出新的候选表征，这些结果在预测和实测fMRI数据中均得到验证。关键的是，我们证明未经因果验证的定位中很大比例属于假阳性，证实仅凭激活不足以作为表征证据。
Complete-muE：面向MoE模型的最优超参数迁移与缩放	Hongwu Peng	2026-05-22	PDF	我们提出Complete-muE，这是一个针对Transformer模块中密集FFN与任意混合专家（MoE）架构间超参数迁移的框架。现有工具如μP（需固定架构）或SDE（需固定每步token数）无法直接解决MoE架构中的超参数迁移问题，因为密集到MoE的迁移或MoE总专家数扩展会同时改变架构和每专家token数。Complete-muE通过双桥接系统解决这一挑战：桥接I通过激活宽度μP结合归一化路由器缩放，实现密集FFN与密集MoE之间的映射；桥接II通过激活专家缩放实现密集MoE与稀疏MoE之间的映射，其中一阶SDE学习率/权重衰减修正相互抵消，而保留有界残差σ₀偏移。由此产生的迁移规则（我们称之为Complete muE）覆盖了MoE模型的激活专家数、总容量、粒度、共享/组平衡混合体变化，以及通用Transformer模型的网络宽度/深度、批大小和训练时长变化。大量语言模型和扩散模型预训练实验证实，complete-muE在不同模型架构和参数量下能产生相对稳定的超参数最优值——仅存在与桥接II非严格SDE行为一致的微小漂移。实践中该漂移足够小，使得在单个密集参考模型上调优的超参数可近最优地迁移至所有MoE配置——"一次调优密集模型，迁移至所有配置"是Complete-muE核心的实用方案。这使得MoE模型在扩展模型容量时无需昂贵的超参数搜索，即可实现比密集模型更快的收敛速度提升。
《优质令牌搜寻：视觉几何变换器令牌选择的搭车指南》	Shuhong Zheng	2026-05-22	PDF	视觉几何变换器已成为多视图三维重建的强大架构，能够以前馈方式联合预测多个三维属性。然而，由于这些模型内部的全局注意力层，其计算成本随输入序列长度呈二次方增长，限制了可扩展性和效率。在本工作中，我们通过一种简单而通用的策略应对这一挑战：限制全局注意力中每个查询交互的键/值令牌数量。为实现有效的令牌选择，我们引入了一个两阶段框架。首先，帧间选择步骤在帧级别操作，识别应保留的帧。其次，帧内选择步骤进一步丢弃所选帧中更冗余的令牌。我们的分析强调了基于多样性的帧间选择策略的优势，该策略确保对场景的广泛覆盖。对于帧内选择，我们表明需要层感知稀疏化，选择过程由全局注意力模式的熵引导。与现有解决方案相比，我们的方法提供了更优的速度-精度权衡。大量实验表明，对于包含500张图像的场景，该方法可将视觉几何变换器加速超过85%，同时保持甚至提升基线性能，这暗示了我们的令牌选择策略在未来视觉几何变换器应用中的关键作用。我们的项目网站位于https://zsh2000.github.io/good-token-hunting.github.io。