arXiv 2026-05-13

标题	作者	发布日期	PDF链接	摘要
覆盖计算机使用的人类动作空间：数据合成与基准测试	Miaosen Zhang	2026-05-12	PDF	计算机使用代理（CUA）可自动化屏幕操作，如GPT-5.4和Claude所示。然而，它们在复杂、低频交互中的可靠性仍然较差，限制了用户信任。我们对先进模型失败案例的分析表明，GUI操作中存在长尾模式，即相对少数的复杂多样交互占据了不成比例的任务失败比例。我们假设这一问题主要源于复杂交互数据的稀缺性。为解决此问题，我们提出新基准CUActSpot，用于评估模型在五种模态（GUI、文本、表格、画布和自然图像）及多种操作（点击、拖拽、绘制等）上的复杂交互能力，覆盖比以往主要聚焦GUI控件的点击中心基准更广泛的交互类型。我们还设计了基于渲染器的数据合成流水线：自动为每种模态生成场景，记录截图和元素坐标，并由LLM生成匹配指令和操作轨迹。在此语料库训练后，我们的Phi-Ground-Any-4B模型性能优于参数少于320亿的开源模型。我们将于https://github.com/microsoft/Phi-Ground.git发布基准、数据、代码和模型。
SenseNova-U1：基于NEO-unify架构统一多模态理解与生成	Haiwen Diao	2026-05-12	PDF	近期的大型视觉语言模型（VLM）仍受制于一个根本性矛盾：理解与生成被视为独立问题，导致架构碎片化、级联流水线以及表征空间错位。我们认为这种割裂不仅是工程实现上的缺陷，更是阻碍原生多模态智能涌现的结构性限制。为此，我们提出SenseNova-U1——基于NEO-unify构建的原生统一多模态范式，其中理解与生成作为单一底层过程的协同视角共同演化。我们发布两个原生统一变体：SenseNova-U1-8B-MoT与SenseNova-U1-A3B-MoT，分别基于密集（8B）和混合专家（30B-A3B）理解基线构建。这些从第一性原理设计的模型在文本理解、视觉语言感知、知识推理、智能体决策及空间智能方面，可与顶尖的纯理解型VLM相匹敌。同时，它们展现出强大的语义一致性与视觉保真度，在常规或知识密集型任意到图像（X2I）合成、复杂文本信息图生成、以及带/不带思维模式的交错视觉语言生成任务中表现优异。除性能外，我们公开了详细的模型设计、数据预处理、预训练/后训练及推理策略以支持社区研究。最后，初步证据表明我们的模型已超越感知与生成范畴，在视觉-语言-动作（VLA）和世界模型（WM）场景中表现强劲。这指向更宏大的路线图：模型不再进行模态间的翻译，而是以原生方式跨模态思考与行动。多模态AI不再是连接独立系统，而是构建统一系统，并信任必要能力将从内部涌现。
EgoForce：基于前臂引导的单目自我中心相机空间3D手部姿态估计	Christen Millerdurai	2026-05-12	PDF	从用户视角通过单颗头戴相机重建手部的绝对3D姿态与形状，对于AR/VR、远程临场及以手部为核心的操控任务中的实用化自我中心交互至关重要，这类场景要求传感设备保持紧凑且不引人注目。尽管单目RGB方法已取得进展，但仍受限于深度尺度模糊性，且难以泛化至头戴设备多样化的光学配置。因此，模型通常需要在特定设备数据集上进行大量训练，而这类数据集的获取成本高昂且耗时。本文通过提出EgoForce框架解决上述挑战，该单目3D手部重建系统能从用户（相机空间）视角恢复鲁棒的绝对3D手部姿态及其位置。EgoForce通过单一统一网络，可兼容鱼眼、透视及畸变广角FOV相机模型。我们的方法结合了可微分前臂表征以稳定手部姿态、统一的手臂-手部Transformer从单张自我中心视图预测手部与前臂几何结构以缓解深度尺度模糊性，以及光线空间闭式求解器实现跨多种头戴相机模型的绝对3D姿态恢复。在三个自我中心基准上的实验表明，EgoForce达到了最先进的3D精度，在HOT3D数据集上相比先前方法将相机空间MPJPE降低28%，并在不同相机配置下保持稳定性能。更多详情请访问项目页面：https://dfki-av.github.io/EgoForce。
从网页到像素：将智能搜索引入视觉感知	Bokang Yang	2026-05-12	PDF	视觉感知将高层语义理解与像素级感知连接起来，但现有大多数设置假设识别目标的决定性证据已存在于图像或冻结的模型知识中。我们研究了一个更实际但更困难的开放世界场景：在定位可见物体之前，必须先通过外部事实、近期事件、长尾实体或多跳关系来解析该物体。我们将这一挑战形式化为"感知深度研究"，并引入WebEye——一个以物体锚定的基准数据集，包含可验证证据、知识密集型查询、精确的框/掩码标注以及三个任务视图：基于搜索的定位、基于搜索的分割和基于搜索的VQA。WebEye包含120张图像、473个标注物体实例、645个独特问答对和1,927个任务样本。我们进一步提出Pixel-Searcher，一种智能搜索到像素的工作流程，可解析隐藏目标身份并将其绑定到框、掩码或接地答案。实验表明，Pixel-Searcher在所有三个任务视图上均达到最强开源性能，而失败主要源于证据获取、身份解析和视觉实例绑定。
CausalCine：多镜头视频叙事的实时自回归生成	Yihao Meng	2026-05-12	PDF	自回归视频生成旨在实现实时、开放式的合成。然而，电影叙事并非单一场景的无限延伸，它需要推进不断演变的事件、视角转换以及离散的镜头边界。现有的自回归模型在此场景下往往表现不佳。这些模型主要针对短程延续进行训练，将长序列视为扩展的单镜头，在长程生成中不可避免地会出现运动停滞和语义漂移。为弥补这一差距，我们提出CausalCine，一个交互式自回归框架，将多镜头视频生成转化为在线导演过程。CausalCine在镜头切换间进行因果生成，实时接受动态提示，并复用上下文而无需重新生成先前镜头。为实现这一目标，我们首先在原生多镜头序列上训练因果基础模型，以在加速前学习复杂的镜头转换。随后提出内容感知记忆路由（CAMR），该机制根据基于注意力的相关性分数而非时间邻近性动态检索历史KV条目，在有限活跃记忆下保持跨镜头连贯性。最后，我们将因果基础模型蒸馏为少步生成器，实现实时交互式生成。大量实验表明，CausalCine显著优于自回归基线模型，在解锁因果生成的流式交互能力的同时，接近双向模型的能力。演示地址：https://yihao-meng.github.io/CausalCine/
AlphaGRPO：通过可分解的可验证奖励解锁UMMs中的自反思多模态生成能力	Runhui Huang	2026-05-12	PDF	本文提出AlphaGRPO框架，将组相对策略优化（GRPO）应用于AR扩散统一多模态模型（UMMs），无需额外冷启动阶段即可增强多模态生成能力。该方法释放模型内在潜力以执行高级推理任务：推理式文本到图像生成（模型主动推断用户隐含意图）与自我反思优化（模型自主诊断并修正生成结果中的偏差）。为解决真实多模态生成场景中稳定监督的挑战，我们提出分解式可验证奖励（DVReward）。不同于整体标量奖励，DVReword利用大语言模型（LLM）将复杂用户请求分解为原子化、可验证的语义与质量子问题，再由通用多模态大模型（MLLM）评估以提供可靠且可解释的反馈。大量实验表明，AlphaGRPO在GenEval、TIIF-Bench、DPG-Bench及WISE等多模态生成基准测试中均取得稳健提升，并在未经过编辑任务训练的情况下，于GEdit编辑任务中实现显著性能增益。这些结果验证了自我反思强化方法能有效利用模型固有理解能力引导高保真生成。项目页面：https://huangrh99.github.io/AlphaGRPO/
重新审视光度模糊性以实现精确的高斯溅射表面重建	Jiahe Li	2026-05-12	PDF	近年来，基于可微渲染的表面重建技术取得了显著进展，但普遍存在的光度歧义性严重制约了现有方法的发展。本文提出AmbiSuR框架，探索基于高斯泼溅的内在解决方案，实现高鲁棒性的光度歧义表面三维重建。通过重新审视基础理论，我们发现表示中存在两种固有的基元级歧义，同时揭示了高斯泼溅在歧义自指示方面的内在潜力。基于此，我们首先引入光度去歧义方法，约束病态几何解以形成明确的表面结构。随后提出歧义指示模块，释放自指示潜力以识别并进一步引导修正欠约束重建。大量实验表明，在多种具有挑战性的场景中，我们的表面重建效果优于现有方法，展现出广泛的兼容性。项目主页：https://fictionarry.github.io/AmbiSuR-Proj/
LongMemEval-V2：面向经验同事的长期智能体记忆评估	Di Wu	2026-05-12	PDF	在专业化的网络环境中，长期记忆对智能体至关重要，其成功取决于能否回忆界面功能、状态动态、工作流程及常见故障模式。然而，现有针对智能体的记忆基准测试主要关注用户历史记录、短时轨迹或下游任务成功率，未能直接评估记忆系统是否有效内化环境特定经验。为填补这一空白，我们提出LongMemEval-V2（LME-V2）基准测试，用于评估记忆系统能否帮助智能体获取在定制化环境中成为知识渊博协作者所需的经验。LME-V2包含451个手工构建的问题，覆盖网络智能体的五项核心记忆能力：静态状态回忆、动态状态追踪、工作流知识、环境陷阱识别及前提意识。每个问题均配有包含最多500条轨迹和1.15亿词元的历史轨迹数据。我们采用上下文收集框架：记忆系统通过处理历史轨迹，为下游问答任务提供紧凑证据。我们提出两种记忆方法：AgentRunbook-R——基于RAG的高效记忆系统，通过知识池存储原始状态观测、事件及策略笔记；AgentRunbook-C——将轨迹存储为文件，并在增强沙盒中调用编码智能体收集证据。实验表明，AgentRunbook-C以72.5%的平均准确率取得最佳性能，超越最强RAG基线（48.5%）和现成编码智能体基线（69.3%）。尽管性能提升显著，基于编码智能体的方法存在高延迟成本。虽然AgentRunbook-C推进了准确率-延迟的帕累托前沿，但仍有较大改进空间。这些结果共同确立了LME-V2作为开发环境经验长期记忆系统的挑战性测试平台。
Pion：一种通过正交等价变换保持频谱的优化器	Kexuan Shi	2026-05-12	PDF	我们提出Pion，一种基于正交等价变换的、用于大语言模型训练的谱保持优化器。与Adam和Muon等加性优化器不同，Pion通过左右正交变换更新每个权重矩阵，在训练过程中保持其奇异值不变。这产生了一种优化机制，能够在保持权重矩阵谱范数固定的同时调节其几何结构。我们推导了Pion的更新规则，系统性地审视了其设计选择，并分析了其收敛行为及若干关键特性。实验结果表明，Pion在大语言模型预训练和微调中，为标准优化器提供了一种稳定且具有竞争力的替代方案。
用于可扩展视觉Transformer的弹性注意力核心	Alan Z. Song	2026-05-12	PDF	视觉Transformer（ViT）通过利用全对全自注意力机制实现了强大的数据驱动扩展能力。然而，这种灵活性带来了与图像分辨率呈二次方增长的计算成本，限制了ViT在高分辨率领域的应用。该方法的核心假设是：成对令牌交互对于学习丰富的视觉语义表征是必要的。在本研究中，我们挑战了这一假设，证明无需任何直接的补丁间交互即可学习有效的视觉表征。我们提出VECA（视觉弹性核心注意力），这是一种采用高效线性时间核心-外围结构化注意力的视觉Transformer架构，通过少量可学习核心实现。在VECA中，这些核心充当通信接口：补丁令牌仅通过核心令牌进行信息交换，核心令牌从零开始初始化并在各层间传播。由于N个图像补丁仅与分辨率不变的C个可学习"核心"嵌入直接交互，对于预设的C值，该方法实现了线性复杂度O(N)，从而规避了二次方扩展问题。与先前的交叉注意力架构相比，VECA保留并迭代更新全部N个输入令牌，避免了小型C路瓶颈。结合沿核心轴的嵌套训练，我们的模型能在推理过程中弹性权衡计算量与精度。在分类和密集任务中，VECA在降低计算成本的同时达到了与最新视觉基础模型相媲美的性能。我们的研究确立了弹性核心-外围注意力作为视觉Transformer可扩展替代构建模块的地位。