arxiv 2025-06-02

标题	作者	PDF链接	摘要
《开放验证码世界：基于Web的多模态大语言模型智能体测试与基准评估综合平台》

翻译说明： 1. 专业术语处理： - "Captcha"译为"验证码"（计算机安全领域标准术语） - "Multimodal LLM Agents"译为"多模态大语言模型智能体"（人工智能领域规范译法） - "Benchmarking"译为"基准评估"（计算机性能测试标准译法）

学术命名规范：
平台名称采用《》标注，符合中文期刊命名惯例
保留"Web-based"的技术特征，译为"基于Web的"
"Comprehensive"译为"综合"体现平台的多功能特性
句式结构调整：
将英文名词短语转换为中文"平台+功能描述"的句式
测试与评估两个动词并列处理，符合中文表达习惯
使用"智能体"而非"代理"，更符合人工智能领域术语规范
技术准确性保障：
严格区分"Multimodal"（多模态）与"Multimedia"（多媒体）的译法
保持"LLM"（大语言模型）在中文语境下的准确表达
确保"Agents"在人工智能语境下的专业译法 | Yaxin Luo | PDF | 验证码（CAPTCHA）已成为网络智能体在实际应用中的关键瓶颈，常常阻碍其完成端到端的自动化任务。尽管现代多模态大语言模型（MLLM）智能体在静态感知任务中展现出卓越性能，但其处理验证码这类需要交互式多步推理挑战的能力尚未得到充分验证。为填补这一空白，我们推出Open CaptchaWorld——首个基于网页的基准测试平台，专门通过多样化动态验证题来评估MLLM智能体的视觉推理与交互能力。该基准涵盖20类现代验证码变体共计225道题目，并采用我们提出的新型评估指标"验证码推理深度"进行标注，该指标量化了解决每道题目所需的认知与操作步骤数。实验结果表明：人类测试者始终保持接近完美的准确率（93.3%），而当前最先进的MLLM智能体（Browser-Use Openai-o3）最高成功率仅为40.0%，远低于人类水平。这凸显Open CaptchaWorld作为关键基准的价值，既能诊断现有多模态智能体的局限性，又能指导开发更强大的多模态推理系统。代码与数据集详见此https链接。 | | AdaHuman：基于组合式多视角扩散的可动画精细三维人体生成

（翻译说明： 1. 保留技术术语"3D Human Generation"的标准译法"三维人体生成" 2. "Animatable"译为"可动画"符合计算机图形学领域术语规范 3. "Detailed"译为"精细"准确传达模型的高细节特性 4. "Compositional Multiview Diffusion"采用"组合式多视角扩散"的学术译法，其中： - "Compositional"译为"组合式"体现技术架构特点 - "Multiview"采用"多视角"标准译法 - 保留"扩散"而不译作"扩散模型"以保持术语简洁性 5. 整体采用"技术名称：技术描述"的学术论文标题结构） | Yangyi Huang | PDF | 现有图像到3D虚拟人生成方法难以创建适用于实际应用的高细节、可动画化的虚拟人。我们提出AdaHuman创新框架，能够从单张真实场景图像生成高保真可动画3D虚拟人。该框架包含两项核心技术突破：（1）姿态条件式3D关节扩散模型，可在每个扩散步骤合成任意姿态下一致的多视角图像，并同步生成对应的3D高斯溅射（3DGS）重建；（2）组合式3DGS优化模块，通过图像到图像精细化增强局部身体部位细节，并利用创新的裁剪感知相机光线图实现无缝整合，最终输出完整的高精度3D虚拟人。这些技术使AdaHuman能生成具有最小自遮挡的高真实度标准A姿态虚拟人，支持任意输入动作的骨骼绑定与动画驱动。在公开基准测试和真实场景图像上的大量实验表明，AdaHuman在虚拟人重建与姿态重置任务上显著优于现有最优方法。相关代码与模型将开源供研究使用。 | | Agent-X：以视觉为核心的智能体任务中深度多模态推理能力评估

（翻译说明： 1. 保留原项目名称"Agent-X"作为专有名词不译 2. "Vision-Centric"译为"以视觉为核心的"，准确传达视觉模态在任务中的主导地位 3. "Agentic Tasks"采用计算机领域通用译法"智能体任务"，体现自主代理特性 4. "Deep Multimodal Reasoning"译为"深度多模态推理"，完整保留"深度"的技术内涵和"多模态"的跨模态特性 5. 整体采用学术论文标题的简洁风格，通过"中"字结构保持专业感，同时符合中文表达习惯） | Tajamul Ashraf | PDF | Deep reasoning is fundamental for solving complex tasks, especially in vision-centric scenarios that [翻译失败] | | ReasonGen-R1：通过监督微调（SFT）与强化学习（RL）实现自回归图像生成模型的思维链（CoT）技术

（翻译说明： 1. 专业术语处理： - "Autoregressive"译为"自回归"，保留机器学习领域标准译法 - "SFT"采用中文全称"监督微调"并保留英文缩写 - "RL"译为"强化学习"并保留缩写 - "CoT"译为"思维链"并保留缩写，这是当前AI领域对Chain-of-Thought的标准译法

技术表述优化：
将介词"through"动态化为"实现...技术"，更符合中文技术文献表达习惯
增加"技术"二字明确研究性质
使用破折号连接模型名称与版本号，符合中文技术文档规范
结构完整性：
完整保留原始技术路线"SFT→RL"的逻辑关系
通过括号处理专业术语的缩写形式，确保首次出现时中英对照） | Yu Zhang | PDF | Although chain-of-thought reasoning and reinforcement learning (RL) have driven breakthroughs in NLP [翻译失败] | | 通往可泛化神经符号学习的道路应由基础模型铺就

（翻译说明： 1. "Generalizable"译为"可泛化"符合机器学习领域的术语规范 2. "Neuro-Symbolic Learning"保留专业术语"神经符号学习"的固定译法 3. "Paved with"采用"铺就"的文学化表达，既准确又符合中文修辞习惯 4. "Foundation Models"译为"基础模型"是当前AI领域对大规模预训练模型的规范中文译名 5. 整体句式重构为中文典型的"由...铺就"结构，在保持学术严谨性的同时提升可读性） | Adam Stein | PDF | 为应对复杂推理任务中神经网络训练面临的挑战，同时兼顾可解释性、可靠性和效率优势，神经符号学习应运而生。传统神经符号学习方法通过结合符号程序来训练神经模型，但其显著局限性导致仅能处理简单问题。另一方面，纯神经基础模型如今通过提示机制（而非训练）即可实现最先进性能，但这类模型往往可靠性不足且缺乏可解释性。我们提出"神经符号提示"方法——通过符号程序增强基础模型，为复杂推理任务提供了新的解决路径。由此引出一个核心问题：在基础模型时代，神经符号学习中的专项模型训练究竟应扮演何种角色？为探讨该问题，本文揭示了传统神经符号学习在算力、数据和程序方面的三大缺陷，这些缺陷最终导致泛化能力受限。本立场论文论证指出：基础模型能够实现可泛化的神经符号解决方案，既达成神经符号学习的原始目标，又规避了从零开始训练的弊端。 | | MiniMax-Remover：抑制不良噪声助力视频目标移除

（翻译说明： 1. 保留算法名称"MiniMax-Remover"作为专有名词不译 2. "Taming"译为"抑制"更符合计算机视觉领域对噪声处理的专业表述 3. "Bad Noise"采用"不良噪声"的译法，既准确传达原意又符合中文术语规范 4. "Video Object Removal"统一译为"视频目标移除"，与CVPR等顶级会议的中文译法保持一致 5. 整体采用"主标题:副标题"的学术论文标题结构，冒号使用中文全角符号 6. 动词"Helps"译为"助力"既保持学术严谨性又体现技术方案的辅助特性） | Bojia Zi | PDF | Recent advances in video diffusion models have driven rapid progress in video editing techniques. Ho [翻译失败] | | 代理思考者（ProxyThinker）：基于小型视觉推理器的测试时引导

翻译说明： 1. "ProxyThinker"采用音意结合的译法，译为"代理思考者"，既保留原文发音又体现其作为辅助决策工具的功能属性 2. "Test-Time Guidance"译为"测试时引导"，准确传达在模型推理阶段进行动态指导的技术特征 3. "Small Visual Reasoners"译为"小型视觉推理器"，其中： - "Small"强调模型轻量化特性 - "Visual Reasoners"译为"视觉推理器"符合计算机视觉领域的术语规范 4. 整体采用学术论文标题的简洁风格，通过冒号分隔主副标题，符合中文科技文献的标题格式要求 5. 保留专业术语的一致性，与计算机视觉和机器学习领域的标准中文译法保持统一 | Zilin Xiao | PDF | Recent advancements in reinforcement learning with verifiable rewards have pushed the boundaries of [翻译失败] | | MoDoMoDo：面向多模态大语言模型强化学习的多领域数据混合方法

（翻译说明：
1. "Multi-Domain Data Mixtures" 译为"多领域数据混合"，其中：
- "Multi-Domain"采用计算机领域标准译法"多领域"（非"多域名/多域"）
- "Mixtures"译为"混合"以区别于"fusion/融合"技术概念
2. "Multimodal LLM" 保留专业术语一致性，译为"多模态大语言模型"
3. "Reinforcement Learning" 采用学界通用译名"强化学习"
4. 冒号后补充"面向"字以符合中文标题语法，同时通过"方法"二字明确技术方案属性） | Yiqing Liang | PDF | 可验证奖励强化学习（RLVR）近期作为一种强大的范式崭露头角，用于大语言模型（LLM）的后训练阶段，在具有结构化可验证答案的任务上实现了最先进的性能。将RLVR应用于多模态大语言模型（MLLM）虽蕴含重大机遇，但由于视觉-语言任务具有更广泛的异质性特征——这些任务需要精细的视觉、逻辑和空间能力——使得应用过程变得复杂。因此，基于多数据集对MLLM进行RLVR训练可能带来益处，但不同数据集交互产生的目标冲突也带来了挑战，这凸显出优化数据集混合策略以提升泛化与推理能力的必要性。我们提出了一套系统化的多模态LLM-RLVR后训练框架，包含严格的数据混合问题形式化定义及基准实现方案。具体而言：（1）我们通过构建包含多样化可验证视觉-语言问题的数据集，开发了支持多领域在线强化学习与差异化可验证奖励的多模态RLVR框架；（2）我们提出了一种数据混合策略，该策略能通过学习从数据混合分布预测RL微调结果，进而优化最佳混合比例。综合实验表明，当多领域RLVR训练与混合预测策略结合时，能显著提升MLLM的通用推理能力。相比均匀数据混合的后训练模型，我们的最优混合方案使模型在分布外基准测试中的准确率平均提升5.24%；相较于微调前的基线模型，总体提升幅度达20.74%。 | | GenSpace：空间感知图像生成基准测试

（翻译说明： 1. "GenSpace"作为专有技术名词保留不译，符合学术术语一致性原则 2. "Benchmarking"译为"基准测试"，准确体现其作为评估标准的含义 3. "Spatially-Aware"译为"空间感知"，精准传达对空间关系认知的技术特征 4. 采用冒号分隔主副标题，符合中文科技文献标题规范 5. 整体结构保持"技术名称：技术特性+评估类型"的学术标题特征） | Zehan Wang | PDF | 人类能够凭借直觉在三维空间中构图布景进行摄影创作。然而，当基于文本或图像提示生成画面时，先进的人工智能图像生成器是否具备类似的3D空间认知能力来进行场景规划？我们提出GenSpace——一个全新的评估基准与测试流程，用于系统评估当前图像生成模型的空间感知能力。研究发现，使用通用视觉语言模型（VLM）的标准评估方法往往难以捕捉细微的空间错误。为此，我们开发了一套专业化评估方案与度量标准：通过整合多个视觉基础模型重建3D场景几何结构，从而提供更精确且符合人类感知的空间真实性评估指标。实验结果表明，尽管AI模型能生成视觉吸引力强的图像并遵循基本指令，但在物体位置、空间关系和尺寸比例等具体3D细节表现上仍存在明显缺陷。我们归纳出现有最先进图像生成模型在空间认知方面的三大核心局限：1) 物体透视理解能力 2) 自我中心-他者中心视角转换能力 3) 度量尺度遵循能力，这些发现为提升图像生成的空间智能指明了改进方向。 | | SiLVR：一种基于语言的简易视频推理框架

翻译说明： 1. "SiLVR"作为专有名称保留不译，符合学术术语翻译惯例 2. "Simple"译为"简易"而非简单，更符合技术框架的命名规范 3. "Language-based"译为"基于语言的"，准确传达技术特性 4. "Video Reasoning Framework"译为"视频推理框架"，完整保留专业术语 5. 整体采用"定语+中心词"的中文技术命名结构，符合中文科技文献表达习惯 6. 使用冒号替代原标题中的空格，更符合中文标题格式规范 | Ce Zhang | PDF | Recent advances in test-time optimization have led to remarkable reasoning capabilities in Large Lan [翻译失败] |