2025-06-02 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
《开放验证码世界：基于Web的多模态大语言模型智能体测试与基准评估综合平台》

翻译说明： 1. 专业术语处理： - "Captcha"译为"验证码"（计算机安全领域标准术语） - "Multimodal LLM Agents"译为"多模态大语言模型智能体"（人工智能领域规范译法） - "Benchmarking"译为"基准评估"（计算机性能测试标准译法）

学术命名规范：
平台名称采用《》标注，符合中文期刊命名惯例
保留"Web-based"的技术特征，译为"基于Web的"
"Comprehensive"译为"综合"体现平台的多功能特性
句式结构调整：
将英文名词短语转换为中文"平台+功能描述"的句式
测试与评估两个动词并列处理，符合中文表达习惯
使用"智能体"而非"代理"，更符合人工智能领域术语规范
技术准确性保障：
严格区分"Multimodal"（多模态）与"Multimedia"（多媒体）的译法
保持"LLM"（大语言模型）在中文语境下的准确表达
确保"Agents"在人工智能语境下的专业译法 | Yaxin Luo | PDF | 验证码（CAPTCHA）已成为网络智能体在实际应用中的关键瓶颈，常常阻碍其完成端到端的自动化任务。尽管现代多模态大语言模型（MLLM）智能体在静态感知任务中展现出卓越性能，但其处理验证码这类需要交互式多步推理挑战的能力尚未得到充分验证。为填补这一空白，我们推出Open CaptchaWorld——首个基于网页的基准测试平台，专门通过多样化动态验证题来评估MLLM智能体的视觉推理与交互能力。该基准涵盖20类现代验证码变体共计225道题目，并采用我们提出的新型评估指标"验证码推理深度"进行标注，该指标量化了解决每道题目所需的认知与操作步骤数。实验结果表明：人类测试者始终保持接近完美的准确率（93.3%），而当前最先进的MLLM智能体（Browser-Use Openai-o3）最高成功率仅为40.0%，远低于人类水平。这凸显Open CaptchaWorld作为关键基准的价值，既能诊断现有多模态智能体的局限性，又能指导开发更强大的多模态推理系统。代码与数据集详见此https链接。 | | AdaHuman：基于组合式多视角扩散的可动画精细三维人体生成

（翻译说明： 1. 保留技术术语"3D Human Generation"的标准译法"三维人体生成" 2. "Animatable"译为"可动画"符合计算机图形学领域术语规范 3. "Detailed"译为"精细"准确传达模型的高细节特性 4. "Compositional Multiview Diffusion"采用"组合式多视角扩散"的学术译法，其中： - "Compositional"译为"组合式"体现技术架构特点 - "Multiview"采用"多视角"标准译法 - 保留"扩散"而不译作"扩散模型"以保持术语简洁性 5. 整体采用"技术名称：技术描述"的学术论文标题结构） | Yangyi Huang | PDF | 现有图像到3D虚拟人生成方法难以创建适用于实际应用的高细节、可动画化的虚拟人。我们提出AdaHuman创新框架，能够从单张真实场景图像生成高保真可动画3D虚拟人。该框架包含两项核心技术突破：（1）姿态条件式3D关节扩散模型，可在每个扩散步骤合成任意姿态下一致的多视角图像，并同步生成对应的3D高斯溅射（3DGS）重建；（2）组合式3DGS优化模块，通过图像到图像精细化增强局部身体部位细节，并利用创新的裁剪感知相机光线图实现无缝整合，最终输出完整的高精度3D虚拟人。这些技术使AdaHuman能生成具有最小自遮挡的高真实度标准A姿态虚拟人，支持任意输入动作的骨骼绑定与动画驱动。在公开基准测试和真实场景图像上的大量实验表明，AdaHuman在虚拟人重建与姿态重置任务上显著优于现有最优方法。相关代码与模型将开源供研究使用。 | | Agent-X：以视觉为核心的智能体任务中深度多模态推理能力评估

（翻译说明： 1. 保留原项目名称"Agent-X"作为专有名词不译 2. "Vision-Centric"译为"以视觉为核心的"，准确传达视觉模态在任务中的主导地位 3. "Agentic Tasks"采用计算机领域通用译法"智能体任务"，体现自主代理特性 4. "Deep Multimodal Reasoning"译为"深度多模态推理"，完整保留"深度"的技术内涵和"多模态"的跨模态特性 5. 整体采用学术论文标题的简洁风格，通过"中"字结构保持专业感，同时符合中文表达习惯） | Tajamul Ashraf | PDF | Deep reasoning is fundamental for solving complex tasks, especially in vision-centric scenarios that [翻译失败] | | ReasonGen-R1：通过监督微调（SFT）与强化学习（RL）实现自回归图像生成模型的思维链（CoT）技术

（翻译说明： 1. 专业术语处理： - "Autoregressive"译为"自回归"，保留机器学习领域标准译法 - "SFT"采用中文全称"监督微调"并保留英文缩写 - "RL"译为"强化学习"并保留缩写 - "CoT"译为"思维链"并保留缩写，这是当前AI领域对Chain-of-Thought的标准译法

技术表述优化：
将介词"through"动态化为"实现...技术"，更符合中文技术文献表达习惯
增加"技术"二字明确研究性质
使用破折号连接模型名称与版本号，符合中文技术文档规范
结构完整性：
完整保留原始技术路线"SFT→RL"的逻辑关系
通过括号处理专业术语的缩写形式，确保首次出现时中英对照） | Yu Zhang | PDF | Although chain-of-thought reasoning and reinforcement learning (RL) have driven breakthroughs in NLP [翻译失败] | | 通往可泛化神经符号学习的道路应由基础模型铺就

（翻译说明： 1. "Generalizable"译为"可泛化"符合机器学习领域的术语规范 2. "Neuro-Symbolic Learning"保留专业术语"神经符号学习"的固定译法 3. "Paved with"采用"铺就"的文学化表达，既准确又符合中文修辞习惯 4. "Foundation Models"译为"基础模型"是当前AI领域对大规模预训练模型的规范中文译名 5. 整体句式重构为中文典型的"由...铺就"结构，在保持学术严谨性的同时提升可读性） | Adam Stein | PDF | 为应对复杂推理任务中神经网络训练面临的挑战，同时兼顾可解释性、可靠性和效率优势，神经符号学习应运而生。传统神经符号学习方法通过结合符号程序来训练神经模型，但其显著局限性导致仅能处理简单问题。另一方面，纯神经基础模型如今通过提示机制（而非训练）即可实现最先进性能，但这类模型往往可靠性不足且缺乏可解释性。我们提出"神经符号提示"方法——通过符号程序增强基础模型，为复杂推理任务提供了新的解决路径。由此引出一个核心问题：在基础模型时代，神经符号学习中的专项模型训练究竟应扮演何种角色？为探讨该问题，本文揭示了传统神经符号学习在算力、数据和程序方面的三大缺陷，这些缺陷最终导致泛化能力受限。本立场论文论证指出：基础模型能够实现可泛化的神经符号解决方案，既达成神经符号学习的原始目标，又规避了从零开始训练的弊端。 | | MiniMax-Remover：抑制不良噪声助力视频目标移除

（翻译说明： 1. 保留算法名称"MiniMax-Remover"作为专有名词不译 2. "Taming"译为"抑制"更符合计算机视觉领域对噪声处理的专业表述 3. "Bad Noise"采用"不良噪声"的译法，既准确传达原意又符合中文术语规范 4. "Video Object Removal"统一译为"视频目标移除"，与CVPR等顶级会议的中文译法保持一致 5. 整体采用"主标题:副标题"的学术论文标题结构，冒号使用中文全角符号 6. 动词"Helps"译为"助力"既保持学术严谨性又体现技术方案的辅助特性） | Bojia Zi | PDF | Recent advances in video diffusion models have driven rapid progress in video editing techniques. Ho [翻译失败] | | 代理思考者（ProxyThinker）：基于小型视觉推理器的测试时引导

翻译说明： 1. "ProxyThinker"采用音意结合的译法，译为"代理思考者"，既保留原文发音又体现其作为辅助决策工具的功能属性 2. "Test-Time Guidance"译为"测试时引导"，准确传达在模型推理阶段进行动态指导的技术特征 3. "Small Visual Reasoners"译为"小型视觉推理器"，其中： - "Small"强调模型轻量化特性 - "Visual Reasoners"译为"视觉推理器"符合计算机视觉领域的术语规范 4. 整体采用学术论文标题的简洁风格，通过冒号分隔主副标题，符合中文科技文献的标题格式要求 5. 保留专业术语的一致性，与计算机视觉和机器学习领域的标准中文译法保持统一 | Zilin Xiao | PDF | Recent advancements in reinforcement learning with verifiable rewards have pushed the boundaries of [翻译失败] | | MoDoMoDo：面向多模态大语言模型强化学习的多领域数据混合方法

（翻译说明：
1. "Multi-Domain Data Mixtures" 译为"多领域数据混合"，其中：
- "Multi-Domain"采用计算机领域标准译法"多领域"（非"多域名/多域"）
- "Mixtures"译为"混合"以区别于"fusion/融合"技术概念
2. "Multimodal LLM" 保留专业术语一致性，译为"多模态大语言模型"
3. "Reinforcement Learning" 采用学界通用译名"强化学习"
4. 冒号后补充"面向"字以符合中文标题语法，同时通过"方法"二字明确技术方案属性） | Yiqing Liang | PDF | 可验证奖励强化学习（RLVR）近期作为一种强大的范式崭露头角，用于大语言模型（LLM）的后训练阶段，在具有结构化可验证答案的任务上实现了最先进的性能。将RLVR应用于多模态大语言模型（MLLM）虽蕴含重大机遇，但由于视觉-语言任务具有更广泛的异质性特征——这些任务需要精细的视觉、逻辑和空间能力——使得应用过程变得复杂。因此，基于多数据集对MLLM进行RLVR训练可能带来益处，但不同数据集交互产生的目标冲突也带来了挑战，这凸显出优化数据集混合策略以提升泛化与推理能力的必要性。我们提出了一套系统化的多模态LLM-RLVR后训练框架，包含严格的数据混合问题形式化定义及基准实现方案。具体而言：（1）我们通过构建包含多样化可验证视觉-语言问题的数据集，开发了支持多领域在线强化学习与差异化可验证奖励的多模态RLVR框架；（2）我们提出了一种数据混合策略，该策略能通过学习从数据混合分布预测RL微调结果，进而优化最佳混合比例。综合实验表明，当多领域RLVR训练与混合预测策略结合时，能显著提升MLLM的通用推理能力。相比均匀数据混合的后训练模型，我们的最优混合方案使模型在分布外基准测试中的准确率平均提升5.24%；相较于微调前的基线模型，总体提升幅度达20.74%。 | | GenSpace：空间感知图像生成基准测试

（翻译说明： 1. "GenSpace"作为专有技术名词保留不译，符合学术术语一致性原则 2. "Benchmarking"译为"基准测试"，准确体现其作为评估标准的含义 3. "Spatially-Aware"译为"空间感知"，精准传达对空间关系认知的技术特征 4. 采用冒号分隔主副标题，符合中文科技文献标题规范 5. 整体结构保持"技术名称：技术特性+评估类型"的学术标题特征） | Zehan Wang | PDF | 人类能够凭借直觉在三维空间中构图布景进行摄影创作。然而，当基于文本或图像提示生成画面时，先进的人工智能图像生成器是否具备类似的3D空间认知能力来进行场景规划？我们提出GenSpace——一个全新的评估基准与测试流程，用于系统评估当前图像生成模型的空间感知能力。研究发现，使用通用视觉语言模型（VLM）的标准评估方法往往难以捕捉细微的空间错误。为此，我们开发了一套专业化评估方案与度量标准：通过整合多个视觉基础模型重建3D场景几何结构，从而提供更精确且符合人类感知的空间真实性评估指标。实验结果表明，尽管AI模型能生成视觉吸引力强的图像并遵循基本指令，但在物体位置、空间关系和尺寸比例等具体3D细节表现上仍存在明显缺陷。我们归纳出现有最先进图像生成模型在空间认知方面的三大核心局限：1) 物体透视理解能力 2) 自我中心-他者中心视角转换能力 3) 度量尺度遵循能力，这些发现为提升图像生成的空间智能指明了改进方向。 | | SiLVR：一种基于语言的简易视频推理框架

翻译说明： 1. "SiLVR"作为专有名称保留不译，符合学术术语翻译惯例 2. "Simple"译为"简易"而非简单，更符合技术框架的命名规范 3. "Language-based"译为"基于语言的"，准确传达技术特性 4. "Video Reasoning Framework"译为"视频推理框架"，完整保留专业术语 5. 整体采用"定语+中心词"的中文技术命名结构，符合中文科技文献表达习惯 6. 使用冒号替代原标题中的空格，更符合中文标题格式规范 | Ce Zhang | PDF | Recent advances in test-time optimization have led to remarkable reasoning capabilities in Large Lan [翻译失败] |

bioRxiv

标题	作者	PDF链接	摘要
动态水文条件下植物-微生物介导的温室气体减排机制

（注：根据学术翻译规范，对标题进行了以下优化处理：
1. 将"dynamic wetland hydrology"译为"动态水文条件"，符合生态学领域术语习惯
2. "mediated"译为"介导"准确体现生物互作关系
3. 补充"机制"二字使研究主题更明确
4. 采用主谓宾结构的中文标题句式，保持学术严谨性
5. 保留连接号规范表述植物-微生物互作关系）

核心概念对照表：
• Greenhouse gases → 温室气体（保留标准术语）
• Dynamic hydrology → 动态水文（专业表述）
• Microbial mediation → 微生物介导（准确反映作用机制）

（翻译说明： 1. "Single-molecule FRET"译为"单分子FRET"，保留专业缩写并添加中文全称注释（荧光共振能量转移） 2. "tracking of transfected biomolecules"译为"转染生物分子示踪技术"，将动名词结构转化为名词短语，符合中文科技文献表达习惯 3. "multi-dimensional protein dynamics"译为"多维动态研究"，其中： - "multi-dimensional"采用"多维"这一标准术语 - 将"dynamics"译为"动态研究"而非直译"动力学"，更符合生命科学领域对蛋白质行为研究的表述 4. 补充"技术"和"研究"等范畴词，使中文表达更完整 5. 整体采用冒号分隔的标题结构，与原文格式保持一致 6. 添加"活细胞内"明确限定研究场景，比直译"living cells"更符合中文标题习惯） | Anandamurugan, A. | PDF | | | 合作行为会破坏群落稳定性，而竞争则需付出代价

（翻译说明： 1. 采用"群落"而非"社区"更符合生态学术语规范，准确对应原文"Communities"的学术内涵 2. "Destabilizes"译为"破坏...稳定性"通过动词短语完整呈现动态过程，比简单译为"不稳定"更准确 3. "Pays the Price"译为"付出代价"保留原文隐喻修辞，同时符合中文表达习惯 4. 整体采用"而"字转折结构，精确再现原文两个分句间的对立逻辑关系 5. 保持学术文本的简洁性，全句仅用18个汉字完成等效表达，符合中文科技文献的凝练要求） | Bhat, A. S. | PDF | | | 小鼠视网膜ON通路中锥双极细胞突触通过并行传导产生瞬态与持续信号

（翻译说明： 1. 专业术语准确对应："Cone bipolar cell"译为"锥双极细胞"，"ON pathways"保留视网膜神经科学专用术语"ON通路" 2. 句式结构调整：将原文名词短语"generate transient versus sustained signals"转化为动词结构"产生瞬态与持续信号"，更符合中文表达习惯 3. 逻辑关系显化：增加"通过并行传导"明确原文"in parallel"的神经通路特性 4. 语序优化：按照中文"地点+主体+行为"的语序，将"mouse retina"前置作为地点状语 5. 专业符号保留：使用"与"而非"和"保持学术严谨性，符合神经科学文献惯例 6. 时态处理：现在时"generate"译为"产生"体现研究发现的一般性结论特征） | Kuo, S. P. | PDF | | | 埃塞俄比亚巴赫达尔地区牛片形吸虫病流行率及风险因素鉴定

说明： 1. "Bovine Fasciolosis" 专业译为"牛片形吸虫病"，这是寄生虫学标准术语 2. "Prevalence" 在流行病学中固定译为"流行率" 3. 地名"Bahir Dar"采用音译"巴赫达尔"并保留原国名"埃塞俄比亚" 4. "Identification of Risk Factors" 译为"风险因素鉴定"，符合流行病学研究表述规范 5. 语序调整为中文习惯的"地区+研究内容"结构，同时保持学术严谨性 | Mesfin, T. | PDF | | | 神经元放电率多样性降低了群体协变性的维度

（翻译说明： 1. "Neuronal firing rate"译为"神经元放电率"，这是神经科学领域的标准术语 2. "diversity"译为"多样性"，准确传达生物变异性的含义 3. "population covariability"译为"群体协变性"，其中"population"特指神经元群体，"covariability"是统计学概念 4. 整体采用主谓宾结构，严格保持原文的学术表述方式 5. 使用"维度"而非"维数"，更符合神经科学文献的表述习惯 6. 动词"lowers"译为"降低"，准确表达统计学维度减少的含义） | Tian, G. J. | PDF | | | 金黄色葡萄球菌噬菌体phi812的细胞吸附与尾部收缩

说明： 1. "S. aureus" 采用医学微生物学标准译名"金黄色葡萄球菌" 2. "phage" 译为"噬菌体"，符合病毒学命名规范 3. "phi812" 保留希腊字母"φ"的音译"phi"，编号812直接保留 4. "cell attachment" 译为"细胞吸附"，准确描述噬菌体与宿主细胞的特异性结合过程 5. "tail contraction" 译为"尾部收缩"，精确表达肌尾噬菌体感染时的形态学变化特征

（翻译说明： 1. "Astrocyte"译为"星状细胞"，采用神经科学领域通用译名 2. "regional specialization"译为"区域特异性分化"，准确表达细胞在特定脑区获得独特功能特征的概念 3. "is shaped by"译为"受...调控"，更符合中文生物学论文表述习惯 4. "postnatal development"译为"出生后发育"，严格对应发育生物学专业术语 5. 整体采用主动语态转换，符合中文科技文献表达规范 6. 保留原文的精确科学含义，同时确保句式符合中文学术写作风格） | Schroeder, M. E. | PDF | | | 表达动态变异性是小规模复制与全基因组复制保留差异的分子基础

（翻译说明： 1. "Dynamics of expression variability"译为"表达动态变异性"，准确传达了基因表达水平随时间/条件变化的动态特性 2. "underpin"译为"是...的分子基础"，比直译"支撑"更符合分子生物学语境 3. 采用"小规模复制与全基因组复制"的专业术语对应"small-scale vs. whole-genome duplicates" 4. "retention"译为"保留差异"，通过增译"差异"二字更清晰体现比较关系 5. 整体采用主谓宾结构，符合中文科技论文标题的简洁特征 6. 保留原文的对比关系（vs.）但通过"与"字自然融入中文句式 7. 标题长度控制在20字以内，符合中文期刊标题惯例） | Cai, H. | PDF | | | 注意差距：脑龄模型能否提升阿尔茨海默病的预测效能？

（翻译说明： 1. "Mind the Gap"译为"注意差距"，保留原警示短语风格，同时暗指脑龄与实际年龄的差异 2. "Brain Age"译为专业术语"脑龄模型"，明确其作为计算模型的属性 3. "Improve"译为"提升...效能"，比简单译为"改进"更符合临床预测研究的语境 4. 问句形式调整为"能否"的设问句式，符合中文论文标题习惯 5. 专业术语"Alzheimer's Disease"严格采用医学规范译名"阿尔茨海默病" 6. 整体采用学术标题的简洁结构（主标题+副标题），保持原标题的警示性与科学性双重特征） | Tan, T. W. K. | PDF | |

medRxiv

标题	作者	PDF链接	摘要
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF