2025-06-03 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
《开放验证码世界：基于网络的多模态大语言模型智能体测试与基准评估综合平台》

翻译说明： 1. "Open CaptchaWorld" 采用音意结合译法，保留"开放"的直译，将"CaptchaWorld"译为"验证码世界"既保持专业术语准确性又体现平台特性 2. "Comprehensive"译为"综合"准确传达平台功能的完备性 3. "Web-based"译为"基于网络"符合计算机领域术语规范 4. "Testing and Benchmarking"采用"测试与基准评估"的并列结构，其中"Benchmarking"译为"基准评估"是学术界的标准译法 5. "Multimodal LLM Agents"译为"多模态大语言模型智能体"： - "Multimodal"译为"多模态"是人工智能领域的固定术语 - "LLM"采用全称翻译"大语言模型"（Large Language Model） - "Agents"译为"智能体"是人工智能领域的专业译法

该翻译严格遵循学术翻译的准确性、专业性和一致性原则，所有术语均采用计算机科学和人工智能领域的标准中文表述。 | Yaxin Luo | PDF | 验证码（CAPTCHA）一直是网络智能体在实际应用中的关键瓶颈，常常阻碍其完成端到端的自动化任务。尽管现代多模态大语言模型（MLLM）智能体在静态感知任务中展现出卓越性能，但其处理验证码这类需要交互式多步推理挑战的能力尚未得到充分验证。为填补这一空白，我们推出Open CaptchaWorld——首个基于网页的基准测试平台，专门通过多样化动态验证题来评估MLLM智能体的视觉推理与交互能力。该基准涵盖20类现代验证码变体共计225道题目，并采用我们提出的新评估指标"验证码推理深度"进行标注，该指标量化了解决每道题目所需的认知与操作步骤数。实验结果表明：人类测试者始终维持接近完美的准确率（93.3%），而当前最先进的MLLM智能体（以Browser-Use Openai-o3为最佳）成功率最高仅达40.0%，远低于人类水平。这凸显Open CaptchaWorld作为诊断现有多模态智能体局限性的重要基准，将为开发更强大的多模态推理系统提供指引。代码与数据集详见此https链接。 | | AdaHuman：基于组合式多视角扩散的可动画精细三维人体生成

（翻译说明： 1. 保留技术术语"Animatable"专业译法"可动画"，指模型具备动画控制能力 2. "Detailed 3D Human Generation"采用计算机图形学领域标准译法"精细三维人体生成" 3. "Compositional Multiview Diffusion"译为"组合式多视角扩散"，其中： - "Compositional"体现模块化组合技术特征 - "Multiview"采用计算机视觉领域通用译法"多视角" 4. 整体句式结构调整为中文技术论文标题常用的"技术手段+核心成果"结构 5. 冒号使用符合中文标题规范，与英文原标题保持排版一致性） | Yangyi Huang | PDF | 现有图像到3D虚拟人生成方法难以创建适用于实际应用的高细节、可动画化虚拟人。我们提出AdaHuman创新框架，能够从单张真实场景图像生成高保真可动画3D虚拟人。该框架包含两项核心技术突破：（1）姿态条件式3D关节扩散模型，可在每个扩散步骤同步生成任意姿态下一致的多视角图像及对应3D高斯溅射（3DGS）重建；（2）组合式3DGS优化模块，通过图像到图像精细化增强局部身体部位细节，并采用创新的裁剪感知相机光线图实现无缝整合，最终生成协调统一的高精度3D虚拟人。该框架能生成具有最小自遮挡的高真实度标准A姿态虚拟人，支持任意输入动作的骨骼绑定与动画驱动。在公开基准测试和真实场景图像上的大量实验表明，AdaHuman在虚拟人重建与姿态重置任务上显著优于现有最优方法。相关代码与模型将开源供研究使用。 | | Agent-X：以视觉为中心的智能体任务中深度多模态推理能力评估

（翻译说明： 1. 保留原项目名称"Agent-X"作为专有名词不译，符合学术文献命名惯例 2. "Vision-Centric"译为"以视觉为中心的"，准确传达视觉模态在任务中的核心地位 3. "Agentic Tasks"译为"智能体任务"，采用人工智能领域对"Agent"的标准译法 4. "Deep Multimodal Reasoning"译为"深度多模态推理"，完整保留"深度"的技术含义和"多模态"的专业表述 5. 整体采用"副标题"结构，用冒号分隔主副标题，符合中文论文标题规范 6. 添加"能力"二字使中文表达更完整，同时不改变原意） | Tajamul Ashraf | PDF | Deep reasoning is fundamental for solving complex tasks, especially in vision-centric scenarios that [翻译失败] | | ReasonGen-R1：通过监督微调（SFT）与强化学习（RL）实现自回归图像生成模型的思维链（CoT）技术

（翻译说明： 1. 专业术语处理： - "Autoregressive Image generation models"译为"自回归图像生成模型"，保留机器学习领域术语规范 - "SFT"采用中文全称"监督微调"并保留英文缩写，符合学术文献惯例 - "RL"译为"强化学习"，采用人工智能领域通用译法 - "CoT"译为"思维链"，遵循2022年后国内学界对"Chain-of-Thought"的标准译法

技术内涵传达：
通过增补"技术"二字明确方法论属性
使用"实现"准确表达"through"的技术路径含义
保持"自回归"这一核心模型特性的专业表述
结构规范：
主副标题结构完整保留
专业缩写首次出现时标注全称
术语翻译与arXiv最新论文中文版本保持一致） | Yu Zhang | PDF | Although chain-of-thought reasoning and reinforcement learning (RL) have driven breakthroughs in NLP [翻译失败] | | 通向可泛化神经符号学习的道路应由基础模型铺就

（翻译说明： 1. 专业术语处理： - "Generalizable"译为"可泛化"，符合机器学习领域术语规范 - "Neuro-Symbolic Learning"保留专业表述译为"神经符号学习" - "Foundation Models"采用学界共识译法"基础模型"

句式结构：
英文被动语态转换为中文主动表达"应由...铺就"
隐喻修辞"Paved with"忠实再现为"铺就"，保留原文意象
学术风格：
使用"应"体现学术建议语气
保持标题的简洁性与学术严谨性
创新点保留：
"Generalizable"前置强调，突出研究重点
神经符号学习与基础模型的组合关系通过"由...铺就"准确传达） | Adam Stein | PDF | 为应对复杂推理任务中神经网络训练面临的挑战，同时兼顾可解释性、可靠性和效率优势，神经符号学习应运而生。传统神经符号学习方法通过结合符号程序来训练神经模型，但其显著局限性导致仅能处理简单问题。另一方面，纯神经基础模型如今通过提示而非训练即可达到最先进性能，但其可靠性存疑且缺乏可解释性。通过为基础模型补充符号程序（我们称之为"神经符号提示"），为复杂推理任务提供了新的解决路径。这引发了一个核心问题：在基础模型时代，神经符号学习中的专项模型训练究竟应扮演何种角色？为探究该问题，我们揭示了传统神经符号学习在算力、数据和程序三个维度导致泛化问题的缺陷。本立场论文论证指出：基础模型能够实现可泛化的神经符号解决方案，既可达成神经符号学习的原始目标，又能规避从零训练带来的弊端。 | | MiniMax-Remover：抑制不良噪声助力视频目标移除

（翻译说明： 1. 采用"抑制"对应"Taming"，既保留驯服的本义，又体现技术场景中对噪声的控制 2. "不良噪声"比直译"坏噪声"更符合中文工程术语习惯 3 "助力"比"帮助"更能体现技术方案的赋能特性 4. 保留算法名称MiniMax-Remover的原始形态符合学术惯例 5. 通过冒号分隔主副标题，遵循中文论文标题格式规范 6. "视频目标移除"准确对应Video Object Removal的专业概念） | Bojia Zi | PDF | Recent advances in video diffusion models have driven rapid progress in video editing techniques. Ho [翻译失败] | | 代理思考者（ProxyThinker）：基于小型视觉推理器的测试时引导

翻译说明： 1. "ProxyThinker"采用音意结合的译法，保留"Proxy"（代理）的核心含义，同时通过"思考者"体现"Thinker"的智能特性 2. "Test-Time Guidance"译为"测试时引导"，准确传达模型在推理阶段（而非训练阶段）进行指导的技术特征 3. "Small Visual Reasoners"译为"小型视觉推理器"，其中： - "Small"译为"小型"而非字面的"小"，更符合中文技术文献表述习惯 - "Visual Reasoners"译为"视觉推理器"准确表达其作为视觉领域专用推理组件的技术定位 4. 整体采用学术论文标题的简洁风格，通过冒号分隔主副标题，符合中文科技文献标题规范 5. 保留专业术语的一致性，与计算机视觉领域常用译法保持统一 | Zilin Xiao | PDF | Recent advancements in reinforcement learning with verifiable rewards have pushed the boundaries of [翻译失败] | | MoDoMoDo：面向多模态大语言模型强化学习的多领域数据混合方法

（翻译说明：
1. "Multi-Domain Data Mixtures" 译为"多领域数据混合"，其中：
- "Multi-Domain"采用计算机领域通用译法"多领域"
- "Mixtures"译为"混合"而非"混合物"，更符合机器学习数据处理的语境
2. "Multimodal LLM" 保留专业术语一致性，译为"多模态大语言模型"
3. "Reinforcement Learning" 采用人工智能领域标准译名"强化学习"
4. 标题结构处理为"方法名称+技术说明"的中文学术标题惯用格式
5. 冒号后增加"面向"字以明确技术方案的适用对象，符合中文技术文献表述规范） | Yiqing Liang | PDF | 可验证奖励强化学习（RLVR）近期已成为大语言模型（LLM）后训练的重要范式，在具有结构化可验证答案的任务中实现了最先进的性能。将RLVR应用于多模态大语言模型（MLLM）虽蕴含重大机遇，但由于视觉语言任务具有更广泛的异构特性——需要精细的视觉、逻辑与空间推理能力——其应用面临显著复杂性。基于多数据集开展RLVR训练虽可能提升MLLM性能，但不同数据集交互产生的目标冲突会带来优化挑战，这凸显了构建最优数据集混合策略以增强泛化与推理能力的必要性。本文提出系统化的多模态LLM-RLVR后训练框架，包含严格的数据混合问题形式化定义与基准实现：首先（1）通过构建包含多样化可验证视觉语言问题的数据集，开发支持多领域在线RL学习与差异化可验证奖励的多模态RLVR框架；其次（2）提出能通过数据混合分布预测RL微调效果、进而优化最佳混合比例的学习策略。全面实验表明，结合混合预测策略的多领域RLVR训练可显著提升MLLM的通用推理能力：相比均匀数据混合后训练模型，我们的最优混合策略使分布外基准准确率平均提升5.24%；相较微调前基线模型，累计提升幅度达20.74%。 | | GenSpace：空间感知图像生成基准测试

翻译说明： 1. "GenSpace"作为专有技术名词保留不译，符合学术术语翻译惯例 2. "Benchmarking"译为"基准测试"，准确体现其作为评估标准的含义 3. "Spatially-Aware"译为"空间感知"，精准传达对空间关系/位置感知的技术特征 4. 整体采用"名词+副标题"的学术标题结构，符合中文科技论文标题规范 5. 使用冒号替代原标题中的空格分隔，更符合中文标点使用习惯

该翻译在保持学术严谨性的同时，确保了技术概念的准确传递，且符合中文表达习惯。 | Zehan Wang | PDF | 人类能够凭借直觉在三维空间中构图布景进行摄影创作。然而，当基于文本或图像提示生成画面时，先进的人工智能图像生成器是否具备同等的三维空间认知能力来进行场景规划？我们提出GenSpace——一个全新的基准测试与评估框架，用于系统评估当前图像生成模型的空间感知能力。研究发现，使用通用视觉语言模型（VLM）的标准评估方法往往难以捕捉细微的空间错误。为此，我们设计了一套专业化评估方案及度量标准：通过整合多个视觉基础模型重建三维场景几何结构，从而提供更精确且符合人类感知的空间保真度评价指标。实验结果表明，尽管AI模型能生成视觉吸引力强的图像并遵循一般性指令，但在物体位置、空间关系和尺寸比例等具体三维细节处理上仍存在明显缺陷。我们归纳出现有最先进图像生成模型在空间认知方面的三大核心局限：1）物体透视理解能力 2）自我中心-他者中心视角转换能力 3）度量尺度遵循能力，这些发现为提升图像生成的空间智能指明了改进方向。 | | SiLVR：一种基于语言的简易视频推理框架

（翻译说明： 1. 保留首字母缩略词"SiLVR"作为专有名词不译，符合学术术语惯例 2. "Simple"译为"简易"而非简单，更符合技术框架的命名规范 3. "Language-based"采用"基于语言的"标准学术翻译 4. "Video Reasoning Framework"译为"视频推理框架"，其中： - "Reasoning"译为"推理"而非"论证"，符合计算机视觉领域术语 - 补充量词"一种"使中文更规范 5. 整体采用"名词+解释性定语"的中文技术命名结构，保持学术严谨性） | Ce Zhang | PDF | Recent advances in test-time optimization have led to remarkable reasoning capabilities in Large Lan [翻译失败] |

bioRxiv

标题	作者	PDF链接	摘要
《从信念到大脑：成长型思维如何优化皮质-纹状体动态以促进认知发展》

翻译说明： 1. 标题结构处理：采用主副标题形式，保留原文的递进逻辑关系，通过冒号分隔体现从心理机制到神经机制的转化过程。

专业术语翻译：
"Growth Mindset"译为心理学界标准译法"成长型思维"
"Cortico-Striatal"译为神经科学规范术语"皮质-纹状体"
"Dynamics"在神经影像学语境下译为"动态"而非"动力学"
动词优化：
"Optimizes"译为"优化"以符合中文论文标题常用动词
介词"for"转化为动词"促进"使译文更符合中文表达习惯
学术风格保持：
使用"如何...以..."的学术标题句式
保留神经发育领域的专业表述方式
整体符合中文心理学/神经科学论文标题的简洁规范
文化适应性调整：
添加书名号《》符合中文期刊标题格式
避免直译"From...to..."结构，改用更符合中文思维的表达方式 | Zhao, Y. | PDF | | | LRRK2通过调控肌动蛋白细胞骨架动力学调节突触功能

翻译说明： 1. LRRK2作为专业术语（富含亮氨酸重复序列激酶2）保留英文缩写形式，符合神经科学领域惯例 2. "regulates"译为"调节"而非"调控"，更符合分子生物学语境 3. "synaptic function"采用"突触功能"的标准译法，准确反映神经突触的生理功能 4. "modulation"译为"调控"体现其动态调节过程，与主句的"调节"形成语义区分 5. "actin cytoskeletal dynamics"译为"肌动蛋白细胞骨架动力学"，其中： - "actin"采用"肌动蛋白"的规范译名 - "cytoskeletal"译为"细胞骨架"而非"细胞支架" - "dynamics"译为"动力学"准确表达动态变化特性 6. 整体采用"通过...调节..."的句式结构，清晰呈现分子机制关系链 | Tombesi, G. | PDF | | | 噬菌体{λ}P解旋酶装载器在装载DnaB复制解旋酶过程中呈现四种独特四元态、中间态及自抑制机制

（注：根据学术翻译规范，此处采用以下处理： 1. 专业术语保留英文原名"DnaB"（关键复制解旋酶）和"{λ}P"（噬菌体λ编码的装载蛋白） 2. "Quaternary States"译为"四元态"以准确反映蛋白质四级结构状态 3. "Autoinhibition"译为"自抑制机制"以体现功能性描述 4. 使用破折号连接"噬菌体{λ}P"与"解旋酶装载器"保持专业称谓一致性 5. 动态过程描述采用"呈现...过程"的主动语态，符合中文表达习惯） | Shatarupa, A. | PDF | | | 人类心脏流出道发育过程及成体衍生物的细胞图谱

（翻译说明： 1. 专业术语处理："outflow tract"译为"流出道"，"adult derivatives"译为"成体衍生物"，均为发育生物学标准译法 2. 结构优化：将原文名词短语转换为中文习惯的"过程+成果"表述结构，通过"及"连接两个关键研究要素 3. 领域适配：补充"发育过程"明确发育生物学研究特性，"细胞图谱"保留原文"cell atlas"的组学研究特征 4. 学术规范：使用"人类"而非"人"保持学术严谨性，"成体"对应发育阶段的专业表述 5. 逻辑显化：通过"其"字建立发育过程与成体结构间的遗传关系，符合发育生物学研究逻辑） | Leshem, R. | PDF | | | 小鼠睡眠-觉醒状态与癫痫发作的自动分类研究

（翻译说明： 1. 专业术语处理： - "Automated Classification"译为"自动分类"，符合计算机科学领域术语规范 - "Sleep-Wake States"译为"睡眠-觉醒状态"，采用神经科学标准译法 - "Seizures"译为"癫痫发作"，遵循临床医学术语标准

句式结构调整：
将英语名词化结构转换为中文动词结构（Automated Classification→自动分类研究）
补充"研究"二字以符合中文论文标题习惯
使用"与"连接两个研究对象，保持学术表达的简洁性
研究对象明确化：
增译"小鼠"作为实验对象，使研究主体更清晰
保持"mice"的准确译法，区别于rat（大鼠）
整体风格：保持学术翻译的准确性、专业性和简洁性，符合生物医学工程领域论文标题特征） | Harvey, B. J. | PDF | | | 囊性纤维化相关病原体的抗生素增效与交叉耐药性抑制

（翻译说明： 1. 专业术语处理： - "Antibiotic potentiation"译为"抗生素增效"，准确对应微生物学领域术语 - "cross-resistance"译为"交叉耐药性"，采用医学文献标准译法 - "cystic fibrosis"译为"囊性纤维化"，使用《医学名词》法定译名

句式结构调整：
将英语名词化结构"inhibition of..."转换为汉语动词结构"抑制"
使用"相关"对应"associated with"的学术语境
采用"与"字结构保持原文的逻辑关系
学术规范：
保持标题的简洁性（14个汉字）
使用"性"字结尾体现学术文本特征
避免添加冗余修饰词，确保信息密度
领域适配性：译文符合《中华微生物学和免疫学杂志》等核心期刊的术语规范，适用于医学微生物学领域的学术交流。） | Kaderabkova, N. | PDF | | | 在扩散过程中选择适宜栖息地可降低长距离迁移时的能量消耗成本

（翻译说明： 1. "Habitat selection"译为"选择适宜栖息地"，既保留了生态学术语的专业性，又通过"适宜"二字强调了选择行为的生态学意义 2. "during dispersal"处理为"在扩散过程中"，准确对应生态学中生物扩散的专业概念 3. "energetic cost of transport"译为"能量消耗成本"，其中： - "energetic cost"采用生态能量学标准译法"能量消耗" - 补充"成本"二字更符合中文表达习惯 4. "large displacements"译为"长距离迁移"： - "displacement"在生态学中特指个体空间位置的变动 - "large"译为"长距离"比直译"大"更符合中文生态文献表述 5. 整体采用因果句式"...可..."，准确传达原文的生态学机制关系 6. 保留学术文本的严谨性，同时确保中文表达流畅自然） | de Boer, T. | PDF | | | 体外研究脑膜炎奈瑟菌定植与血管损伤的人体血管模型

（翻译说明： 1. 专业术语处理："in vitro"译为"体外"；"Neisseria meningitidis"采用医学标准译名"脑膜炎奈瑟菌"；"colonization"译为微生物学专业术语"定植" 2. 句式重构：将原文名词性短语转化为完整研究表述，通过添加"研究"明确研究性质 3. 逻辑显化：用连接词"与"清晰呈现两个研究对象的并列关系 4. 术语统一："vascular damages"采用临床病理学标准译法"血管损伤"而非字面直译 5. 学术规范：整体表述符合生物医学论文标题特征，保持简洁性（18个汉字）与准确性） | Pinon, L. | PDF | | | 微管作用力驱动LMNA心肌病中的核损伤

说明： 1. "Microtubule forces"译为"微管作用力"，准确保留了细胞骨架中微管的生物力学特性 2. "drive"译为"驱动"，符合力学传导的生物学表述 3. "nuclear damage"译为"核损伤"，专业表述细胞核结构异常 4. "LMNA cardiomyopathy"译为"LMNA心肌病"，规范使用基因名称LMNA（核纤层蛋白A/C基因）与疾病名称的医学命名 5. 整体采用"主语+谓语+宾语"的中文语序，同时保持被动语态的学术严谨性 6. 专业术语处理： - Microtubule = 微管（细胞骨架标准术语） - LMNA = LMNA（保留基因符号的国际命名） - cardiomyopathy = 心肌病（心血管疾病标准分类） | Amiad Pavlov, D. | PDF | | | 癌症驱动拓扑关联域识别致癌与抑癌长链非编码RNA

（翻译说明：
1. 专业术语处理：
- "Cancer Driver"译为"癌症驱动"，符合肿瘤基因组学命名规范
- "Topologically Associated Domains"采用学界通用译名"拓扑关联域"（TADs）
- "oncogenic/ tumor suppressive"分别译为"致癌/抑癌"，准确区分功能属性
- "lncRNAs"保留缩写形式并补充全称"长链非编码RNA"，符合首次出现术语的翻译规范

句式重构：
将原文名词短语转换为动宾结构"识别...RNA"，更符合中文标题表达习惯
通过"与"字连接对立概念，保持"oncogenic/suppressive"的二元对立关系
领域适配性：
采用"域"而非"结构域"的译法，更精准对应染色质三维结构研究术语
使用"识别"而非"发现"，体现生物信息学预测分析特性） | Rao, Z. | PDF | |

medRxiv

标题	作者	PDF链接	摘要
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF