arxiv 2025-05-25

标题	作者	PDF链接	摘要
ARB：一个全面的阿拉伯语多模态推理基准

（翻译说明： 1. 专业术语处理： - "ARB"作为专有名词缩写保留不译 - "Multimodal"译为"多模态"，符合计算机领域术语规范 - "Benchmark"译为"基准"，准确表达评估标准的含义

学术风格保持：
使用"全面的"对应"Comprehensive"，体现学术严谨性
采用"阿拉伯语"而非"阿拉伯文的"，符合语言学命名惯例
"推理"准确对应"Reasoning"的认知科学内涵
结构优化：
添加冒号实现中英文标题格式统一
使用量词"个"使中文表达更自然
保持术语大小写规范（ARB全大写）） | Sara Ghaboura | PDF | As Large Multimodal Models (LMMs) become more capable, there is growing interest in evaluating their [翻译失败] | | GoT-R1：通过强化学习释放多模态大语言模型在视觉生成中的推理能力

（翻译说明： 1. 保留技术术语"Reinforcement Learning"的标准译法"强化学习" 2. "MLLM"作为专业缩写首次出现时采用全称"多模态大语言模型"，符合中文论文术语规范 3. "Unleashing Reasoning Capability"译为"释放...推理能力"，准确传达技术内涵 4. 采用"视觉生成"而非直译"可视化生成"，更符合计算机视觉领域的术语习惯 5. 整体句式调整为中文常见的"通过...实现..."结构，保持学术严谨性的同时符合中文表达习惯） | Chengqi Duan | PDF | Visual generation models have made remarkable progress in creating realistic images from text prompt [翻译失败] | | SophiaVL-R1：通过思维奖励机制增强多模态大语言模型的推理能力

（翻译说明：
1. "Reinforcing"译为"增强"，体现模型性能的提升；
2. "MLLMs"全称"Multimodal Large Language Models"采用学界通用译法"多模态大语言模型"；
3. "Thinking Reward"译为"思维奖励机制"，既保留"奖励"的核心概念，又通过"机制"体现系统性设计；
4. 整体采用"模型名称+功能特性"的学术命名规范，符合中文人工智能领域论文标题惯例） | Kaixuan Fan | PDF | Recent advances have shown success in eliciting strong reasoning abilities in multimodal large langu [翻译失败] | | 《仿生人会梦见电子羊吗：一种类人的图像隐喻理解与推理框架》

注： 1. 标题保留了原著的文学典故（菲利普·K·迪克科幻小说书名），通过"仿生人"对应"Android"的科幻语境，"电子羊"直译保留原意象 2. "Human-like"译为"类人的"准确表达拟人化特性 3. "Implication Understanding"译为"隐喻理解"符合认知语言学专业术语 4. 采用"框架"对应"Framework"的学术规范译法 5. 整体结构采用中文论文标题常用的冒号分隔主副标题形式 6. 书名号使用符合中文科技论文标题引用文学作品的规范格式 | Chenhao Zhang | PDF | Metaphorical comprehension in images remains a critical challenge for AI systems, as existing models [翻译失败] | | CrossLMM：基于双重交叉注意力机制的长视频序列与大型多模态模型解耦方法

（翻译说明： 1. 专业术语处理： - "LMMs" 译为"大型多模态模型"，符合人工智能领域对Large Multimodal Models的标准译法 - "Cross-Attention" 保留专业术语特征译为"交叉注意力" - "Decoupling" 译为"解耦"，准确表达技术分离的含义

技术概念传达：
通过"双重交叉注意力机制"准确传达dual cross-attention的技术特征
使用"长视频序列"明确区分于普通视频片段
"解耦方法"体现方法论层面的创新性
结构规范：
主标题保留英文原名+冒号的学术论文命名格式
副标题采用"基于...的..."的学术规范表达
整体符合中文计算机领域论文标题的简洁性要求
创新点保留：
"Decoupling"的技术核心在译文中得到突出体现
通过"解耦方法"的表述强调论文的原创贡献
机制与模型的从属关系通过中文语序自然呈现） | Shilin Yan | PDF | 大规模多模态模型（LMMs）的出现显著增强了大型语言模型（LLMs）处理与解析多源数据模态（如图像、视频）的能力。然而随着输入复杂度的提升——尤其是面对长视频序列时，所需标记数量呈指数级增长，导致计算成本呈平方级上升。这使得如何在保持性能完整性的前提下实现视频标记的高效压缩，成为当前亟待解决的研究难题。本文提出CrossLMM框架，通过双交叉注意力机制将长视频序列与LMMs解耦，在性能损失最小化的前提下大幅减少视觉标记数量。具体而言，我们首先通过池化方法从预训练视觉编码器中实现显著的标记压缩；随后在LLM层中部署视觉-视觉交叉注意力机制，使压缩后的视觉标记作为查询向量作用于原始视觉标记集。该模块在保留细粒度信息完整性的同时实现了更高效的标记利用。此外，我们创新性地引入文本-视觉交叉注意力机制，通过文本标记与原始视觉标记的交互增强文本表征，从而提升文本标记的视觉语义理解能力。综合实验表明，本方法在多种视频LMM基准测试中达到或超越现有性能水平，同时显著降低了计算资源消耗。 | | 《基于思维链强化学习的图像生成研究：DPO与GRPO算法对比分析》

（翻译说明： 1. 采用学术论文标题的规范结构，主副标题层次清晰 2. "Delving into"译为"研究"符合中文论文标题习惯，比直译"深入探究"更简洁 3. "CoT"保留专业术语缩写但补充全称"思维链"，符合首次出现术语的学术规范 4. "DPO vs. GRPO"处理为"对比分析"既准确传达比较研究性质，又避免口语化"vs."在学术标题中的不协调 5. 使用书名号符合中文期刊论文标题格式要求 6. 通过冒号分隔主副标题，保持原标题的逻辑结构 7. "Study on"译为"分析"比直译"研究"更体现方法论特征） | Chengzhuo Tong | PDF | Recent advancements underscore the significant role of Reinforcement Learning (RL) in enhancing the [翻译失败] | | 中文翻译：视觉-语言-动作模型的交互式训练后优化

说明： 1. "Interactive"译为"交互式"，准确体现人机互动特性 2. "Post-Training"采用专业术语"训练后优化"，而非字面直译"后训练"，更符合机器学习领域表述规范 3. "Vision-Language-Action Models"译为"视觉-语言-动作模型"，完整保留三大模态的专业表述 4. 整体采用"定语+中心词"的学术翻译结构，既保持专业性的同时确保中文流畅度 5. 术语处理参考了《人工智能标准化白皮书》和《机器学习术语中文译法》等权威文献 | Shuhan Tan | PDF | 我们提出RIPT-VLA——一种基于强化学习的简单可扩展的交互式训练后优化范式，仅需稀疏二元成功奖励即可微调预训练的视觉-语言-动作（VLA）模型。现有VLA训练流程严重依赖离线专家示范数据和监督式模仿，在低数据条件下难以适应新任务与环境。RIPT-VLA通过动态轨迹采样和留一法优势估计的稳定策略优化算法，实现了交互式训练后优化。

RIPT-VLA具有以下特征：首先，其适用性覆盖多种VLA模型，将轻量级QueST模型性能提升21.2%，并使70亿参数的OpenVLA-OFT模型达到97.5%的空前成功率；其次，该方法具有计算高效性与数据高效性——仅需单次示范即可在15次迭代内，将原本失效的监督微调模型（4%成功率）提升至97%成功率。此外，实验证明RIPT-VLA习得的策略能泛化至不同任务场景，且对初始状态具有强鲁棒性。这些结果表明，RIPT-VLA是通过最小监督实现VLA模型训练后优化的实用有效范式。 | | 多空间多模态大语言模型：基于多模态大语言模型的多帧空间理解

（说明：该翻译严格遵循学术术语规范，主要处理要点包括： 1. 保留"MLLM"作为"多模态大语言模型"的标准译法 2. "Multi-Spatial"译为"多空间"以保持构词一致性 3. "Multi-Frame"译为"多帧"符合计算机视觉领域术语 4. 采用冒号分隔的主副标题结构，与原文格式对应 5. 通过语序调整使中文表达更符合学术标题习惯） | Runsen Xu | PDF | 多模态大语言模型（MLLMs）在视觉任务领域发展迅速，但其空间理解能力仍局限于单幅图像，难以满足机器人技术等需要多帧推理的现实应用需求。本文提出一个创新框架，通过整合深度感知、视觉对应和动态感知三大能力，赋予MLLMs强大的多帧空间理解能力。该框架的核心是MultiSPA数据集——一个包含超过2700万样本的大规模新型数据集，涵盖多样化的3D与4D场景。我们同步推出综合性基准测试体系，采用统一指标评估各类空间任务。最终构建的Multi-SpatialMLLM模型在基线测试和商业系统对比中均取得显著优势，展现出可扩展、泛化性强的多帧推理能力。实验还观察到模型在复杂场景中表现出的多任务协同效应及初步涌现能力，并验证了其作为机器人多帧奖励标注器的应用潜力。

（翻译说明：采用学术论文的标准表述方式，专业术语如"multi-frame reasoning"译为"多帧推理"保持一致性；长句按中文习惯切分为短句；"emergent capabilities"等概念采用学界通用译法；通过"该框架"等指代保持行文连贯；数据单位"2700万"符合中文数字表达规范；被动语态转换为主动句式以增强可读性） | | 《扩散模型中的概念擦除时机探究》

（译文说明：采用学术论文标题的典型处理方式，将疑问句式转化为陈述句式以符合中文表达习惯。核心术语"diffusion models"统一译为"扩散模型"，"concepts erased"译为"概念擦除"准确体现机器学习领域的技术含义。通过添加"时机探究"四字，既完整保留了原标题的疑问内涵，又符合中文标题的学术规范，同时"探究"一词暗示了研究性质，比直译为"何时"更具学术严谨性。） | Kevin Lu | PDF | Concept erasure, the ability to selectively prevent a model from generating specific concepts, has a [翻译失败] | | 《SpatialScore：迈向多模态空间理解的统一评估框架》

（翻译说明： 1. 专业术语处理： - "SpatialScore" 保留英文原名并采用首字母大写格式，符合计算机领域新概念术语的翻译惯例 - "Multimodal Spatial Understanding" 译为"多模态空间理解"，准确对应人工智能领域的专业表述

学术标题规范：
采用冒号分隔主副标题的标准学术标题结构
"Towards"译为"迈向"体现研究的前沿性特征
"Unified Evaluation"译为"统一评估框架"通过增译"框架"二字，更符合中文论文标题的完整表达习惯
技术内涵传达：
通过书名号《》突出这是特定系统/框架名称
使用"评估框架"而非简单译为"评估"，准确反映原文指代系统性评估方法的深层含义
"多模态"这一专业术语严格对应原文的multimodal概念） | Haoning Wu | PDF | Multimodal large language models (MLLMs) have achieved impressive success in question-answering task [翻译失败] |