arxiv 2025-05-22

标题	作者	PDF链接	摘要
InstructSAM：一种面向指令的遥感目标识别免训练框架

（翻译说明： 1. 专有名词保留原意："InstructSAM"作为算法名称采用音译结合意译，保留"SAM"缩写识别度 2. 核心术语准确对应："Training-Free"译为"免训练"符合机器学习领域规范 3. 技术概念精确传达："Instruction-Oriented"译为"面向指令的"准确体现算法特性 4. 学科术语统一："Remote Sensing Object Recognition"译为"遥感目标识别"采用测绘遥感学科标准译法 5. 框架类型表述："Framework"译为"框架"符合计算机领域术语习惯） | Yijie Zheng | PDF | Language-Guided object recognition in remote sensing imagery is crucial for large-scale mapping and [翻译失败] | | 通过思维混合学习进行逻辑推理

或更学术化的表达：

基于混合思维方法的逻辑推理学习

说明： 1. "Learning to Reason"译为"学习进行推理"或"推理学习"，采用动名词结构保持学术性 2. "Mixture-of-Thought"译为"思维混合"或"混合思维"，保留术语的复合词形式 3. "Logical Reasoning"译为"逻辑推理"，使用学科标准译法 4. 整体采用"方式+目的"的学术论文标题常见结构 5. 两种译法分别侧重： - 第一种更简洁直接 - 第二种更突出方法论特征 6. 均保持了原标题的技术性表述，避免口语化翻译 | Tong Zheng | PDF | 人类天生会运用多种推理模态来学习和解决逻辑问题，这些模态包括自然语言、代码和符号逻辑等不同的表征形式。相比之下，现有大多数基于大语言模型（LLM）的方法在训练过程中仅采用单一推理模态（通常是自然语言）。尽管部分方法尝试在推理阶段进行模态选择或增强，但训练过程仍缺乏模态感知能力，限制了多模态间的协同效应。为填补这一空白，我们提出"思维混合"（Mixture-of-Thought，MoT）框架，使大语言模型能够在三种互补模态中进行推理：自然语言、代码以及新引入的符号模态——真值表。该真值表模态通过系统化枚举逻辑案例，可部分缓解自然语言推理中的关键失效模式。MoT采用两阶段设计：（1）自演化的MoT训练阶段，通过跨模态过滤后的自生成理论进行联合学习；（2）MoT推理阶段，充分整合三种模态的协同优势以提升预测质量。在FOLIO和ProofWriter等逻辑推理基准测试中，我们的MoT框架相比采用单一模态思维链的强基线模型持续取得显著优势，最高可获得+11.7个百分点的平均准确率提升。进一步分析表明：MoT框架能同时优化训练与推理阶段；对高难度逻辑问题尤为有效；不同模态贡献互补优势，其中真值表推理能有效突破自然语言推理的关键瓶颈。 | | 《精简而不妥协——大型多模态模型中的计算冗余优化》

翻译说明： 1. 主标题采用意译策略，将"Streamline Without Sacrifice"译为"精简而不妥协"，既保留了原意又符合中文标题的简洁性 2. 副标题直译与意译结合："Squeeze out"译为"优化"而非字面的"挤出"，更符合学术语境；"Computation Redundancy"专业术语准确译为"计算冗余" 3. "LMM"作为专业缩写保留不译，因在计算机领域"大型多模态模型"的英文缩写LMM已形成行业共识 4. 整体采用破折号连接的双标题结构，与原文格式保持一致 5. 中文标题通过添加引导号《》强化学术文献特征，符合中文期刊标题规范

（翻译说明： 1. "Taxonomy"译为"分类体系"，符合计算机视觉领域对方法分类的规范表述 2. "Structure from Motion"采用学界通用译名"运动恢复结构"，特指通过相机运动恢复三维结构的计算机视觉技术 3. "Methods"译为"方法"保持学术文本的简洁性 4. 整体采用偏正结构的名词短语，符合中文论文标题的语法特征 5. 保留原术语首字母大写的专业格式要求） | Federica Arrigoni | PDF | 运动恢复结构（Structure from Motion，SfM）是指从多幅图像中的点对应关系出发，同时恢复场景结构（即场景中点的三维坐标）和运动（即相机矩阵）的问题。该领域多年来持续受到广泛关注，既形成了实用的三维重建流程，也产出了重要的理论成果。本文旨在对SfM方法进行概念性综述，根据其研究侧重点——运动或结构——将现有方法划分为三大类。所提出的分类体系为现有SfM方法提供了新的审视视角，并对开放性问题及未来可能的研究方向提出了见解。研究特别强调了确定SfM问题适定性的理论条件，这些条件取决于所采用的具体问题表述形式。

（说明：本译文严格遵循学术翻译规范，具有以下特点： 1. 专业术语准确处理："point correspondences"译为"点对应关系"，"camera matrices"译为"相机矩阵" 2. 被动语态转化："are grouped into"译为主动态的"划分为" 3. 长句拆分：将原文复合句按中文表达习惯分解为多个短句 4. 概念精确传达："well posed"译为专业数学术语"适定性" 5. 句式结构调整：将英文后置定语"which depend on..."转换为中文前置分句 6. 学术风格保持：使用"所提出的"、"审视视角"等符合学术论文表达的措辞） | | 元学习：构建人类高级视觉皮层上下文Transformer模型的探索

（翻译说明： 1. 专业术语处理： - "Meta-Learning"译为"元学习"，保留机器学习领域标准译法 - "In-Context"译为"上下文"，符合Transformer模型的语境处理特性 - "Higher Visual Cortex"译为"高级视觉皮层"，准确对应神经解剖学术语

句式结构调整：将英文名词短语转换为中文动词结构"构建...的探索"，更符合中文表达习惯通过冒号分层呈现核心概念与研究方法
学术准确性保障：严格保持"Transformer模型"的原技术命名 "人类高级视觉皮层"完整保留神经科学概念体系
补充说明：该标题涉及认知神经科学与人工智能的交叉研究，翻译时特别注意了两个学科术语系统的兼容性 "In-Context"的翻译强调模型处理视觉信息时的环境依赖特性） | Muquan Yu | PDF | Understanding functional representations within higher visual cortex is a fundamental question in co [翻译失败] | | 利用预训练扩散模型的强大注意力机制实现基于范例的图像着色

（翻译说明： 1. "Leveraging"译为"利用"，准确传达原文"充分利用已有资源"的含义 2. "Powerful Attention"译为"强大注意力机制"，保留深度学习专业术语的准确性 3. "Pre-trained Diffusion Model"译为"预训练扩散模型"，符合人工智能领域术语规范 4. "Exemplar-based"译为"基于范例"，准确表达以参考图像为着色依据的技术特征 5. "Image Colorization"译为"图像着色"，采用计算机视觉领域通用译法 6. 整体采用"实现"替代直译"for"，使中文表达更符合学术论文标题习惯 7. 保持原标题的学术严谨性，同时确保中文表达流畅自然） | Satoshi Kosugi | PDF | Exemplar-based image colorization aims to colorize a grayscale image using a reference color image, [翻译失败] | | 关于狭义人工智能的创建：神经网络技能的层级性与非局域性

（翻译说明： 1. "narrow AI"采用学界通用译法"狭义人工智能"，与通用人工智能(AGI)形成区分 2. "hierarchy"译为"层级性"准确体现神经网络的层次化特征 3. "nonlocality"译为"非局域性"符合物理学/数学术语规范，指代神经网络中跨层级的全局关联特性 4. 整体采用"的"字结构保持学术文本的严谨性，通过冒号分隔实现原文的标题式表达 5. "skills"译为"技能"而非"能力"，更契合人工智能领域对特定任务处理能力的表述惯例） | Eric J. Michaud | PDF | 我们研究如何构建强大而专精的狭义人工智能系统。尽管当前人工智能的发展主要由训练大规模通用基础模型推动，但开发专门针对特定领域的小型模型在效率与安全性方面均具有重要价值。本研究重点探讨构建此类系统时涉及的两个关键挑战，这些挑战与神经网络学习机制及其表征结构的基本特性密切相关。

第一个挑战涉及从头训练专精模型的可行性条件。通过合成任务的实验，我们发现有时必须基于广泛的数据分布进行训练，才能掌握该分布范围内的某些特定技能。当技能之间存在层级依赖关系时，这种效应尤为显著——宽泛分布的训练会自然形成课程学习机制，从而显著加速学习进程。

第二个挑战聚焦于如何将大型通用模型中的特定能力迁移至小型专用模型。研究发现，模型技能往往无法完全定位至特定可剪枝组件。尽管如此，基于剪枝的方法仍能超越知识蒸馏的效果。我们探索了利用正则化目标的双重作用：既能使目标技能与可剪枝组件对齐，又可主动遗忘非必要技能。 | | GUI-G1：理解GUI智能体中基于R1-Zero类训练的视觉定位方法

（翻译说明： 1. 专业术语处理： - "Visual Grounding"译为"视觉定位"，符合计算机视觉领域术语规范 - "GUI Agents"译为"GUI智能体"，保留GUI缩写的同时准确表达智能体概念 - "R1-Zero-Like Training"译为"R1-Zero类训练"，保留原始算法名称的专有性

技术概念传达：
采用"类训练"而非直译"类似训练"，更符合中文技术文献表述习惯
"Understanding"译为"理解"而非"了解"，体现学术研究的深度认知过程
格式规范：
严格保留原始编号"GUI-G1"格式
使用中文破折号"——"替代英文连字符"-"，符合中文排版规范
标题末尾不加标点，遵循中文技术标题惯例
学术风格：
使用"基于...方法"的学术句式
保持术语一致性，为后续可能出现的"R1-Zero"相关技术描述建立统一译名基础） | Yuqi Zhou | PDF | Recent Graphical User Interface (GUI) agents replicate the R1-Zero paradigm, coupling online Reinfor [翻译失败] | | MMaDA：多模态大扩散语言模型

翻译说明： 1. 保留了英文缩写"MMaDA"作为专有名词首字母缩写 2. "Multimodal"译为"多模态"，准确对应计算机领域术语 3. "Large"译为"大"，符合当前AI领域对大规模模型的表述惯例（如"大语言模型"） 4. "Diffusion"译为"扩散"，准确表达扩散模型这一深度学习技术 5. "Language Models"译为"语言模型"，保持专业术语一致性

翻译说明： 1. "Neural"译为"神经"，准确对应神经网络相关语境 2. "Conditional"译为"条件"，符合概率论与统计学中的标准术语 3. "Transport Maps"译为"传输映射"，采用计算数学和最优传输理论领域的专业译法 4. 整体采用直译策略，完整保留原标题的技术含义，符合机器学习领域的术语规范 5. 该译法与《IEEE神经网络与学习系统汇刊》等顶级期刊的中文文献用词保持一致 | Carlos Rodriguez-Pardo | PDF | 我们提出了一种用于学习概率分布间条件最优传输（OT）映射的神经网络框架。该框架创新性地引入了能同时处理分类与连续条件变量的调节机制。方法的核心在于采用超网络架构，根据输入条件动态生成传输层参数，由此构建的自适应映射显著优于传统调节方法。系统的消融实验验证了本方法在基准配置上的卓越性能。此外，我们展示了该方法在全球敏感性分析中的应用，在计算基于OT的敏感性指标时表现出优异性能。本研究推动了条件最优传输领域的前沿发展，使最优传输原理能更广泛地应用于生成建模与黑箱模型可解释性等复杂高维领域。 |