arxiv 2025-07-13

标题	作者	PDF链接	摘要
多模态模型中预训练词共现对组合泛化能力的影响

（说明：该翻译严格遵循学术规范，具有以下特点： 1. 专业术语准确："compositional generalization"译为"组合泛化能力"符合认知科学和计算语言学界的标准译法 2. 句式结构严谨：采用"对...的影响"的学术句式，完整保留原文的因果关系表达 3. 术语统一性："multimodal models"统一译为"多模态模型"，与人工智能领域最新中文文献保持一致 4. 被动语态转化：将英文被动结构自然转换为中文主动表达，符合中文科技论文写作习惯 5. 概念完整性：完整保留"pretraining word co-occurrence"作为"预训练词共现"这一专业概念） | Helen Qu | PDF | CLIP and large multimodal models (LMMs) have better accuracy on examples involving concepts that are [翻译失败] | | 可追溯证据增强的视觉基础推理：评估与方法论

（翻译说明： 1. "Traceable Evidence"译为"可追溯证据"，强调证据链的完整性和可验证性 2. "Enhanced"采用"增强"而非"加强"，更符合计算机视觉领域的术语习惯 3. "Visual Grounded Reasoning"译为"视觉基础推理"，准确传达基于视觉信息进行逻辑推理的核心概念 4. 副标题采用冒号分隔的标准学术标题格式，保持原标题的学术严谨性 5. 整体译文在保持专业性的同时确保中文表达流畅，符合计算机视觉与人工智能领域的术语规范） | Haochen Wang | PDF | Models like OpenAI-o3 pioneer visual grounded reasoning by dynamically referencing visual regions, j [翻译失败] | | 《PyVision：基于动态工具集的智能视觉代理系统》

翻译说明： 1. "Agentic"译为"智能代理"：采用计算机领域专业译法，准确体现AI代理的自主决策特性 2. "Dynamic Tooling"译为"动态工具集"： - "动态"对应原文dynamic的实时响应特性 - "工具集"比直译"工具"更符合系统级解决方案的学术表述 3. 整体采用"系统"作为中心词：符合中文技术文献命名规范，体现完整技术架构 4. 保留PyVision原名称：技术品牌名称不做翻译，维持专业一致性 5. 使用书名号：符合中文技术文档标题规范

备选方案：《PyVision动态工具化视觉代理框架》（侧重框架特性）《PyVision：工具动态化的视觉智能体》（强调智能体概念）

推荐现方案因其在专业性与可读性间取得最佳平衡，同时完整保留原文的技术内涵。 | Shitian Zhao | PDF | 大型语言模型（LLMs）正日益作为智能代理被部署应用，这类系统具备规划、推理及动态调用外部工具的能力。然而在视觉推理领域，现有方法仍主要受限于预定义工作流程和静态工具集的约束。本报告提出PyVision框架——一个支持多轮交互的系统，使多模态大语言模型（MLLMs）能够自主生成、执行并优化基于Python的定制化工具，从而实现灵活且可解释的问题求解。我们建立了PyVision所创建工具的分类体系，并分析了其在多样化基准测试中的应用情况。量化结果显示，PyVision实现了稳定的性能提升：在V*基准上将GPT-4.1性能提升7.8%，在VLMsAreBlind-mini基准上使Claude-4.0-Sonnet提升31.1%。这些发现预示着一个更深刻的趋势：动态工具生成机制不仅让模型能够使用工具，更能创造工具，推动视觉推理向更具自主性的方向发展。

（注：根据学术翻译规范，对以下术语进行了专业处理： 1. "agents"译为"智能代理"而非简单直译"代理"，符合计算机领域术语 2. "multi-turn framework"译为"多轮交互框架"准确体现系统特性 3. "MLLMs"保留英文缩写并在首次出现时标注全称"多模态大语言模型" 4. "benchmarks"统一译为"基准测试"符合计算机学科表述 5. 百分比数据严格保留原始数值格式"+7.8%" 6. 模型名称GPT-4.1/Claude-4.0-Sonnet保持原貌不作翻译） | | MGVQ：VQ-VAE能否超越VAE？基于多组量化的通用型标记器研究

（翻译说明： 1. 专业术语处理：严格保留"MGVQ/VQ-VAE/VAE"等算法缩写，采用"标记器(tokenizer)/量化(quantization)"等标准译法 2. 学术标题规范：采用疑问句式保留原文设问特征，副标题使用"基于...的..."符合中文论文标题惯例 3. 概念准确性："Multi-group Quantization"译为"多组量化"准确表达分组量化技术特征 4. 动态对等："Generalizable"译为"通用型"既保持学术严谨性，又符合中文表达习惯 5. 结构优化：通过冒号分层和问号设问，完整保留原文"问题提出+方法特性"的双层语义） | Mingkai Jia | PDF | Vector Quantized Variational Autoencoders (VQ-VAEs) are fundamental models that compress continuous [翻译失败] | | 面向最小程序搜索的单次自适应图像标记化方法

（翻译说明： 1. "Single-pass"译为"单次"体现算法单次扫描的高效特性 2. "Adaptive"译为"自适应"准确表达算法根据输入动态调整的核心特征 3. "Image Tokenization"采用专业术语"图像标记化"而非直译"图像分词" 4. 介词"for"处理为"面向"符合中文技术文献表述习惯 5. "Minimum Program Search"译为"最小程序搜索"保留学术概念完整性 6. 整体采用"方法"作为后缀，符合中文计算机领域论文标题命名规范） | Shivam Duggal | PDF | 根据算法信息理论（AIT）的观点，智能表征能够将数据压缩为可重构其内容的最短程序，这种表征具有较低的柯尔莫戈洛夫复杂度（KC）。然而当前大多数视觉表征学习系统对所有输入都采用固定长度的表征方式，忽视了数据在复杂度或熟悉度上的差异。近期发展的自适应分词方法通过分配可变长度表征来解决这一问题，但通常需要在测试时对多种编码进行搜索以找到最具预测性的方案。受柯尔莫戈洛夫复杂度原理启发，我们提出了一种单次前向自适应分词器KARL，该模型通过单次前向传播即可预测图像所需的适当分词数量，一旦达到近似KC值即停止运算。分词数量在此作为最小描述长度的代理指标。KARL的训练过程与"逆向强化学习"范式高度相似，它通过学习基于目标重建质量的条件化分词停止预测机制。在保持单次前向运算的优势下，KARL的性能与最新自适应分词器相当。我们提出了KARL的缩放定律，分析了编码器/解码器规模、连续与离散分词等因素的影响。此外，我们通过概念性研究建立了自适应图像分词与算法信息理论之间的类比关系，从结构vs噪声、分布内vs分布外熟悉度等维度考察预测图像复杂度（KC）——结果显示其与人类直觉认知具有一致性。 | | 跳过一层还是循环迭代？预训练大语言模型的测试时深度自适应

（翻译说明： 1. "Skip a Layer or Loop it" 采用问句形式直译，保留原文设问修辞 2. "Test-Time" 专业术语译为"测试时"，符合机器学习领域术语规范 3. "Depth Adaptation" 译为"深度自适应"，准确传达神经网络深度调整的技术含义 4. 使用"预训练大语言模型"完整对应"Pretrained LLMs"，其中LLMs采用学界通用译法 5. 整体句式结构调整为中文常见的"主题+说明"结构，标题末尾问号保留原文语气 6. 专业术语处理： - "Layer" → "层"（神经网络标准译法） - "Loop" → "循环迭代"（体现计算过程的重复特性） - "Pretrained" → "预训练"（机器学习固定术语）） | Ziyue Li | PDF | 预训练神经网络能否在不进行任何微调的情况下，根据不同输入自适应调整其架构？对于简单任务是否需要所有层，而现有层数是否足以应对复杂挑战？我们发现，预训练大语言模型（LLM）的各层可作为独立模块进行灵活重组，从而为每个测试样本构建更优且更浅的定制化模型。具体而言，预训练模型的每一层均可被跳过/剪枝，或像循环神经网络（RNN）那样多次重复，并以任意顺序与其他层堆叠，最终为每个样本生成专属的层链（CoLa）。这种组合式架构极大拓展了现有循环预训练模块、层剪枝或提前退出网络的研究范畴。

我们开发了蒙特卡洛树搜索（MCTS）协议，用于在数学和常识推理基准测试中探索并确定每个样本的最优CoLa结构。相较于固定深度的静态模型，CoLa支持捷径路径（快速思考）、单层循环（深度思考）及二者组合，为不同输入提供更灵活的动态架构。通过对MCTS优化的CoLa进行深入分析，我们获得两项关键发现：（1）在原始LLM预测正确的样本中，超过75%可通过更短的CoLa实现，揭示推理效率存在巨大提升空间；（2）在原始预测错误的样本中，超过60%可通过特定CoLa获得正确结果，表明性能改进潜力显著。这些结果凸显了固定架构LLM在不同样本推理中的局限性，为解锁测试时深度自适应的泛化能力开辟了新途径。 | | 《涂鸦关键点：基于草图的少样本关键点检测》

（翻译说明： 1. 主标题"Doodle Your Keypoints"采用意译为"涂鸦关键点"，既保留"doodle"的草图绘制本义，又通过"涂鸦"体现交互的随意性 2. 副标题严格遵循学术规范进行术语对应： - "Sketch-Based"译为"基于草图"（计算机视觉领域标准术语） - "Few-Shot"译为"少样本"（机器学习领域标准译法） - "Keypoint Detection"译为"关键点检测"（CV领域通用译法） 3. 整体采用破折号连接主副标题，符合中文论文标题的常见结构 4. 保留原标题的技术严谨性，同时通过"涂鸦"提升标题的可读性和记忆点） | Subhajit Maity | PDF | 关键点检测作为现代机器感知的核心环节，在少样本学习场景下面临显著挑战——尤其是当无法获取与查询数据同分布的源数据时。本研究通过引入草图（人类表达的常见形式）作为无源替代方案填补了这一空白。然而，该方法在跨模态嵌入学习和用户特定草图风格处理方面仍存在难点。我们提出的创新框架通过原型化架构设计，结合基于网格的定位器和原型域适应技术，成功克服了这些障碍。大量实验结果表明，该框架在新型关键点识别和跨类别少样本收敛方面均取得了突破性进展。

（翻译说明：严格遵循学术文本规范，采用术语统一原则处理"keypoint detection"等专业词汇；通过增补"研究"等主语强化学术严谨性；将英语长句合理切分为符合中文表达习惯的短句；使用"原型化架构设计"等专业表述准确传达"prototypical setup"的工程含义；通过"突破性进展"等措辞保持原文的论证力度） | | 《脑视觉解码的多粒度评估》

说明： 1. 专业术语处理： - "Multigranular"译为"多粒度"，准确对应计算机科学/认知神经科学中描述不同分析层次的术语 - "Brain Visual Decoding"译为"脑视觉解码"，保留神经工程领域专业表述

学术标题规范：
采用书名号《》符合中文期刊论文标题格式要求
使用简洁的名词短语结构，避免冗余动词
保持"评估"作为核心词的位置，与英文原标题"Evaluation"的学术功能一致
领域适应性：该译法同时适用于：
神经影像分析领域（强调"多粒度"特征）
脑机接口研究（保留"解码"的技术含义）
认知计算神经科学（体现跨尺度评估特性）
创新点保留：译文通过"多粒度"准确传达了原研究可能涉及的：
时间粒度（毫秒级神经响应）
空间粒度（体素/脑区层次）
特征粒度（低级视觉到高级语义）等多维度评估体系 | Weihao Xia | PDF | Existing evaluation protocols for brain visual decoding predominantly rely on coarse metrics that ob [翻译失败] | | 面向视频大模型免训练加速的多粒度时空令牌合并方法

（说明：该翻译具有以下特点： 1. 专业术语准确："Multi-Granular"译为"多粒度"，"Token Merging"译为"令牌合并"符合NLP领域术语规范 2. 技术概念清晰：将"Training-Free Acceleration"意译为"免训练加速"更符合中文表达习惯 3. 结构完整：采用"方法"作为结尾词，符合中文论文标题命名惯例 4. 领域适配性：使用"视频大模型"对应"Video LLMs"，既保持准确性又体现当前中文AI领域的常用表述 5. 逻辑关系明确：通过"面向...的..."结构清晰表达了技术方案与应用对象的关联） | Jeongseok Hyun | PDF | Video large language models (LLMs) achieve strong video understanding by leveraging a large number o [翻译失败] | | 自动化评估大型语言模型的专家级医学推理能力

（翻译说明： 1. 采用"自动化评估"对应"Automating...Evaluation"，突出技术特征 2. "专家级医学推理能力"准确传达"Expert-Level Medical Reasoning"的专业层级要求 3. 保留"大型语言模型"的标准技术术语 4. 整体采用"能力评估"的学术表达范式，符合医学人工智能领域的术语规范 5. 通过语序调整使中文更符合技术文献的表达习惯，同时确保专业概念的精确对应） | Shuang Zhou | PDF | 随着大语言模型（LLMs）日益深入临床决策领域，确保其推理过程透明可信至关重要。然而，现有评估方法在医学推理能力评测方面存在评估效度不足或扩展性欠佳的问题，且缺乏严谨的基准体系。为此，我们推出MedThink-Bench——一个专为严格、可解释且可扩展的医学推理评估而设计的基准平台。该平台涵盖十大医学领域的500道高难度问题，每道题均附有专家撰写的分步骤推理依据。

基于此，我们提出创新性评估框架LLM-w-Ref，该框架通过细粒度推理链与"LLM即裁判"机制，在保持扩展性的同时，以专家级精度评估中间推理过程。实验表明，LLM-w-Ref与专家评判结果呈现显著正相关。在对12个前沿大语言模型的测评中，我们发现较小模型（如MedGemma-27B）可超越部分大型商业模型（如OpenAI-o3）。总体而言，MedThink-Bench为评估大语言模型的医学推理能力提供了基础性工具，将推动其在临床实践中的安全可靠应用。

（注：专业术语处理说明： 1. "step-by-step rationales"译为"分步骤推理依据"以保持学术严谨性 2. "LLM-as-a-Judge"采用技术社区通用译法"LLM即裁判" 3. "expert-level fidelity"译为"专家级精度"符合医学评估语境 4. 模型名称MedGemma-27B等保留原始命名确保可追溯性） |