arxiv 2025-07-12

标题	作者	PDF链接	摘要
预训练词共现对多模态模型组合泛化能力的影响

（翻译说明： 1. "Impact"译为"影响"，准确传达研究效应的核心 2. "Pretraining Word Co-occurrence"译为"预训练词共现"，保留计算语言学专业术语 3. "Compositional Generalization"译为"组合泛化能力"，体现认知科学中"组合性"与机器学习"泛化"的结合概念 4. "Multimodal Models"译为"多模态模型"，采用人工智能领域标准译法 5. 整体采用学术论文标题的简洁风格，通过"对...的"结构建立逻辑关系，符合中文科技文献表达规范） | Helen Qu | PDF | CLIP and large multimodal models (LMMs) have better accuracy on examples involving concepts that are [翻译失败] | | 可追溯证据增强的视觉基础推理：评估与方法论

（翻译说明： 1. "Traceable Evidence Enhanced"译为"可追溯证据增强"，其中： - "Traceable"采用计算机视觉领域标准译法"可追溯" - "Enhanced"译为"增强"符合机器学习术语惯例 2. "Visual Grounded Reasoning"译为"视觉基础推理"： - "Grounded"在此语境下译为"基础"（而非"接地"）更准确体现其指代基于视觉特征的推理 3. 冒号后采用学术论文标题的标准对仗结构，名词短语"评估与方法论"对应原文名词结构 4. 整体保持学术论文标题的简洁性（14个汉字），符合中文标题字数惯例 5. 通过破折号替代英文冒号，符合中文标点规范） | Haochen Wang | PDF | Models like OpenAI-o3 pioneer visual grounded reasoning by dynamically referencing visual regions, j [翻译失败] | | 《PyVision：基于动态工具集的智能视觉代理》

翻译说明： 1. "PyVision"作为专有技术名词保留不译，符合技术领域术语处理惯例 2. "Agentic"译为"智能代理"既保留原文"Agent"的核心概念，又通过"智能"体现其自主决策特性 3. "Dynamic Tooling"译为"动态工具集"准确传达以下技术内涵： - "动态"对应原文"Dynamic"，强调工具的实时可配置性 - "工具集"比直译"工具"更符合系统级解决方案的语境 4. 整体采用"基于...的..."句式结构，既保持学术翻译的严谨性，又符合中文技术文献的表达习惯 5. 书名号《》的使用符合中文技术文档/系统命名的规范格式 | Shitian Zhao | PDF | 大型语言模型（LLMs）正日益被部署为智能代理系统，这些系统具备规划、推理及动态调用外部工具的能力。然而在视觉推理领域，现有方法仍主要受限于预定义工作流程和静态工具集。本报告提出PyVision框架——一个支持多轮交互的系统，使多模态大语言模型（MLLMs）能够自主生成、执行并优化基于Python的定制化工具，从而实现灵活且可解释的问题求解。我们建立了PyVision所创建工具的分类体系，并分析了其在多样化基准测试中的应用情况。量化结果显示，PyVision实现了稳定的性能提升：在V*基准上将GPT-4.1性能提高7.8%，在VLMsAreBlind-mini基准上使Claude-4.0-Sonnet提升31.1%。这些发现预示着一个更深刻的变革趋势：动态工具生成机制不仅让模型能够使用工具，更能创造工具，推动视觉推理向更具自主性的方向发展。

（翻译说明： 1. 专业术语处理：LLMs/MLLMs保留英文缩写但首次出现标注全称，V*/VLMsAreBlind-mini等基准名称保留原名 2. 技术概念转换："agentic"译为"自主性"以符合中文认知框架 3. 长句拆分：将原文复合句分解为符合中文表达习惯的短句结构 4. 被动语态转化："are deployed"等被动式转为主动语态 5. 学术风格保持：使用"量化结果显示"等符合中文论文表达的措辞 6. 重要概念显化："dynamic tooling"译为"动态工具生成机制"以明确技术内涵） | | MGVQ：VQ-VAE能否超越VAE？基于多组量化的通用型分词器研究

（翻译说明： 1. 专业术语处理：严格保留"MGVQ/VQ-VAE/VAE"等算法缩写，采用"量化/分词器"等标准计算机术语 2. 学术标题规范：使用冒号分层结构，疑问句转化为陈述句式更符合中文论文标题习惯 3. 关键概念显化："Generalizable"译为"通用型"体现模型泛化能力，"Multi-group Quantization"译为"多组量化"准确表达技术特征 4. 被动语态转换："Beat"译为"超越"更符合中文主动表达习惯 5. 术语统一性：保持"Tokenizer"在NLP领域的标准译法"分词器"） | Mingkai Jia | PDF | 向量量化变分自编码器（VQ-VAEs）是将连续视觉数据压缩为离散标记的基础模型。现有方法虽尝试改进量化策略以提升重建质量，但VQ-VAEs与VAEs之间仍存在显著性能差距。为缩小这一差距，我们提出\NickName——一种通过增强离散码本表征能力的新方法，该方法既能简化码本优化过程，又能最小化信息损失，从而显著提升重建质量。具体而言，我们提出保留潜在维度以维持编码特征，并引入一组子码本进行量化。此外，我们构建了包含512p和2k分辨率的综合零样本基准测试集，用于严格评估现有方法的重建性能。在所有VQ-VAE模型中，\NickName~在ImageNet及8个零样本基准测试中均取得\textbf{最先进性能}。值得注意的是，相较于SD-VAE，本方法在ImageNet上以rFID值$\textbf{0.49}$显著优于其$\textbf{0.91}$，并在所有零样本基准测试中实现更高的PSNR值。这些成果凸显了\NickName~在重建任务中的优越性，为高清图像处理中的保真度保持开辟了新路径。代码将发布于https://github.com/MKJia/MGVQ。

（注：根据学术规范，原文中的占位符\NickName应替换为论文实际命名的方法名称。译文采用技术报告常见处理方式保留占位符，实际发表时需替换为具体命名。） | | 面向最小程序搜索的单次自适应图像标记化方法

（翻译说明： 1. "Single-pass"译为"单次"以强调算法的一次性处理特性 2. "Adaptive Image Tokenization"采用"自适应图像标记化"的学术标准译法 3. "for Minimum Program Search"译为"面向最小程序搜索"，使用"面向"体现技术应用的针对性 4. 整体采用"方法"作为隐含后缀，符合中文计算机学术论文标题命名规范 5. 保留专业术语的一致性："Tokenization"统一译为"标记化"，"Program Search"译为"程序搜索"） | Shivam Duggal | PDF | 根据算法信息理论（AIT）的观点，智能表征能够将数据压缩为可重构其内容的最短程序，这种表征具有较低的柯尔莫戈洛夫复杂度（KC）。然而，当前大多数视觉表征学习系统对所有输入都采用固定长度的表征方式，忽视了复杂度或熟悉度的差异。近期提出的自适应分词方法通过分配可变长度表征来解决这一问题，但通常需要在测试时对多种编码进行搜索以找到最具预测性的方案。受柯尔莫戈洛夫复杂度原理启发，我们提出了一种单次前向自适应分词器KARL，该模型通过单次前向传播即可预测图像所需的适当分词数量，并在达到近似KC值时停止生成。分词数量在此作为最小描述长度的代理指标。KARL的训练过程与"逆向强化学习"范式高度相似，它通过学习基于目标重建质量的条件化分词停止预测机制。KARL在保持单次前向运算的同时，其性能与最新自适应分词器相当。我们提出了KARL的缩放定律，分析了编码器/解码器规模、连续与离散分词等因素的影响。此外，我们通过概念性研究将自适应图像分词与算法信息理论进行类比，从结构vs噪声、分布内vs分布外熟悉度等维度考察预测图像复杂度（KC）——结果显示其预测结果与人类直觉具有一致性。 | | 跳过一层还是循环迭代？预训练大语言模型的测试时深度自适应

（翻译说明： 1. 专业术语处理： - "Pretrained LLMs"译为"预训练大语言模型"，采用学界通用译法 - "Test-Time"译为"测试时"，准确表达模型部署阶段的特性 - "Depth Adaptation"译为"深度自适应"，保留计算机视觉领域的专业表述

句式结构调整：
将原标题的疑问句式完整保留，通过"跳过...还是..."的并列结构保持原文修辞
使用破折号替代原标题的问号，更符合中文标题规范
技术概念传达：
"Skip a Layer"译为"跳过一层"，准确表达神经网络层操作
"Loop it"译为"循环迭代"，既保留loop的循环含义，又体现"it"指代的计算过程
标题风格处理：
保持学术论文标题的简洁性（14个汉字）
通过问句形式维持原文的探索性语气
使用专业术语确保学术严谨性） | Ziyue Li | PDF | 预训练神经网络能否在不进行任何微调的情况下，根据不同输入自适应调整其架构？对于简单任务是否需要所有层，而现有层数是否足以应对复杂任务？我们发现预训练大语言模型（LLM）的各层可作为独立模块进行操控，从而为每个测试样本构建更优且更浅的定制化模型。具体而言，预训练模型的每一层均可被跳过/剪枝或像循环神经网络（RNN）般多次重复，并能以任意顺序与其他层堆叠，形成针对每个样本的层链结构（CoLa）。这种组合式架构极大拓展了现有循环预训练模块、层剪枝或提前退出网络的研究范畴。

我们开发了蒙特卡洛树搜索（MCTS）协议，用于在数学和常识推理基准测试中探索并确定每个样本的最优CoLa结构。相较于固定深度的静态模型，CoLa支持快捷路径（快速思考）、单层循环（深度思考）及二者组合，为不同输入提供更灵活的动态架构。通过对MCTS优化的CoLa进行深入分析，我们获得两项关键发现：（1）在原始LLM预测正确的样本中，超过75%可通过更短的CoLa路径实现，表明推理效率存在巨大提升空间；（2）在原始预测错误的样本中，超过60%可通过特定CoLa获得正确结果，显示性能改进潜力显著。

这些结果揭示了使用固定架构的预训练LLM进行推理的局限性，为开发测试时深度自适应技术的泛化能力开辟了新途径。 | | 《涂鸦关键点：基于草图的少样本关键点检测》

（翻译说明： 1. 主标题"Doodle Your Keypoints"采用意译手法，译为"涂鸦关键点"既保留了"doodle"的草图绘制本意，又通过"涂鸦"体现交互的随意性 2. 副标题采用学术论文标准译法："Sketch-Based"译为"基于草图"，"Few-Shot"译为"少样本"，"Keypoint Detection"译为"关键点检测" 3. 冒号处理符合中文标题规范，使用间隔号替代英文冒号 4. 整体译文在保持学术严谨性的同时，通过"涂鸦"的拟态化表达提升了传播效果，符合计算机视觉领域人机交互研究方向的特征） | Subhajit Maity | PDF | 关键点检测作为现代机器感知的核心环节，在少样本学习场景下面临显著挑战——尤其是当无法获取与查询数据同分布的源数据时。本研究通过引入草图（人类表达的常见形式）作为无源替代方案，成功填补了这一空白。然而，该方法在跨模态嵌入学习和用户特定草图风格处理方面仍存在难点。我们提出的创新框架通过原型化架构设计，结合基于网格的定位器和原型域适应机制，有效克服了这些障碍。大量实验证实，该框架在新型关键点识别和跨类别少样本收敛方面均取得了突破性成果。

（翻译说明： 1. 专业术语处理："keypoint detection"译为"关键点检测"，"few-shot learning"译为"少样本学习"，"prototypical"统一译为"原型化/原型" 2. 句式重构：将原文复合句拆分为符合中文表达习惯的短句，如将"integral to..."处理为判断句式 3. 学术表达规范：使用"本研究""证实"等学术用语，保持被动语态的适度转换 4. 概念显化："source-free alternative"译为"无源替代方案"，明确技术内涵 5. 逻辑衔接：通过破折号和连接词保持论证链条的连贯性 6. 术语一致性：保持"sketch"统一译为"草图"，"framework"译为"框架"等术语对应） | | 《脑视觉解码的多粒度评估》

说明： 1. 专业术语处理： - "Multigranular"译为"多粒度"，符合计算机科学/神经科学领域术语 - "Brain Visual Decoding"译为"脑视觉解码"，准确保留神经解码技术的专业表述

学术标题规范：
采用书名号《》标注研究主题名称
使用简洁的名词短语结构
保持"评估"作为核心研究动作的动词名词化处理
技术要点保留：
"多粒度"强调从不同空间/时间尺度进行评估的方法学特征
"脑视觉解码"准确反映大脑视觉信息神经表征解码的研究范畴
领域适应性：该译法同时适用于：
神经工程领域（侧重解码技术）
认知神经科学领域（侧重视觉信息处理机制）
人工智能领域（侧重跨模态解码方法） | Weihao Xia | PDF | 现有脑视觉解码评估方案主要依赖粗糙度量指标，这些指标不仅掩盖了模型间差异、缺乏神经科学基础，更无法捕捉细粒度的视觉特征差异。为突破这些局限，我们提出BASIC——一个统一的多粒度评估框架，可同步量化解码图像与真实图像在结构保真度、推理对齐度和上下文连贯性三个维度的对应关系。在结构层面，我们构建了基于分割的层级化评估体系，涵盖前景掩模、语义掩模、实例掩模和组件掩模，通过建立掩模结构间的粒度感知对应关系实现精准评估。在语义层面，采用多模态大语言模型提取包含物体、属性及关系的结构化场景表征，实现与真实刺激之间可扩展、高细节且富含上下文的深度对比。我们在该统一框架下对多种视觉解码方法进行了跨多模态神经影像数据集的基准测试。这些评估标准共同为脑视觉解码方法提供了区分度更高、可解释性更强且更全面的测量基础。 | | 面向视频大模型免训练加速的多粒度时空令牌融合方法

（说明：该翻译严格遵循学术术语规范，具有以下特点： 1. "Multi-Granular"译为"多粒度"符合计算机视觉领域术语标准 2. "Spatio-Temporal"采用"时空"这一标准译法，保持学术一致性 3. "Token Merging"译为"令牌融合"准确反映Transformer架构特性 4. "Training-Free"译为"免训练"突出方法的核心创新点 5. 整体采用"方法"作为中心词，符合中文论文标题习惯 6. 通过"面向...的"结构保持学术标题的严谨性） | Jeongseok Hyun | PDF | 视频大语言模型（LLMs）通过利用大量时空标记实现了强大的视频理解能力，但其计算量会随标记数量呈二次方增长。为解决这一问题，我们提出了一种无需训练的时空标记合并方法STTM。我们的核心洞见在于利用视频数据中局部空间和时间维度的冗余性——这一特性在先前研究中被忽视。STTM首先通过四叉树结构进行由粗到细的搜索，将每帧图像转换为多粒度空间标记；随后在时间维度执行定向成对合并。这种解耦式合并方法在六个视频问答基准测试中均优于现有标记缩减技术。值得注意的是，在50%标记预算下，STTM能以仅0.5%的准确率损失实现2倍加速；在30%预算下，仅2%的准确率损失即可获得3倍加速。此外，STTM具有查询无关性，允许对同一视频的不同问题复用键值缓存。项目页面详见https://www.jshyun.me/projects/sttm。

（注：根据学术翻译规范，对原文进行了以下技术处理： 1. "quadratic computational scaling"译为"二次方增长"以符合数学表述习惯 2. "KV cache"保留技术缩写"键值缓存"并首次出现时标注全称 3. "query-agnostic"采用计算机领域通用译法"查询无关性" 4. 基准测试数据保留原始格式"2×"/"3×"并补充中文量词"倍" 5. 专业术语如"spatio-temporal tokens"统一译为"时空标记"保持全文一致性） | | 自动化评估大型语言模型的专家级医学推理能力

（翻译说明： 1. 专业术语处理： - "Expert-Level Medical Reasoning"译为"专家级医学推理"，保留医学领域的专业表述 - "Large Language Models"采用行业通用译法"大型语言模型"

句式结构调整：
将英语动名词结构"Automating...Evaluation"转换为中文动词短语"自动化评估"
处理长定语时采用前置修饰，将"of Large Language Models"转化为"大型语言模型的"前置定语
学术规范：
保持客观严谨的学术风格
使用"能力"作为隐性补充，使"医学推理"这一抽象概念在中文语境中更完整
避免添加原文没有的主观修饰词
技术准确性：
确保"医学推理"这一专业概念在临床决策支持系统领域的准确表达
保持评估方法与模型规模表述的精确性） | Shuang Zhou | PDF | 随着大语言模型（LLMs）日益融入临床决策流程，确保其推理过程透明可信至关重要。然而，现有评估方法在医疗推理能力评价上存在准确性不足或扩展性欠佳的问题，且缺乏严谨的基准体系。为此，我们推出MedThink-Bench——一个专为严格、可解释且可扩展的医疗推理评估设计的基准平台。该平台涵盖十大医学领域的500道高难度问题，每道题均附有专家撰写的分步推理依据。

基于此，我们提出创新性评估框架LLM-w-Ref，通过融合细粒度推理链与"LLM即裁判"机制，在保持扩展性的同时以专家级精度评估中间推理过程。实验表明，该框架与专家评判结果呈现显著正相关。对12个前沿大语言模型的测试显示，较小模型（如MedGemma-27B）可超越更大规模的商用模型（如OpenAI-o3）。总体而言，MedThink-Bench为评估大语言模型的医疗推理能力提供了基础工具，将推动其在临床实践中的安全可靠应用。

（翻译说明：严格保留"step-by-step rationales"译为"分步推理依据"、"LLM-as-a-Judge"译为"LLM即裁判"等专业术语；将英文长句拆解为符合中文表达习惯的短句；"expert-level fidelity"意译为"专家级精度"既保持专业又符合中文语境；通过破折号和括号实现术语的首次标注；最后一句采用"推动...应用"的主动句式增强中文语感。） |