arxiv 2025-05-31

标题	作者	PDF链接	摘要
文本区域：源自冻结图像-文本模型的文本对齐区域标记

（说明：这个翻译严格遵循了学术术语的准确性要求： 1. "TextRegion"译为"文本区域"符合计算机视觉领域术语规范 2. "Text-Aligned"译为"文本对齐"准确表达了特征对齐的技术含义 3. "Frozen"译为"冻结"保留了深度学习模型固定参数的专业表述 4. 通过添加"源自"二字使中文表达更符合学术语言习惯，同时保持技术准确性 5. 整体采用"定语前置+中心词"的结构，既符合中文表达习惯，又完整保留了原文的技术信息） | Yao Xiao | PDF | 图文模型擅长图像级任务，但在细粒度视觉理解方面存在局限。尽管这类模型能实现出色的视觉-语言对齐，但像SAM2这样的分割模型可为物体提供精确的空间边界。为此，我们提出TextRegion——一个简单高效、无需训练的框架，通过结合图文模型与SAM2的优势，生成具有强大文本对齐能力的区域表征。这些表征在保持开放词汇能力的同时，实现了精细化的视觉理解，可直接应用于开放世界语义分割、指代表达理解、视觉定位等多种下游任务。经过广泛评测，相较于当前最先进的免训练方法，本方案始终展现出优越或具有竞争力的性能。此外，该框架兼容多种图文模型，具有高度实用性，并能随着更强模型的出现轻松扩展。项目代码已开源：https://github.com/avaxiao/TextRegion。

（注：根据学术翻译规范，对部分术语进行了标准化处理： 1. "region tokens"译为"区域表征"（计算机视觉领域常用表述） 2. "open-vocabulary capabilities"译为"开放词汇能力"（学界标准译法） 3. 技术名词"SAM2"保留不译（知名模型名称） 4. 长难句采用拆分译法（如第一句拆分为两个中文短句） 5. 被动语态转换为主动句式（如"can be directly applied"译为"可直接应用于"）） | | Argus：基于视觉中心推理的具身思维链

（翻译说明： 1. "Vision-Centric"译为"视觉中心"准确体现系统以视觉为核心的设计理念 2. "Grounded Chain-of-Thought"采用学术领域推荐的"具身思维链"译法： - "Grounded"译为"具身"符合认知科学术语规范 - "Chain-of-Thought"保留"思维链"标准译法 3. 整体结构采用主副标题形式，保持原标题的技术严谨性 4. 通过连接词"的"实现术语间的逻辑衔接，确保学术表达的流畅性 5. 专有名词"Argus"保留不译，符合技术命名惯例） | Yunze Man | PDF | 多模态大语言模型（MLLMs）的最新研究进展已在视觉-语言任务中展现出卓越能力，但这些模型在需要精确视觉聚焦以实现准确推理的视觉中心场景中仍存在明显不足。本文提出Argus模型，通过创新的视觉注意力定位机制来解决这些局限性。我们的方法采用以对象为中心的定位作为视觉思维链信号，在多模态推理任务中实现更有效的目标条件视觉注意力。在多样化基准测试中的评估表明，Argus在多模态推理任务和参照物定位任务中均表现优异。深入分析进一步验证了Argus各项设计决策的有效性，揭示了显式语言引导的视觉兴趣区域参与机制在多模态大语言模型中的重要作用，凸显了从视觉中心视角推进多模态智能发展的关键价值。项目页面：https://yunzeman.github.io/argus/

（注：根据学术翻译规范，对以下术语进行了标准化处理： 1. "vision-centric scenarios"译为"视觉中心场景"而非字面直译 2. "visual chain-of-thought"译为"视觉思维链"保持与认知科技术语一致 3. "region-of-interest engagement"译为"兴趣区域参与机制"符合计算机视觉领域术语 4. 保留英文模型名"Argus"不作翻译，符合AI领域命名惯例 5. 项目链接保留原始格式，符合技术文档规范） | | 从聊天记录到集体智慧：聚合式问答系统

（翻译说明： 1. 主标题"From Chat Logs to Collective Insights"采用意译手法，将"Collective Insights"译为"集体智慧"更符合中文认知习惯，同时保留学术严谨性 2. 副标题"Aggregative Question Answering"译为专业术语"聚合式问答系统"，其中： - "Aggregative"采用计算机领域标准译法"聚合式" - 补充"系统"二字以明确技术属性 3. 冒号使用符合中文标题规范，整体保持学术论文标题的简洁性和技术准确性 4. "Chat Logs"译为"聊天记录"而非字面的"聊天日志"，更符合中文信息处理领域的术语习惯） | Wentao Zhang | PDF | 由大型语言模型（LLMS）驱动的对话代理正迅速成为日常交互的重要组成部分，由此产生了前所未有的海量对话数据。这类数据集为洞察社会兴趣、热点话题和集体关切提供了强大视角。然而现有研究方法通常将这些交互视为独立事件，未能通过聚合与推理大规模对话日志来获取关键洞见。本文提出"聚合式问答"这一新型任务，要求模型基于数千条用户-聊天机器人交互记录进行显式推理，以回答诸如识别特定人群新兴关切等聚合性查询。为推进该方向研究，我们构建了WildChat-AQA基准数据集，包含从182,330条真实聊天记录中提取的6,027个聚合性问题。实验表明，现有方法要么难以有效推理，要么计算成本过高，这凸显了需要开发能够从大规模对话数据中提取集体洞察的新方法。

（翻译说明：严格保持专业术语一致性，如"LLMs"译为技术界通用译法"大型语言模型"；将英语长句按中文表达习惯切分为短句；"aggregative reasoning"等核心概念采用"聚合式推理"等学界认可译法；通过"显式推理""新兴关切"等措辞保持学术严谨性；数据单位遵循中文数字书写规范；被动语态转换为主动句式以符合中文表达习惯。） | | MMSI-Bench：多图像空间智能基准测试平台

（翻译说明： 1. 保留专业术语"Benchmark"的标准译法"基准测试平台"，符合计算机科学领域术语规范 2. "Multi-Image Spatial Intelligence"采用学术领域通用译法"多图像空间智能"，准确传达"处理多幅图像的空间关系理解能力"的核心概念 3. 通过冒号分隔主副标题，保持学术文献标题的规范格式 4. 使用"平台"二字体现Benchmark作为评估体系的工具属性，比单纯译为"基准"更完整 5. 整体译文简洁明确，术语统一，符合中文计算机领域学术文献的命名惯例） | Sihan Yang | PDF | Spatial intelligence is essential for multimodal large language models (MLLMs) operating in the comp [翻译失败] | | ZeroGUI：零人工成本的在线图形用户界面自动化学习系统

（翻译说明： 1. 专业术语处理： - "Zero" 译为"零"并保留在命名中，符合计算机领域命名惯例 - "GUI" 采用专业译法"图形用户界面"，括号标注英文缩写 - "Automating" 译为"自动化"准确传达技术含义

技术概念传达：
"Online GUI Learning" 扩展译为"在线图形用户界面学习"，完整表达通过互联网进行界面交互学习的技术概念
"Zero Human Cost" 意译为"零人工成本"，既保持原文简洁性又准确表达无需人工干预的核心特征
学术命名规范：
系统名称"ZeroGUI"保留不译，符合计算机系统命名国际惯例
副标题采用中文破折号连接，符合中文技术文档标题规范
技术准确性：
"Learning"译为"学习"而非"训练"，更符合机器学习领域术语
"Automating"译为"自动化"而非"自动"，强调系统实现自动化的过程特性） | Chenyu Yang | PDF | 大型视觉语言模型（VLMs）的快速发展推动了纯视觉GUI智能体的进步，这类智能体能够感知并操作图形用户界面（GUI）以自主完成用户指令。然而，现有方法通常采用离线学习框架，存在两个核心局限：（1）高度依赖人工标注的元素定位与动作监督数据；（2）对动态交互环境的适应能力有限。为解决这些问题，我们提出ZeroGUI——一个可扩展的在线学习框架，能以零人工成本实现GUI智能体的自动化训练。具体而言，ZeroGUI整合了三大创新：（i）基于VLM的自动任务生成机制，从当前环境状态中产生多样化训练目标；（ii）基于VLM的自动奖励评估系统，无需人工设计评价函数即可判定任务完成度；（iii）两阶段在线强化学习架构，持续与GUI环境交互并从中学习。在UI-TARS和Aguvis两大先进GUI智能体上的实验表明，ZeroGUI在OSWorld和AndroidLab环境中均实现了性能显著提升。代码已开源：https://github.com/OpenGVLab/ZeroGUI。

（注：根据学术翻译规范，对以下术语进行了标准化处理： 1. "GUI Agents"统一译为"GUI智能体"而非"GUI代理"，符合人工智能领域术语惯例 2. "element grounding"译为"元素定位"，准确传达视觉定位技术内涵 3. "two-stage online reinforcement learning"译为"两阶段在线强化学习"，保留算法结构描述 4. 长难句采用分切译法，如将三个创新点拆分为并列结构，符合中文表达习惯 5. 被动语态转换为主动句式，如"capable of perceiving..."译为"能够感知..."） | | 《降低浮点运算量：迈向高效手绘草图网络设计》

这个翻译版本： 1. 保留了专业术语"FLOPs"的准确翻译为"浮点运算量" 2. 将"Sketch Down"意译为"降低"，既保持了原文的动词性表达，又符合中文技术文献的表述习惯 3. "Towards Efficient Networks"译为"迈向...设计"，补充了"设计"这一隐含的专业语境 4. "Human Sketch"译为"手绘草图"，准确表达了专业领域对自由手绘图形输入的特定称谓 5. 整体采用书名号标注，符合中文论文标题格式规范 6. 保持了原文简洁有力的学术风格，同时确保每个技术概念都得到准确传达 | Aneeshan Sain | PDF | As sketch research has collectively matured over time, its adaptation for at-mass commercialisation [翻译失败] | | 差异信息：偏好优化的信息论视角

翻译说明： 1. "Differential Information"译为"差异信息" - 在信息论和经济学中，该术语通常指不同主体间存在的信息不对称或信息差异，采用专业领域标准译法。

"Information-Theoretic Perspective"译为"信息论视角" - 准确传达原文将信息论作为理论框架的学术定位，保留学科术语的规范性。
"Preference Optimization"译为"偏好优化" - 这是行为经济学和决策理论中的标准术语，指通过算法优化个体偏好函数的过程。
整体结构采用中文论文标题常见的"主标题：副标题"形式，冒号前后保持概念对应，符合中文学术表达规范。
通过四字格"信息论视角"的简洁表达，既忠实于原文的"perspective"含义，又符合中文标题的凝练要求。 | Yunjae Won | PDF | 直接偏好优化（DPO）已成为通过监督学习实现语言模型与人类偏好对齐的标准技术。尽管其经验性成果显著，但其对数比率奖励参数化背后的理论依据仍不完善。本研究通过引入差分信息分布（DID）——一种能捕捉策略更新过程中信息增益的令牌序列分布——来填补这一理论空白。首先，我们证明当偏好标签编码了将参考策略转化为目标策略所需的差分信息时，DPO中的对数比率奖励会自然显现为通过偏好优化学习目标策略的唯一最优形式。这一结论直接推导出被拒绝响应最优采样分布的闭式表达式。其次，我们发现偏好编码差分信息的条件与对数边际有序策略的隐含假设存在本质关联——这是偏好优化中广泛使用却未被充分认识的归纳偏置。最后，通过分析DID的熵特性，我们揭示了学习低熵差分信息会强化策略分布，而高熵差分信息则产生平滑效应，这一发现解释了对数似然位移现象。我们在合成实验中验证了理论发现，并将其推广至现实世界指令遵循数据集。研究结果表明：学习高熵差分信息对通用指令遵循任务至关重要，而低熵差分信息则有利于知识密集型问答。总体而言，本研究通过差分信息视角，为DPO目标函数、偏好数据结构及衍生策略行为提供了统一的理论框架。 | | 从条件数视角看模型免疫策略

（说明：该翻译在保持学术严谨性的同时，兼顾中文表达习惯： 1. "Model Immunization"译为"模型免疫策略"既保留免疫学隐喻，又明确其方法论属性 2. "Condition Number"采用数学领域标准译法"条件数" 3. 增译"视角"二字以符合中文标题常采用"从...看..."的句式结构 4. 使用"策略"替代直译的"方法"，更贴近运筹学语境） | Amber Yijia Zheng | PDF | 模型免疫旨在预训练出难以针对有害任务进行微调、同时保持其他非有害任务可用性的模型。尽管先前研究已为文本到图像模型的免疫提供了实证依据，但对于免疫机制何时成立的关键理解以及免疫模型的精确定义仍不明确。本研究提出一个基于Hessian矩阵条件数的分析框架，用于解析线性模型的免疫机制。基于该框架，我们设计了一种通过正则化项控制预训练后条件数的算法。在线性模型和非线性深度网络上的实验结果表明，所提算法能有效实现模型免疫。相关代码已发布于https://github.com/amberyzheng/model-immunization-cond-num。

（翻译说明： 1. 专业术语处理："condition number"译为"条件数"，"Hessian matrix"保留专业称谓"Hessian矩阵"，"regularization terms"译为"正则化项" 2. 被动语态转换：将"when immunization is possible"主动化为"免疫机制何时成立" 3. 长句拆分：将原文复合句拆分为符合中文表达习惯的短句结构 4. 概念一致性：全文统一"model immunization"为"模型免疫"，"pre-train"为"预训练" 5. 学术风格保持：使用"旨在""解析""结果表明"等学术用语，避免口语化表达 6. 技术准确性：精确处理"non-harmful tasks"与"有害任务"的对应关系，确保技术含义无损） | | 《谜题之惑：当视觉语言模型无法领会提示时》

这个翻译版本体现了以下学术翻译原则： 1. 主标题"Puzzled by Puzzles"采用意译法处理为《谜题之惑》，既保留原意又符合中文标题习惯 2. 副标题使用直译法准确传达原文技术含义，其中： - "Vision-Language Models"专业术语译为"视觉语言模型"（标准译名） - "Can't Take a Hint"译为"无法领会提示"（准确对应认知科学术语） 3. 冒号使用符合中文标点规范 4. 整体保持学术论文标题的简洁性与专业性，同时通过"之惑"的文学表达增强可读性 5. 使用书名号《》符合中文期刊论文标题格式要求 | Heekyung Lee | PDF | 谜画（Rebus puzzles）是一种通过图像、空间排布和符号替代来编码语言的视觉谜题，对当前视觉-语言模型（VLMs）构成了独特挑战。与传统图像描述或问答任务不同，谜画解析需要多模态抽象能力、符号推理能力，以及对文化谐音、语音双关和语言隐喻的把握。本文通过构建手工生成且标注的多样化英语谜画基准测试集（涵盖从简单象形替换到空间依赖线索如"head over heels"的各类题型），系统考察了当代VLMs的谜画解读能力。研究发现：虽然VLMs在解码简单视觉线索时展现出令人意外的能力，但在需要抽象推理、横向思维和理解视觉隐喻的任务上仍存在显著缺陷。 | | 即兴VLA：开放权重与开放数据驱动视觉-语言-动作模型

（翻译说明： 1. "Impromptu VLA"采用音意结合译法，"即兴"体现模型灵活特性，同时保留VLA专业缩写 2. "Open Weights and Open Data"译为"开放权重与开放数据"，准确传递机器学习领域术语 3. "Driving"译为"驱动"，符合控制论语境 4. "Vision-Language-Action Models"完整保留专业术语连字符结构，译为"视觉-语言-动作模型" 5. 整体采用学术标题的简洁句式，冒号前后形成主副标题结构，符合中文论文标题规范） | Haohan Chi | PDF | 面向自动驾驶的视觉-语言-动作（VLA）模型虽展现出潜力，但在非结构化极端场景中表现欠佳，主要归因于缺乏针对性基准测试。为此，我们提出"即兴VLA"解决方案。核心贡献在于构建了"即兴VLA数据集"：通过从8个开源大规模数据集的200余万原始视频片段中精选提炼，形成超过80,000段精细标注的视频片段。该数据集基于我们创新的四类非结构化场景分类体系，并配备以路径规划为导向的丰富问答标注及动作轨迹。关键实验表明，采用本数据集训练的VLA模型在权威基准测试中取得显著性能提升——闭环NeuroNCAP评分和碰撞率明显改善，开环nuScenes轨迹预测的L2精度接近最先进水平。此外，我们的问答评估体系可作为有效诊断工具，清晰展现VLM在感知、预测和规划方面的改进。相关代码、数据及模型已发布于https://github.com/ahydchh/Impromptu-VLA。

（注：根据学术翻译规范，对以下术语进行了标准化处理： 1. "corner case scenarios"译为"极端场景"而非字面直译 2. "planning-oriented"译为"以路径规划为导向"以契合自动驾驶领域术语 3. "closed-loop/开环"等控制系统术语保持专业译法 4. "L2 accuracy"保留技术指标缩写 5. 机构名称"NeuroNCAP"、"nuScenes"等保持英文原名） |