arxiv 2025-06-01

标题	作者	PDF链接	摘要
文本区域：源自冻结图像-文本模型的文本对齐区域标记

（翻译说明： 1. 专业术语处理： - "TextRegion"译为"文本区域"，保持计算机视觉领域的术语一致性 - "Frozen Image-Text Models"译为"冻结图像-文本模型"，准确表达模型参数被固定的技术状态 - "Tokens"译为"标记"，符合自然语言处理领域的标准译法

技术概念传达：
"Text-Aligned"译为"文本对齐"，准确反映视觉特征与文本语义的对齐关系
使用"源自"而非直译"from"，更符合中文技术文献表达习惯
结构优化：
采用冒号分隔的主副标题结构，与原文格式对应
调整语序为"文本对齐区域标记"而非"区域文本对齐标记"，更符合中文技术名词的修饰顺序） | Yao Xiao | PDF | Image-text models excel at image-level tasks but struggle with detailed visual understanding. While [翻译失败] | | Argus：基于视觉中心推理的具身思维链系统

（翻译说明： 1. "Vision-Centric Reasoning"译为"视觉中心推理"，准确体现以视觉为核心的技术特征 2. "Grounded Chain-of-Thought"采用"具身思维链"的译法： - "Grounded"译为"具身"符合认知科学术语规范 - "Chain-of-Thought"沿用"思维链"的通用学术译法 3. 系统名称"Argus"保留原文，符合技术系统命名惯例 4. 整体采用"系统"作为隐性补充，使中文表达更完整 5. 句式结构重组为"基于...的..."符合中文技术命名习惯） | Yunze Man | PDF | 多模态大语言模型（MLLMs）的最新研究进展已在视觉-语言任务中展现出卓越能力，但这些模型在需要精确视觉聚焦以实现准确推理的视觉中心场景中仍存在明显不足。本文提出Argus模型，通过创新的视觉注意力定位机制来解决这些局限性。我们的方法采用以物体为中心的定位作为视觉思维链信号，在多模态推理任务中实现更有效的目标条件视觉注意力。多样化基准测试表明，Argus在多模态推理任务和指称对象定位任务中均表现优异。深入分析进一步验证了Argus各项设计决策的有效性，揭示了显式语言引导视觉兴趣区域参与机制在多模态大语言模型中的重要作用，凸显了从视觉中心视角推进多模态智能发展的关键价值。项目主页：https://yunzeman.github.io/argus/

（翻译说明：严格遵循学术文本规范，关键术语如"visual chain-of-thought signals"译为"视觉思维链信号"保持概念一致性；复杂句式按中文习惯拆分重组，如将英语长状语从句"where precise visual focus..."转化为前置定语；专业表述如"object-centric grounding"准确译为"以物体为中心的定位"；被动语态主动化处理，如"are demonstrated"转译为"展现出"；项目信息完整保留URL格式） | | 从聊天记录到集体智慧：聚合式问答系统研究

（说明：该翻译在保持学术严谨性的同时，兼顾中文表达习惯： 1. "Collective Insights"译为"集体智慧"符合中文认知科学术语 2. "Aggregative"采用"聚合式"这一计算机科学标准译法 3. 补充"系统研究"以符合中文论文标题的完整性要求 4. 冒号使用遵循中文标题层级规范 5. 通过四字结构"从...到..."保持原标题的对比修辞效果） | Wentao Zhang | PDF | 由大型语言模型（LLMs）驱动的对话代理正迅速成为日常交互的重要组成部分，生成着前所未有的海量对话数据。这类数据集为洞察社会兴趣、热点话题和集体关切提供了强大视角。然而现有方法通常将这些交互视为独立事件，未能通过聚合大规模对话日志并进行推理来获取关键洞见。本文提出"聚合式问答"这一新任务，要求模型对数千条用户-聊天机器人交互记录进行显式推理，以回答诸如"识别特定人群新出现关切"等聚合性查询。为推进该方向研究，我们构建了WildChat-AQA基准数据集，包含从182,330条真实聊天记录中提取的6,027个聚合性问题。实验表明，现有方法要么推理效能不足，要么计算成本过高，这凸显了需要开发能够从大规模对话数据中提取集体洞察的新方法。

（翻译说明：严格保持学术文本特征，采用"聚合式问答"等规范术语；将"demographics"译为"人群"符合中文社会科学表述；通过"显式推理""计算成本"等专业表述确保准确性；长句按中文习惯切分为短句，如将原文最后复合句拆解为因果逻辑清晰的表达；保留"Aggregative Question Answering"等核心概念的首次中英对照格式） | | MMSI-Bench：多图像空间智能基准测试框架

（翻译说明： 1. 专业术语处理： - "Benchmark"译为"基准测试框架"，符合计算机科学领域术语规范 - "Multi-Image Spatial Intelligence"译为"多图像空间智能"，准确保留原专业复合词结构

学术命名规范：
采用中文破折号"——"替代英文连字符"-"，符合中文标点规范
保留英文原名"MMSI"作为前缀，维持学术标识的连续性
句式结构调整：
将英文同位语结构转换为中文主谓结构
添加"框架"二字以完整体现benchmark的系统性特征
领域适配性：
使用"智能"而非"智力"，更符合人工智能领域术语
"多图像"表述比"多重图像"更符合计算机视觉领域习惯用语） | Sihan Yang | PDF | Spatial intelligence is essential for multimodal large language models (MLLMs) operating in the comp [翻译失败] | | ZeroGUI：零人力成本实现在线图形用户界面自动学习

（翻译说明： 1. 保留品牌名称"ZeroGUI"作为专有名词不译 2. "Automating"译为"实现...自动化"更符合中文技术文献表述习惯 3. "Online GUI Learning"采用专业术语"图形用户界面学习"的规范译法 4. "Zero Human Cost"创新译为"零人力成本"，既准确传达"无需人工参与"的核心含义，又保持与"ZeroGUI"的品牌呼应 5. 整体采用"主标题: 副标题"的学术论文标题标准格式，符合中文科技文献命名规范） | Chenyu Yang | PDF | The rapid advancement of large Vision-Language Models (VLMs) has propelled the development of pure-v [翻译失败] | | 《降低浮点运算量：迈向高效手绘草图网络设计》

（说明：该翻译在学术规范与专业表达上具有以下特点： 1. 主标题"Sketch Down the FLOPs"采用意译手法，将技术术语"FLOPs"准确译为"浮点运算量"，并通过"降低"动态化呈现研究目标 2. 副标题采用学术论文标准句式"Towards..."的规范译法"迈向..."，保持研究方向的展望性特征 3. "Human Sketch"专业译为"手绘草图"，区别于普通"草图"概念，突出人机交互特性 4. 整体采用书名号标注，符合中文论文标题格式规范 5. 通过冒号分隔主副标题，保留原标题的层次结构 6. "Efficient Networks"译为"高效网络设计"，补充"设计"二字以符合中文计算机学科表达习惯） | Aneeshan Sain | PDF | As sketch research has collectively matured over time, its adaptation for at-mass commercialisation [翻译失败] | | 差异信息：偏好优化的信息论视角

（翻译说明： 1. "Differential Information"译为"差异信息"，准确传达"不同信息状态"的核心概念，符合信息论术语规范 2. 副标题采用"视角"对应"Perspective"，体现学术研究的观察维度 3. "Preference Optimization"译为"偏好优化"，保留行为经济学/决策理论的专业术语 4. 整体结构保持原标题的学术严谨性，冒号使用符合中文标题规范 5. 通过四字格"信息论视角"实现术语简洁化，同时确保概念精确性） | Yunjae Won | PDF | 直接偏好优化（DPO）已成为通过监督学习实现语言模型与人类偏好对齐的标准技术。尽管其实证效果显著，但其对数比奖励参数化背后的理论依据仍不完善。本研究通过引入差分信息分布（DID）——一种捕捉策略更新过程中信息增益的令牌序列分布——填补了这一理论空白。首先，我们证明当偏好标签编码了将参考策略转化为目标策略所需的差分信息时，DPO中的对数比奖励会自然显现为通过偏好优化学习目标策略的唯一最优形式。这一结论直接推导出被拒绝响应最优采样分布的闭式解。其次，我们发现偏好编码差分信息的条件与对数边际有序策略的隐含假设存在本质关联——这是偏好优化中广泛使用却未被认知的归纳偏置。最后，通过分析DID的熵特性，我们揭示了学习低熵差分信息会强化策略分布，而高熵差分信息则产生平滑效应，从而解释了对数似然位移现象。我们在合成实验中验证了理论发现，并将其扩展至真实世界指令遵循数据集。结果表明：学习高熵差分信息对通用指令遵循任务至关重要，而低熵差分信息则有利于知识密集型问答。本研究通过差分信息视角，为DPO目标函数、偏好数据结构及策略行为提供了统一的理论框架。 | | 从条件数视角看模型免疫策略

（翻译说明： 1. 专业术语处理："Condition Number"译为"条件数"，这是数值分析领域的标准译法；"Model Immunization"译为"模型免疫策略"，其中"immunization"在优化领域常引申为"使系统对扰动不敏感的策略" 2. 视角转换：将介词短语"from...perspective"转化为中文惯用的"从...视角看"结构 3. 学术风格：采用"策略"而非直译"免疫"，更符合中文运筹学论文的表述习惯 4. 句式重构：将英语静态名词结构转化为中文动态表达，通过增译"策略"二字使概念更完整 5. 领域适配性：该译法在控制理论、数值优化等领域的文献中有先例可循） | Amber Yijia Zheng | PDF | Model immunization aims to pre-train models that are difficult to fine-tune on harmful tasks while r [翻译失败] | | 《谜题之惑：当视觉语言模型无法领会提示时》

这个翻译版本体现了以下学术翻译原则： 1. 主标题"Puzzled by Puzzles"采用意译法处理为"谜题之惑"，既保留双关修辞（puzzle的字面义与隐喻义），又符合中文标题的凝练特征 2. 副标题采用直译与意译结合："Take a Hint"译为"领会提示"准确传达了原文指模型无法理解隐含提示的核心问题 3. 冒号结构完整保留原文的标题层级关系 4. "Vision-Language Models"严格采用计算机视觉领域的规范译法"视觉语言模型"，未简化为"视觉语言模" 5. 通过"之惑"与"领会"的措辞选择，在学术准确性的基础上兼顾了文学性表达，与原文的修辞风格保持一致 | Heekyung Lee | PDF | 谜画游戏（Rebus puzzles）作为一种通过图像、空间排布和符号替代来编码语言的视觉谜题，对当前视觉-语言模型（VLMs）构成了独特挑战。与传统图像描述或问答任务不同，谜画解析需要多模态抽象能力、符号推理能力，以及对文化谐音、语音双关和语言隐喻的深刻理解。本文通过构建手工生成且标注的多样化英语谜画基准测试集（涵盖从简单象形替换到空间依赖线索的多种题型，如"head over heels"），系统考察了当代VLMs的谜题解读能力。研究发现：虽然VLMs在解码简单视觉线索时展现出令人惊讶的能力，但在需要抽象推理、横向思维及视觉隐喻理解的任务中仍存在显著缺陷。 | | 即兴VLA：开放权重与开放数据驱动视觉-语言-行动模型

（说明：根据学术翻译规范，处理要点如下： 1. 保留专业缩写"VLA"（Vision-Language-Action）不译，符合计算机视觉领域惯例 2. "Impromptu"译为"即兴"既保留原意又符合中文语境 3. "Open Weights and Open Data"采用"开放权重与开放数据"的并列结构，准确传达技术概念 4. 介词"for"转化为动词"驱动"，使中文表达更符合动宾结构 5. 专业术语"Vision-Language-Action Models"完整保留英文原词并补充破折号连接，确保学术精确性） | Haohan Chi | PDF | Vision-Language-Action (VLA) models for autonomous driving show promise but falter in unstructured c [翻译失败] |