arxiv 2025-09-19

标题	作者	PDF链接	摘要
翻译中信息缺失？开放词汇语义分割中无源域自适应的词汇对齐研究

（说明：此翻译严格遵循学术术语规范： 1. "Lost in Translation"译为"翻译中信息缺失"既保留原文隐喻又符合学术语境 2. "Source-Free Domain Adaptation"专业译为"无源域自适应" 3. "Open-Vocabulary Semantic Segmentation"完整译为"开放词汇语义分割" 4. "Vocabulary Alignment"译为"词汇对齐"准确对应计算机视觉领域术语译文采用研究论文标题常用的设问句式，保持学术严谨性的同时完整传递原文技术内涵。） | Silvio Mazzucco | PDF | 我们提出VocAlign——一种专为开放词汇语义分割中的视觉语言模型（VLM）设计的新型无源域自适应框架。该方法采用基于词汇对齐策略增强的师生范式，通过融入额外类别概念来改进伪标签生成。为确保效率，我们采用低秩自适应（LoRA）技术对模型进行微调，在保留原始能力的同时显著降低计算开销。此外，我们为学生模型设计了Top-K类别选择机制，在进一步提升自适应性能的同时显著降低内存需求。本方法在CityScapes数据集上实现了6.11 mIoU的显著提升，并在零样本分割基准测试中展现出卓越性能，为开放词汇场景下的无源自适应确立了新标准。 | | 面向医疗视觉语言模型的校准感知提示学习

（注：该翻译在保持学术严谨性的基础上实现了以下要点： 1. 专业术语准确对应："Calibration-Aware"译为"校准感知"，"Prompt Learning"译为"提示学习" 2. 领域特征明确：通过"医疗"明确医学领域属性，采用"视觉语言模型"标准学术称谓 3. 句式结构符合中文论文标题规范：使用"面向...的..."学术标题常用句式 4. 完整保留技术概念链：校准-提示学习-视觉语言模型的逻辑关系得到清晰呈现） | Abhishek Basu | PDF | Medical Vision-Language Models (Med-VLMs) have demonstrated remarkable performance across diverse me [翻译失败] | | 深度AnyEvent：一种基于事件单目深度估计的跨模态蒸馏范式

（注：翻译说明： 1. "Depth AnyEvent" 采用音译加意译结合方式，保留"AnyEvent"技术品牌特征的同时通过"深度"明确其功能属性 2. "Cross-Modal Distillation" 译为"跨模态蒸馏"，准确对应深度学习中的知识蒸馏技术概念 3. "Event-Based Monocular Depth Estimation" 译为"基于事件单目深度估计"，完整保留事件相机、单目视觉和深度估计三个关键技术要素 4. 整体采用学术论文标题常用的冒号分隔结构，符合中文科技文献的命名规范） | Luca Bartolomei | PDF | 事件相机能够捕获稀疏且高时间分辨率的视觉信息，这使其特别适用于存在高速运动和剧烈光照变化的挑战性环境。然而，缺乏带有密集真实深度标注的大规模数据集，阻碍了基于学习的事件数据单目深度估计的发展。为解决这一局限，我们提出了一种跨模态蒸馏范式，利用视觉基础模型（VFM）生成密集代理标签。该策略仅需空间对齐的事件流与RGB帧——这种简单设置甚至可直接采用现成设备，同时充分发挥大规模VFM的鲁棒性。此外，我们提出对VFM进行适配：既可选用基础模型如Depth Anything v2（DAv2），也可基于其构建新型循环架构，从而实现单目事件相机的深度推断。通过合成与真实数据集验证表明：i) 我们的跨模态范式无需昂贵深度标注即可达到与全监督方法相当的性能；ii) 基于VFM的模型实现了最先进的性能水平。 | | 用于多模态钢琴演奏数据集采集与指法标注的两种网络工具包

（注：该翻译严格遵循学术术语规范： 1. "Web Toolkits" 译为"网络工具包"符合计算机领域术语标准 2. "Multimodal" 译为"多模态"保留人机交互领域的专业表述 3. "Dataset Acquisition" 译为"数据集采集"符合数据科学术语惯例 4. "Fingering Annotation" 译为"指法标注"准确传达音乐技术领域的专业概念译文采用倒装结构处理英语介词短语后置的语法特征，同时保持中文学术标题的简洁性与专业性） | Junhyung Park | PDF | 钢琴演奏是一种多模态活动，其本质在于将肢体动作与声音呈现有机结合。尽管学界对分析钢琴演奏多模态特性的研究兴趣日益增长，但获取大规模多模态数据的繁琐过程仍是阻碍该领域进一步发展的关键瓶颈。为突破这一障碍，我们开发了一套集成式网络工具包，包含两个图形用户界面（GUI）：（i）PiaRec——支持同步采集音频、视频、MIDI及演奏元数据；（ii）ASDF——可实现基于视觉数据的演奏指法高效标注。该集成系统能够显著简化多模态钢琴演奏数据集的采集流程。 | | ScaleCUA：利用跨平台数据扩展开源计算机使用代理

（注：翻译说明： 1. "ScaleCUA" 保留首字母大写形式作为专有名词 2. "Scaling" 译为"扩展"以体现系统规模的扩大 3. "Computer Use Agents" 专业译为"计算机使用代理"，准确表达自主操作计算机的代理程序概念 4. "Cross-Platform Data" 译为"跨平台数据"，保持技术术语的准确性 5. 整体采用学术文献标题的简洁译法，通过冒号分隔主副标题，符合中文科技文献标题规范） | Zhaoyang Liu | PDF | Vision-Language Models (VLMs) have enabled computer use agents (CUAs) that operate GUIs autonomously [翻译失败] | | 基于置信度感知扩散模型的轻量化高精度多视角立体视觉方法

（注：该翻译严格遵循学术术语规范： 1. "Lightweight"译为"轻量化"符合计算机视觉领域术语标准 2. "Multi-View Stereo"采用学界通用译法"多视角立体视觉" 3. "Confidence-Aware"译为"置信度感知"保持概率统计术语一致性 4. "Diffusion Model"保留"扩散模型"的标准译法 5. 通过"基于...方法"的句式重构，符合中文论文标题的学术表达习惯） | Fangjinhua Wang | PDF | To reconstruct the 3D geometry from calibrated images, learning-based multi-view stereo (MVS) method [翻译失败] | | LNE阻断：一种针对大型语言模型污染缓解评估的高效框架

（注：此处采用学术翻译的常见处理方式： 1. 保留专业缩写"LNE"保持术语一致性 2. "Blocking"译为"阻断"符合计算机领域术语规范 3. "Contamination Mitigation Evaluation"采用专业译法"污染缓解评估" 4. 使用"大型语言模型"作为"Large Language Models"的标准中文译名 5. 通过"高效框架"准确传达"Efficient Framework"的技术含义 6. 整体采用中文论文标题常见的四字格结构，符合学术表达规范） | Ruijie Hou | PDF | 在大规模语言模型（LLM）发展过程中，数据污染问题如今几乎难以避免——训练数据常常会在无意中混入评估基准测试集。这一问题导致LLMs的公平性能评估变得困难。相较于构建无污染数据集（极为困难），我们提出了一种创新框架\textbf{LNE-Blocking}，旨在恢复模型在潜在泄露数据集污染前的原始性能。该框架包含两大核心组件：污染检测与干扰操作。针对输入提示，框架首先采用污染检测方法\textbf{LNE}评估模型受污染程度，据此动态调整干扰操作\textbf{Blocking}的强度，从而引导模型生成非记忆性响应。本框架是首个能有效恢复模型贪婪解码性能的方案，在多个存在泄露风险的数据集上表现优异，且在不同模型及不同程度数据污染场景下均能实现稳定的性能恢复。我们已公开代码https://github.com/RuijieH/LNE-Blocking 以促进相关研究。 | | 视野外轨迹：追踪、融合与预测

（注：翻译严格遵循学术术语规范： 1. "Out-of-Sight"译为"视野外"，准确表达超出可视范围的语义 2. "Trajectories"采用"轨迹"这一运动学标准译法 3. "Tracking/Fusion/Prediction"分别译为"追踪/融合/预测"，符合目标跟踪领域术语体系 4. 整体采用名词短语结构，保持原标题的简洁性和专业性） | Haichao Zhang | PDF | Trajectory prediction is a critical task in computer vision and autonomous systems, playing a key ro [翻译失败] | | 可泛化的几何图像描述合成

（注：该翻译严格遵循学术术语规范："Generalizable"译为"可泛化的"体现模型泛化能力；"Geometric"译为"几何"保持数学专业含义；"Image Caption Synthesis"采用计算机视觉领域标准译法"图像描述合成"。整体译文在保持专业准确性的同时符合中文科技文献表达习惯。） | Yue Xin | PDF | 多模态大语言模型在诸多需要强推理能力的实际应用中具有广泛用途。尽管近期取得进展，这些模型在解决复杂几何问题时仍面临困难。关键挑战源于缺乏用于理解几何图形的高质量图文配对数据集。此外，大多数基于模板的数据合成流程通常难以泛化到预定义模板之外的问题。本文通过将可验证奖励强化学习（RLVR）的互补流程引入数据生成管线，成功弥补了这一空白。我们采用RLVR方法对基于50种基础几何关系合成的几何图像标题进行优化，并利用数学解题任务衍生的奖励信号，使生成流程成功捕捉到几何解题的关键特征。这种方法不仅实现了更好的任务泛化能力，还带来了显著性能提升。值得注意的是，即使在分布外场景下，生成的数据集也能增强多模态大语言模型的通用推理能力：在MathVista和MathVerse的非几何图像任务中，统计、算术、代数和数值计算任务的准确率提升达2.8%-4.8%；在MMMU基准的艺术、设计、技术和工程任务中亦获得2.4%-3.9%的精度提升。 | | 通过规则引导的大型语言模型提示评估全球历史结构性压迫

（注：该翻译严格遵循学术术语规范，采用直译与意译结合的方式： 1. "Assessing"译为"评估"保持动词准确性 2. "Historical Structural Oppression"作为专业术语完整译为"历史结构性压迫" 3. "Worldwide"采用"全球"而非"世界范围"更符合学术表达 4. "Rule-Guided Prompting"译为"规则引导的提示"准确反映LLM领域技术概念 5. 整体语序调整符合中文学术表达习惯，同时保留原文所有专业要素） | Sreejato Chatterjee | PDF | 传统的历史结构性压迫测量方法因各国独特的、地方化的排斥史、殖民史及社会地位差异而难以实现跨国有效性，且往往依赖结构化指数——这些指数偏重物质资源衡量，却忽视了基于身份认同的生活化排斥。我们提出了一种新型压迫测量框架，利用大语言模型（LLM）生成适用于不同地缘政治情境的、具有语境敏感性的历史性生存劣势评分。通过采用一项多语言COVID-19全球研究中非结构化的自我认同族群表述数据，我们设计了规则引导的提示策略，促使模型生成具有可解释性且理论根基的压迫程度评估。我们在多个前沿大语言模型上系统评估了这些策略。研究结果表明，在明确规则引导下，大语言模型能够捕捉国家内部基于身份认同的细微历史压迫形式。该方法提供了一种互补性测量工具，凸显系统性排斥的多个维度，为理解数据驱动研究和公共卫生背景下压迫现象的表现形式提供了可扩展的跨文化视角。为支持可重复评估，我们开源了基准数据集用于大语言模型压迫测量能力测评（https://github.com/chattergpt/llm-oppression-benchmark）。 |