跳转至

arxiv 2025-09-21

标题 作者 PDF链接 摘要
翻译中信息缺失?开放词汇语义分割中无源域适应的词汇对齐研究

(注:翻译采用学术论文标题的常见处理方式: 1. 保留核心疑问句式"Lost in Translation"的意译处理 2. "Vocabulary Alignment"专业术语规范译为"词汇对齐" 3. "Source-Free Domain Adaptation"准确译为"无源域适应" 4. "Open-Vocabulary Semantic Segmentation"完整译为"开放词汇语义分割" 5. 整体采用"研究问题+技术方法+应用领域"的学术标题结构) | Silvio Mazzucco | PDF | 我们提出VocAlign——一种专为开放词汇语义分割中的视觉语言模型(VLSM)设计的新型无源域自适应框架。该方法采用基于词汇对齐策略增强的师生学习范式,通过融入额外类别概念来改进伪标签生成。为确保效率,我们采用低秩自适应(LoRA)技术对模型进行微调,在保留原始能力的同时显著降低计算开销。此外,我们为学生模型设计了Top-K类别选择机制,在进一步提升自适应性能的同时显著降低内存需求。本方法在CityScapes数据集上实现了6.11 mIoU的显著提升,并在零样本分割基准测试中展现出卓越性能,为开放词汇场景下的无源域自适应确立了新标准。 | | 面向医疗视觉语言模型的校准感知提示学习

(注:该翻译严格遵循学术术语规范: 1. "Calibration-Aware" 译为"校准感知",体现模型对预测置信度的校准特性 2. "Prompt Learning" 采用学界通用译法"提示学习" 3. "Medical Vision-Language Models" 完整译为"医疗视觉语言模型",保持专业领域准确性 4. 使用"面向..."的句式结构,符合中文论文标题常见的表达方式) | Abhishek Basu | PDF | 医学视觉-语言模型(Med-VLMs)通过大规模图文预训练,在多种医学影像任务中展现出卓越性能。然而其置信度校准研究尚属空白,这仍是重大挑战。错误校准的预测可能导致过度自信的误判,从而损害临床信任度和决策可靠性。为此,我们提出CalibPrompt——首个在提示调优过程中实现Med-VLMs校准的框架。该方法在稀缺标注数据环境下,通过精心设计的校准目标优化少量可学习提示向量。首先,我们研究了一种正则化器,旨在使平滑后的准确率与模型预测置信度相吻合;其次,我们引入角度分离损失函数,通过最大化文本特征紧密度来提升多模态Med-VLMs置信度估计的可靠性。在四个公开Med-VLMs模型和五个多样化医学影像数据集上的大量实验表明,CalibPrompt能持续改进校准效果,且不会显著影响原始准确率。代码已开源:https://github.com/iabh1shekbasu/CalibPrompt。 | | 深度AnyEvent:一种基于事件单目深度估计的跨模态蒸馏范式

(说明:该翻译严格遵循学术术语规范: 1. "Depth AnyEvent" 采用音意结合译法,保留"AnyEvent"技术名称特征 2. "Cross-Modal Distillation" 译为"跨模态蒸馏",符合计算机视觉领域术语标准 3. "Event-Based" 译为"基于事件的",准确传达事件相机的技术概念 4. "Monocular Depth Estimation" 译为"单目深度估计",保持计算机视觉专业术语一致性 5. 整体采用"总标题:副标题"的学术论文标题标准格式) | Luca Bartolomei | PDF | 事件相机能够捕获稀疏且高时间分辨率的视觉信息,这使其特别适用于存在高速运动和剧烈光照变化的挑战性环境。然而,缺乏带有密集真实深度标注的大规模数据集,阻碍了基于学习的事件数据单目深度估计的发展。为解决这一局限,我们提出了一种跨模态蒸馏范式,通过利用视觉基础模型(VFM)生成密集代理标签。该策略仅需空间对齐的事件流与RGB帧——这种简单设置甚至可直接采用现成设备,同时充分发挥大规模VFM的鲁棒性。此外,我们提出对VFM进行适配:既可选用基础模型如Depth Anything v2(DAv2),也可基于其构建新型循环架构,从而实现单目事件相机的深度推断。通过合成与真实数据集验证,我们证明:i) 与全监督方法相比,我们的跨模态范式无需昂贵深度标注即可达到相当性能;ii) 基于VFM的模型实现了最先进的性能表现。 | | 用于多模态钢琴演奏数据集采集与指法标注的两种网络工具包

(注:该翻译严格遵循学术术语规范: 1. "Web Toolkits" 译为"网络工具包"符合计算机领域术语标准 2. "Multimodal" 译为"多模态"保留人机交互领域的专业表述 3. "Dataset Acquisition" 译为"数据集采集"符合数据科学术语体系 4. "Fingering Annotation" 译为"指法标注"准确传达音乐信息学专业概念 译文采用倒装结构突出工具包功能,符合中文科技文献标题的表述习惯) | Junhyung Park | PDF | 钢琴演奏是一种多模态活动,其本质将身体动作与声音呈现有机结合。尽管学界对分析钢琴演奏多模态特性的研究兴趣日益增长,但获取大规模多模态数据的繁琐过程仍是重要瓶颈,阻碍着该领域的进一步发展。为突破这一障碍,我们开发了一套集成式网络工具包,包含两个图形用户界面(GUI):(i)PiaRec——支持同步采集音频、视频、MIDI及演奏元数据;(ii)ASDF——支持基于视觉数据高效标注演奏者指法。该集成系统能够显著简化多模态钢琴演奏数据集的采集流程。 | | ScaleCUA:利用跨平台数据扩展开源计算机使用代理

(注:翻译说明: 1. "ScaleCUA" 保留首字母大写形式作为专有名词 2. "Scaling" 译为"扩展"体现系统扩容含义 3. "Computer Use Agents" 采用"计算机使用代理"的标准学术译法 4. "Cross-Platform Data" 译为"跨平台数据"符合计算机领域术语规范 5. 整体采用技术文献常用的冒号分隔主副标题结构) | Zhaoyang Liu | PDF | Vision-Language Models (VLMs) have enabled computer use agents (CUAs) that operate GUIs autonomously [翻译失败] | | 基于置信度感知扩散模型的轻量化高精度多视角立体视觉方法

(注:该翻译严格遵循学术术语规范: 1. "Lightweight"译为"轻量化",符合计算机视觉领域术语标准 2. "Multi-View Stereo"采用学界通用译法"多视角立体视觉" 3. "Confidence-Aware"译为"置信度感知",准确传达算法特性 4. "Diffusion Model"保留"扩散模型"这一固定译法 5. 通过"高精度"强化"Accurate"的学术表述,采用"方法"补全技术体系名称的完整性) | Fangjinhua Wang | PDF | To reconstruct the 3D geometry from calibrated images, learning-based multi-view stereo (MVS) method [翻译失败] | | LNE阻断:一种针对大型语言模型污染缓解评估的高效框架

(注:翻译说明: 1. "LNE-Blocking" 采用音译加意译的混合译法,保留首字母缩写的专业识别性 2. "Efficient Framework" 译为"高效框架"符合计算机领域术语规范 3. "Contamination Mitigation Evaluation" 译为"污染缓解评估"准确传达原文中关于数据污染控制的技术概念 4. 整体采用学术文献标题的简洁句式结构,保持专业性与可读性的平衡) | Ruijie Hou | PDF | 在大规模语言模型(LLM)发展过程中,数据污染问题如今几乎难以避免——训练数据常常会无意中混入评估基准测试集。这一问题导致难以对LLM进行公平的性能评估。我们提出了一种创新框架\textbf{LNE-Blocking},其核心并非构建无污染数据集(这极具挑战性),而是旨在恢复模型在潜在泄露数据集上受污染前的原始性能。该框架包含两个核心组件:污染检测模块与干扰操作模块。针对输入提示,框架首先采用污染检测方法\textbf{LNE}来评估模型受污染程度,进而动态调整干扰操作\textbf{Blocking}的强度,以激发模型生成非记忆性响应。本框架是首个能有效恢复模型贪婪解码性能的方案,在多个存在潜在泄露风险的数据集上表现优异,且在不同模型及不同程度数据污染场景下均能实现稳定的性能恢复。我们已公开代码:https://github.com/RuijieH/LNE-Blocking,以促进相关研究。 | | 视野外轨迹:追踪、融合与预测

(注:翻译严格遵循学术术语规范: 1. "Out-of-Sight"译为"视野外"符合计算机视觉领域标准表述 2. "Trajectories"采用"轨迹"这一轨迹预测领域的规范译法 3. "Tracking, Fusion, and Prediction"三个核心术语分别译为"追踪"(而非"跟踪")、"融合"和"预测",符合多传感器融合与运动预测领域的专业术语标准) | Haichao Zhang | PDF | Trajectory prediction is a critical task in computer vision and autonomous systems, playing a key ro [翻译失败] | | 可泛化的几何图像描述合成

(注:该翻译严格遵循了学术术语规范: 1. "Generalizable" 译为"可泛化的",符合计算机视觉领域对模型泛化能力的标准表述 2. "Geometric" 译为"几何",准确保持了几何特征处理的专业含义 3. "Image Caption Synthesis" 采用"图像描述合成"这一学界通用译法,完整保留技术概念 4. 整体语序符合中文学术表达习惯,同时确保专业术语的精确性) | Yue Xin | PDF | 多模态大语言模型在诸多需要强推理能力的实际应用中具有广泛用途。尽管近期取得进展,这类模型在解决复杂几何问题时仍面临困难。关键挑战源于缺乏用于理解几何图形的高质量图文配对数据集。此外,大多数基于模板的数据合成流程通常难以泛化到预定义模板之外的问题。本文通过将可验证奖励的强化学习(RLVR)互补流程引入数据生成管线,成功弥补了这一空白。我们采用RLVR方法对基于50种基本几何关系合成的几何图像标题进行优化,并利用数学解题任务衍生的奖励信号,使流程成功捕捉到几何解题的关键特征。这种方法不仅实现了更好的任务泛化能力,还带来了显著性能提升。值得注意的是,即使在分布外场景下,生成的数据集也能增强多模态大语言模型的通用推理能力:在MathVista和MathVerse的非几何图像任务中,统计、算术、代数和数值计算任务的准确率提升2.8%-4.8%;在MMMU基准测试的艺术、设计、技术和工程任务中实现2.4%-3.9%的精度提升。 | | 通过规则引导的大语言模型提示评估全球历史结构性压迫

该翻译严格遵循了学术术语的准确性要求: 1. "Rule-Guided Prompting" 译为"规则引导的提示",保留计算机科学专业术语特征 2. "Large Language Models" 采用学界通用译法"大语言模型" 3. "Historical Structural Oppression" 译为"历史结构性压迫",准确传达社会学概念 4. 介词"via"转化为中文主动语态"通过",符合中文学术表达习惯 5. 保持原文严谨的学术风格,同时确保中文表达流畅自然 | Sreejato Chatterjee | PDF | 传统的历史结构性压迫测量方法因各国独特的、地方化的排斥史、殖民史与社会地位差异而面临跨国效度难题,且往往依赖偏重物质资源的结构化指标,忽视基于身份认同的生活化排斥。我们提出一种新型压迫测量框架,利用大语言模型(LLM)生成适用于不同地缘政治情境的、具有语境敏感性的历史性生存劣势评分。通过采用多语言COVID-19全球研究中非结构化的自我认同族群表述数据,我们设计了规则引导的提示策略,促使模型生成可解释且具有理论依据的压迫程度评估。我们在多个前沿大语言模型上系统评估了这些策略。研究结果表明,在明确规则引导下,大语言模型能够捕捉国家内部基于身份认同的细微历史压迫形式。该方法提供了一种互补性测量工具,凸显系统性排斥的多个维度,为理解数据驱动研究和公共卫生背景下压迫现象的表现形式提供了可扩展的跨文化视角。为支持可重复评估,我们开源了用于评估大语言模型压迫测量能力的基准数据集(https://github.com/chattergpt/llm-oppression-benchmark)。 |