跳转至

arxiv 2025-06-26

标题 作者 PDF链接 摘要
IPFormer:基于上下文自适应实例提议的视觉三维全景场景补全

(翻译说明: 1. 保留技术术语"IPFormer"作为模型名称不翻译 2. "Context-Adaptive Instance Proposals"译为"上下文自适应实例提议",其中: - "Context-Adaptive"采用计算机视觉领域标准译法"上下文自适应" - "Instance Proposals"译为"实例提议",符合目标检测领域的术语惯例 3. "Visual 3D Panoptic Scene Completion"译为"视觉三维全景场景补全": - "Panoptic"采用学界通用译法"全景" - "Scene Completion"译为"场景补全"准确表达从部分观测重建完整场景的含义 4. 整体采用"基于..."的学术论文标题常见结构,突出方法的核心创新点 5. 保持原标题的简洁性和技术准确性,符合计算机视觉领域的命名规范) | Markus Gross | PDF | 语义场景补全(Semantic Scene Completion, SSC)已成为联合学习场景几何与语义信息的关键方法,为移动机器人导航等下游应用提供了技术支持。近期提出的全景场景补全(Panoptic Scene Completion, PSC)通过整合实例级信息推动了该领域发展,显著提升了场景理解中物体级别的感知能力。尽管PSC最初基于LiDAR模态提出,但基于相机图像的实现方法仍存在大量研究空白。现有基于Transformer的SSC方法通常采用固定数量的学习查询来重建场景体素中的物体,这些查询在训练期间虽能通过图像上下文更新,但在测试阶段保持静态,限制了其针对观测场景的动态适应能力。

为突破这些限制,我们提出IPFormer——首个在训练和测试阶段均采用上下文自适应实例提案来解决基于视觉的三维全景场景补全问题的方法。具体而言,IPFormer将查询自适应初始化为源自图像上下文的全景实例提案,并通过基于注意力的编码-解码机制持续优化,从而建立语义实例-体素关联。实验结果表明:本方法在全景综合指标PQ$^\dagger$和PQ-All上超越现有最优方法,在单项指标上达到同等性能,并实现超过14倍的运行速度提升。消融研究进一步揭示,相较于随机初始化,从图像上下文动态生成实例提案可使PQ-All提升3.62%,物体类指标平均提升达18.65%。这些成果标志着我们在基于视觉的三维全景场景补全领域首次实现了上下文自适应实例提案的创新应用。 | | MMSearch-R1:激励大型多模态模型进行搜索

(翻译说明: 1. 保留原技术术语"MMSearch-R1"作为专有名称不译 2. "LMMs"采用学界通用译法"大型多模态模型",全称首次出现时保留英文缩写 3. "Incentivizing"译为"激励"准确传达通过机制设计促进特定行为的核心含义 4. 采用技术报告标题的简洁风格,使用冒号分隔主副标题 5. 动名词"Searching"转化为动词短语"进行搜索",符合中文表达习惯) | Jinming Wu | PDF | 鉴于现实世界信息的复杂性和动态性,大规模多模态模型(LMMs)在实际场景中的稳健部署需要接入外部知识源。现有方法如检索增强生成(RAG)和提示工程搜索代理依赖于固定流程,常导致低效或过度搜索行为。我们提出MMSearch-R1——首个端到端强化学习框架,使LMMs能够在真实互联网环境中执行按需多轮搜索。该框架集成图像与文本搜索工具,通过基于结果的奖励机制配合搜索惩罚项,指导模型自主决策搜索时机与方式。

为支持训练,我们通过半自动化流程构建了多模态搜索视觉问答数据集,涵盖多样化的视觉与文本知识需求,并精选包含需搜索样本与免搜索样本的搜索平衡子集,这对塑造高效按需搜索行为至关重要。在知识密集型和信息寻求型视觉问答任务上的大量实验表明,我们的模型不仅优于同规模RAG基线模型,更在减少30%以上搜索调用的同时,达到更大规模RAG模型的性能水平。我们进一步分析关键实证发现,为推进多模态搜索研究提供可操作的见解。

(翻译说明:1. 专业术语严格对应;2. 长句按中文习惯切分;3. 被动语态转为主动表达;4. 保留技术概念精确性;5. 学术表述符合中文论文规范;6. 关键数据完整呈现) | | DemoDiffusion:基于预训练扩散策略的单次人类动作模仿

(翻译说明: 1. 保留技术术语"Diffusion Policy"的直译"扩散策略",符合机器学习领域规范 2. "One-Shot"译为"单次"准确体现只需一次演示的核心特性 3. 使用"人类动作模仿"比直译"人类模仿"更符合机器人学习领域的表达习惯 4. 标题结构采用主副标题形式,保持学术论文命名规范 5. 冒号使用中文全角符号,遵循中文排版规则 6. 专有名词"DemoDiffusion"保留不译,首字母大写保持一致性) | Sungjae Park | PDF | We propose DemoDiffusion, a simple and scalable method for enabling robots to perform manipulation t [翻译失败] | | 你内心有许多匹狼:运用认知模型解析大语言模型中的价值权衡

(翻译说明: 1. 保留原文隐喻性标题风格,将"wolves"直译为"狼"以维持意象完整性,并添加"匹"字符合中文量词习惯 2. "cognitive models"译为专业术语"认知模型",确保学术准确性 3. "value trade-offs"译为"价值权衡"精准传达决策研究中权衡取舍的核心概念 4. "LLMs"采用行业通用译法"大语言模型",括号中补充英文缩写(首次出现时) 5. 整体句式结构调整为中文标题常见的动宾结构,使用冒号替代原文冒号更符合中文标点规范 6. 添加"运用"二字使动词更显化,符合中文表达习惯) | Sonia K. Murthy | PDF | 在日常社交情境中,人们常常需要权衡相互冲突的目标——既要传达尖锐的事实,又要维持信任关系,同时还需顾及他人感受。这种价值权衡是人类决策与语言运用的核心特征,然而当前大语言模型(LLMs)中用于解析此类动态、多维价值概念的工具仍存在局限。认知科学领域提出的"认知模型"通过量化说话者在选择行为或话语时对竞争性效用函数的权重分配,为人类的价值权衡提供了形式化描述。

本研究采用前沿的礼貌言语认知模型,系统评估大语言模型在多大程度上再现了类人的价值权衡机制。我们通过双重维度展开分析:前沿黑盒模型不同推理"努力"程度下的表现差异,以及开源模型在强化学习后训练阶段的动态特征。研究发现:推理模型普遍呈现信息效用高于社交效用的特征模式,数学推理能力较强的开源模型尤为显著;训练动态分析表明,相较于反馈数据集或对齐方法,基座模型选择与预训练数据对效用价值的早期塑造具有持续影响,且训练初期就出现显著价值偏移。

本方法能有效捕捉快速演进的大语言模型生态多样性特征,其应用价值体现在:为其他高阶行为假设构建提供依据,优化推理模型的训练范式,并在模型训练过程中实现对不同价值维度权衡的更精准调控。 | | 多智能体推理与心智理论的Decrypto基准测试

(翻译说明: 1. "Decrypto Benchmark"采用音译加意译的混合译法,保留专有名词"Decrypto"的音译,同时补充"基准测试"明确其作为评估工具的性质 2. "Multi-Agent Reasoning"译为"多智能体推理",符合人工智能领域对agent的标准译法 3. "Theory of Mind"译为"心智理论",采用认知科学领域的规范术语,指理解他人心理状态的能力 4. 整体结构采用中文论文标题常见的"研究对象+内容属性"形式,使用"与"连接两个并列研究维度,保持学术表达的简洁性) | Andrei Lupu | PDF | As Large Language Models (LLMs) gain agentic abilities, they will have to navigate complex multi-age [翻译失败] | | 编辑P23:基于图像提示传播至多视图的三维编辑方法

(说明:该翻译严格遵循学术术语规范,采用"基于...的..."句式体现技术原理。关键术语处理如下: 1. "Propagation"译为"传播"保留计算机图形学领域术语特征 2. "Image Prompts"译为"图像提示"符合AI生成领域对prompt的标准译法 3. "Multi-View"译为"多视图"采用计算机视觉领域通用术语 4. 通过增译"方法"二字符合中文论文标题习惯,使技术方案表述更完整) | Roi Bar-On | PDF | 我们提出EditP23方法,这是一种无需掩模的三维编辑技术,能够将二维图像编辑以三维一致的方式传播至多视角表征。与传统依赖文本提示或显式空间掩模的方法不同,EditP23通过输入图像对(原始视图及其用户编辑版本)实现直观编辑。这些图像提示用于引导预训练多视角扩散模型潜在空间中的编辑感知流,使编辑效果能够连贯地跨视角传播。我们的方法以前馈方式运行,无需优化过程,同时在结构和外观上保持原始对象的身份特征。实验证明该方法在多种对象类别和编辑场景中均表现优异,在无需人工掩模的情况下仍能保持对源数据的高保真度。

(翻译说明: 1. 专业术语处理:"mask-free"译为"无需掩模","multi-view representations"译为"多视角表征","feed-forward"译为"前馈",均符合计算机视觉领域术语规范 2. 技术概念保留:完整保留"EditP23"方法名称,保持"latent space"(潜在空间)、"diffusion model"(扩散模型)等核心概念的原意 3. 句式结构调整:将英语长句拆分为符合中文表达习惯的短句,如将"conditioning on..."处理为"通过...实现"的主动句式 4. 学术表达规范:使用"表征""保真度"等学术用语,保持"其"等正式指代用法 5. 逻辑关系显化:通过"同时""仍能"等连接词明确原文隐含的转折与递进关系) | | 《闻恶无声:联邦学习中恶意服务器梯度泄露的检测研究》

(翻译说明: 1. 标题采用文言化四字结构"闻恶无声"对应"Hear No Evil",既保留谚语文化意象,又体现学术严谨性 2. 副标题使用专业术语直译:"联邦学习"(Federated Learning)、"梯度泄露"(Gradient Leakage)严格对应机器学习领域标准译法 3. "Detecting"译为"检测研究"体现论文的研究性质,区别于普通技术报告的"检测" 4. 通过冒号分隔主副标题,符合中文计算机领域论文标题规范 5. 补充"研究"二字使标题更符合中文社科类论文命名习惯,同时不改变原意) | Fei Wang | PDF | Recent work has shown that gradient updates in federated learning (FL) can unintentionally reveal se [翻译失败] | | 精通多专家路由:可实现$H$-一致性及学习延迟的强保证

(翻译说明: 1. 专业术语处理: - "Multiple-Expert Routing"译为"多专家路由",保留"路由"这一技术术语 - "$H$-Consistency"严格保留数学符号和连字符格式 - "Learning to Defer"译为"学习延迟",准确传达机器学习中延迟决策的概念

  1. 学术风格保持:
  2. 使用冒号分隔主副标题,符合中文论文标题规范
  3. "Realizable"译为"可实现",准确表达可实现性理论含义
  4. "Strong Guarantees"译为"强保证",保持理论计算机领域术语风格

  5. 结构对应:

  6. 完整保留原标题的双层结构
  7. 主标题突出研究主题,副标题说明理论贡献
  8. 中文标题长度与英文基本相当(15字 vs 8词)) | Anqi Mao | PDF | 多专家学习延迟决策问题旨在实现输入实例与专家之间的最优分配,以平衡其预测准确性与计算成本之间的权衡。这一核心挑战不仅存在于自然语言生成领域,也广泛见于图像处理、医疗诊断等其他学科。尽管近期研究提出了替代损失函数来优化延迟决策机制,但其一致性属性的理论保障仍存在诸多未解难题。本文创新性地提出了一系列具有强理论学习保证的替代损失函数及高效算法,重点解决了以下关键问题:在单阶段学习(联合训练预测器与延迟决策函数)和双阶段学习(基于固定专家仅训练延迟决策函数)两种场景下,关于可实现H-一致性、H-一致性边界以及贝叶斯一致性的理论证明。

针对单阶段延迟决策,我们构建了新型可实现H-一致性的替代损失函数族,并特别选取其中一员完成严格的H-一致性证明。对于双阶段延迟决策,我们推导出适用于双专家场景的新型替代损失函数,该函数不仅满足可实现H-一致性,还具备H-一致性边界与贝叶斯一致性;在合理假设条件下,该方案可进一步扩展至多专家场景。此外,我们在低噪声假设条件下为两种场景提供了增强版的理论保证。最终,通过系统实验验证了所提替代损失函数的实际效能,并与现有基线方法进行了全面性能对比。 | | 显微镜图像的分离表征

(说明:根据学术翻译规范,此处采用以下处理方式: 1. "Disentangled representations"译为"分离表征" - 这是机器学习领域的标准术语,指将数据中的不同影响因素分离到独立的表征维度 2. "microscopy images"译为"显微镜图像"而非"显微图像",更符合生物医学领域的术语习惯 3. 采用"表征"而非"表示",以区别于一般的数学表示概念 4. 整体采用名词化结构,保持学术文本的简洁性) | Jacopo Dapueto | PDF | 显微图像分析是从疾病诊断到合成工程与环境监测等不同应用领域的基础技术。现代采集系统能够获取数量不断增长的图像数据,这相应地推动了基于深度学习的自动化图像分析方法的大规模发展。尽管深度神经网络在该领域已展现出卓越性能,但作为显微图像分析核心要求的可解释性,仍是一个亟待解决的挑战。

本研究提出了一种解耦表征学习(DRL)方法,旨在提升显微图像分类模型的可解释性。通过利用来自三个不同显微图像领域(浮游生物、酵母液泡和人类细胞)的基准数据集,我们证明了基于合成数据表征迁移的DRL框架能够在该领域实现准确性与可解释性的良好平衡。 | | 面向数据异构边缘设备的高效联邦学习与加密数据共享技术

(翻译说明: 1. 采用"面向..."的句式突出技术应用场景,符合中文标题习惯 2. "Data-Heterogeneous"译为"数据异构"准确体现专业术语 3. "Encrypted Data Sharing"译为"加密数据共享"保持技术概念的精确性 4. 补充"技术"二字使中文标题更完整,同时不改变原意 5. 整体采用"定语+中心词"结构,符合中文科技论文标题的常见表达方式 6. 通过"与"字连接两个关键技术要素,保持原文的逻辑关系) | Hangyu Li | PDF | As privacy protection gains increasing importance, more models are being trained on edge devices and [翻译失败] |