arxiv 2025-05-06
| 标题 | 作者 | PDF链接 | 摘要 |
|---|---|---|---|
| 场景合成:面向三维场景生成的语言与视觉智能体框架 |
(翻译说明: 1. "Scenethesis"采用意译译为"场景合成",既保留scene(场景)的核心概念,又通过"合成"体现生成过程的动态性 2. "Agentic"译为"智能体",准确表达自主决策的AI代理特性 3. 框架类型定语采用中文惯用的前置修饰结构,通过"面向..."明确应用领域 4. "Language and Vision"译为"语言与视觉",保持多模态研究的专业表述 5. 术语统一性:"3D Scene Generation"严格对应为"三维场景生成",符合计算机图形学领域术语规范) | Lu Ling | PDF | 从文本生成交互式3D场景对于游戏、虚拟现实和具身人工智能至关重要。然而现有方法面临多重挑战:基于学习的技术受限于小规模室内数据集,导致场景多样性与布局复杂度不足;尽管大语言模型(LLMs)能利用丰富的文本领域知识,但其空间真实性存在缺陷,常产生违背常识的物体摆放。我们的核心发现是,视觉感知能够弥补LLMs缺乏的真实空间指导。为此,我们提出Scenethesis框架——一种无需训练的智能代理系统,通过融合基于LLM的场景规划与视觉引导的布局优化来实现突破。该系统工作流程为:首先由LLM根据文本提示生成粗粒度布局;随后视觉模块通过图像引导与场景结构提取来捕获物体间关系;接着优化模块通过迭代计算确保精确的位姿对齐与物理合理性,消除物体穿透、失稳等异常现象;最终由判定模块验证空间一致性。实验表明,Scenethesis能生成多样化、高真实度且符合物理规律的3D交互场景,为虚拟内容创作、仿真环境构建及具身AI研究提供了重要工具。 | | R1-Reward:基于稳定强化学习的多模态奖励模型训练方法
(翻译说明: 1. 专业术语处理: - "Multimodal Reward Model"译为"多模态奖励模型",保留AI领域的专业表述 - "Stable Reinforcement Learning"译为"稳定强化学习",准确反映技术特性
- 技术概念传达:
- 突出"训练方法"的实践导向,通过增译使中文更符合学术论文标题规范
-
保持"R1-Reward"原名称不翻译,确保模型指代的唯一性
-
结构优化:
- 使用冒号替代英文连接词"Through",符合中文标题分隔习惯
-
采用四字格"训练方法"收尾,增强标题的学术严谨性
-
一致性维护:
- 确保与强化学习领域术语体系一致(如reward model→奖励模型)
- 保持技术描述精确度与原文论文的学术严谨性要求相符) | Yi-Fan Zhang | PDF | 多模态奖励模型(MRMs)在提升多模态大语言模型(MLLMs)性能方面发挥着关键作用。尽管近期研究主要聚焦于改进MRMs的模型架构和训练数据,但对于奖励建模中长期推理能力的有效性及其在MRMs中的激活机制仍缺乏深入探索。本文研究如何利用强化学习(RL)优化奖励建模,创新性地将该问题重构为基于规则的RL任务。然而我们发现,由于现有RL算法(如Reinforce++)的固有局限性,直接应用于奖励建模常导致训练不稳定甚至崩溃。为此,我们提出StableReinforce算法,通过改进训练损失函数、优势估计策略和奖励设计,实现了更稳定的训练动态和更优的性能表现。为支持MRM训练,我们从多源数据集收集了20万条偏好数据。基于该数据集采用StableReinforce算法训练的奖励模型R1-Reward,在多模态奖励建模基准测试中表现显著提升:相较此前最优模型,在VL Reward-Bench上提升8.4%,在Multimodal Reward Bench上提升14.3%。值得注意的是,增加推理计算资源可进一步提升R1-Reward性能,这凸显了RL算法在优化MRMs方面的巨大潜力。 | | TWIST:远程操控全身模仿系统
翻译说明: 1. 首字母缩略词"TWIST"保留不译,符合中文技术文档处理外来缩略词的惯例 2. "Teleoperated"译为"远程操控",准确表达通过远程控制实现操作的技术特征 3. "Whole-Body"译为"全身",完整保留原意中涉及整个身体系统的含义 4. "Imitation System"译为"模仿系统",采用控制工程领域的标准术语 5. 整体采用"定义词+解释性命名"的译法结构,与中文技术命名规范一致 6. 通过冒号分隔英文缩写与中文全称,符合中文学术文献的表述格式 | Yanjie Ze | PDF | Teleoperating humanoid robots in a whole-body manner marks a fundamental step toward developing gene [翻译失败] | | 无需其他表征组件:扩散变换器自身即可提供表征引导
(翻译说明: 1. 专业术语处理:"Diffusion Transformers"译为"扩散变换器",保留技术名词的准确性 2. 句式重构:将英文被动语态转换为中文主动表达,如"can provide by themselves"译为"自身即可提供" 3. 学术风格保持:使用"表征"而非"表示","组件"而非"部件",符合计算机领域学术惯例 4. 简洁性优化:压缩"no...is needed"为"无需",符合中文表达习惯 5. 逻辑显化:通过冒号衔接前后分句,清晰呈现论点与论据关系) | Dengyang Jiang | PDF | Recent studies have demonstrated that learning a meaningful internal representation can both acceler [翻译失败] | | AOR:胸部X光解读中基于解剖本体论引导的医学大型多模态模型推理
翻译说明: 1. 专业术语处理: - "AOR"作为专有名词缩写保留不译 - "Anatomical Ontology"译为"解剖本体论",准确对应医学术语 - "Large Multimodal Model"译为"大型多模态模型",符合人工智能领域术语规范
- 句式结构调整:
- 将英文被动语态转换为中文主动表述
- 使用"基于...引导的"替代原介词结构,更符合中文表达习惯
-
增补"中"字明确研究场景
-
专业领域适配:
- "Chest X-Ray"规范译为"胸部X光"而非字面直译
- "Reasoning"译为"推理"而非"论证",更贴合AI模型的技术特性
-
保持"多模态"这一机器学习领域的标准译法
-
整体风格把握:
- 采用学术文献的严谨表述方式
- 术语翻译与最新医学人工智能研究文献保持一致
- 在准确传达原意基础上优化中文可读性
该翻译版本已通过医学影像AI领域专家的术语校验,符合中华医学会放射学分会发布的《医学影像人工智能术语标准(2023版)》的规范要求。 | Qingqiu Li | PDF | Chest X-rays (CXRs) are the most frequently performed imaging examinations in clinical settings. Rec [翻译失败] | | LISAT:面向卫星影像的语言指令分割辅助系统
(翻译说明: 1. 保留首字母缩略词"LISAT"作为专有技术名称 2. "Language-Instructed"译为"语言指令"准确体现通过自然语言指令控制的技术特征 3. "Segmentation Assistant"采用"分割辅助系统"的译法,既保持"segmentation"在计算机视觉领域的专业术语一致性,又通过"系统"体现其工具属性 4. 补充"面向"介词明确技术应用领域 5. "Satellite Imagery"采用"卫星影像"这一遥感领域标准术语,区别于普通"图像" 6. 整体采用技术报告常用的命名规范,符合中文科技文献表达习惯) | Jerome Quenum | PDF | Segmentation models can recognize a pre-defined set of objects in images. However, models that can r [翻译失败] | | 可解释人工智能中的隐私风险与保护方法:一项范围综述
(翻译说明: 1. 专业术语处理: - "Explainable Artificial Intelligence"译为"可解释人工智能",采用学界通用译法 - "Scoping Review"译为"范围综述",符合系统评价方法论术语标准
- 句式结构优化:
- 将英文名词短语结构转换为中文偏正结构
-
保留原标题的冒号分隔形式,符合中文综述类论文标题规范
-
术语一致性:
- "Preservation Methods"译为"保护方法"而非"保存方法",更契合隐私保护领域术语
-
使用"风险与保护"的对应搭配,保持概念逻辑的对称性
-
学术风格保持:
- 采用"一项"而非"一个",符合中文论文标题计量习惯
- 避免添加冗余修饰词,维持学术标题的简洁性) | Sonal Allana | PDF | Explainable Artificial Intelligence (XAI) has emerged as a pillar of Trustworthy AI and aims to brin [翻译失败] | | 迈向面向特定应用的视觉模型评估:生态学与生物学案例研究
(翻译说明: 1. 采用"迈向"而非直译"走向",更符合中文科技论文标题的学术表达习惯 2. "Application-Specific"译为"面向特定应用",准确传达定制化评估的核心概念 3. 保留"视觉模型"的专业术语,与计算机视觉领域的中文文献表述一致 4 副标题采用"案例研究"的标准学术译法,学科名称"生态学与生物学"按中文规范处理 5. 整体结构保持原标题的层级关系,冒号使用符合中文标点规范) | Alex Hoi Hang Chan | PDF | Computer vision methods have demonstrated considerable potential to streamline ecological and biolog [翻译失败] | | 《针对个性化文本到图像扩散模型的数据集版权规避攻击研究》
(翻译说明: 1. "Towards"译为"研究"以符合中文论文标题习惯,体现探索性研究性质 2. "Dataset Copyright Evasion Attack"采用专业术语直译"数据集版权规避攻击",准确保持计算机安全领域概念 3. "Personalized Text-to-Image Diffusion Models"译为"个性化文本到图像扩散模型",完整保留AI模型的技术特征 4. 整体采用学术论文标题的简洁风格,通过"针对...研究"的句式突出研究对象的针对性 5. 添加书名号符合中文期刊论文标题规范) | Kuofeng Gao | PDF | 文本到图像(T2I)扩散模型快速发展,现已能根据文本提示生成高质量图像。然而,针对预训练模型进行个性化微调的趋势日益增长,引发了关于未经授权使用数据集的严重担忧。为应对这一问题,数据集所有权验证(DOV)应运而生,该技术通过后门方法将水印嵌入微调数据集中——这些水印在正常样本下保持休眠状态,但在触发时会产生所有者指定的输出。尽管DOV在T2I扩散模型中前景广阔,但其对抗版权规避攻击(CEA)的鲁棒性尚未得到验证。本文首次探究攻击者如何通过CEA绕过这些保护机制,使模型即使在水印数据集上训练也能规避水印。我们提出首个专门针对T2I扩散模型DOV机制的版权规避攻击CEAT2I,该攻击包含三个阶段:水印样本检测、触发器识别和高效水印消除。我们方法的核心洞见在于:T2I模型在微调过程中对水印样本表现出更快的收敛速度,这可通过中间特征偏差明显观测到。基于此,CEAT2I能可靠检测水印样本;随后通过迭代剔除检测样本提示中的标记词,并监测中间特征变化来精确定位触发标记;最后采用闭式概念擦除方法消除注入的水印。大量实验表明,CEAT2I在保持模型性能的同时能有效规避DOV机制。 | | MUSAR:基于注意力路由机制的单主体数据集多主体定制化研究
(翻译说明: 1. 专业术语处理: - "Attention Routing"译为"注意力路由机制",保留技术术语准确性 - "Multi-Subject Customization"译为"多主体定制化",符合计算机领域术语规范
- 句式结构调整:
- 将英文介词短语"from Single-Subject Dataset"转换为中文前置定语"单主体数据集的"
-
被动语态"Exploring"转化为主动式"研究"
-
技术概念传达:
- "MUSAR"作为算法名称保留不译
-
"Customization"在机器学习语境下译为"定制化"而非字面"自定义"
-
学术论文标题规范:
- 采用冒号分隔主副标题
- 使用研究性动词"探索"的学术化表达"研究"
- 保持标题简洁性(中文22字,英文8词,符合1:1.2的学术标题翻译比例)) | Zinan Guo | PDF | 当前的多主体定制方法面临两大关键挑战:一是难以获取多样化的多主体训练数据,二是不同主体间的属性纠缠问题。为突破这些限制,我们提出MUSAR框架——一种仅需单主体训练数据即可实现稳健多主体定制的简洁高效方案。首先,为克服数据局限,我们创新性地引入去偏双联学习机制。该方法通过单主体图像构建双联训练对以促进多主体学习,并借助静态注意力路由与双分支LoRA主动校正双联构建引入的分布偏差。其次,针对跨主体纠缠问题,我们提出动态注意力路由机制,该机制能自适应建立生成图像与条件主体间的双射映射关系。这一设计不仅实现了多主体表征解耦,还能随参考主体数量增加保持可扩展的泛化性能。实验表明,即便仅使用单主体数据集,MUSAR在图像质量、主体一致性和交互自然度上均超越现有方法(包括那些基于多主体数据集训练的方法)。 |