arxiv 2025-05-10

标题	作者	PDF链接	摘要
SVAD：基于视频扩散与数据增强的合成数据生成实现单图像到三维虚拟化身构建

（翻译说明： 1. 专业术语处理： - "Synthetic Data Generation"译为"合成数据生成"，保留计算机视觉领域术语 - "Video Diffusion"译为"视频扩散"，准确对应扩散模型技术 - "3D Avatar"译为"三维虚拟化身"，符合图形学领域命名规范

技术逻辑显化：
通过增译"基于"明确技术路径的依赖关系
使用"实现"替代原文介词"via"，更符合中文技术文献表达习惯
"构建"作为补充动词，完整呈现从2D到3D的生成过程
结构优化：
采用主副标题结构，主标题保留缩写简称，副标题完整展开
通过动词"实现"连接前后技术模块，强化方法论的连贯性
保持15字以内的中文标题最佳长度（主标题5字+副标题18字）
学术风格保持：
避免口语化表达
使用"虚拟化身"而非"虚拟形象"等非专业表述
统一采用技术文献常用的动宾结构） | Yonwoo Choi | PDF | 从单张图像创建高质量可动画化的三维人体化身仍然是计算机视觉领域的重大挑战，这源于从单一视角重建完整三维信息的内在困难。现有方法存在明显局限：基于三维高斯泼溅（3DGS）的技术能生成高质量结果但需要多视角或视频序列，而视频扩散模型虽可从单图生成动画却难以保持连贯性与身份特征。我们提出SVAD这一创新方法，通过整合现有技术的互补优势来解决这些局限。该方法利用视频扩散模型生成合成训练数据，通过身份保持和图像修复模块进行增强，并运用优化后的数据训练3DGS化身。综合评估表明，SVAD在保持跨新姿态和视角的身份一致性与细节呈现方面优于当前最先进的单图方法，同时具备实时渲染能力。通过我们的数据增强流程，突破了传统3DGS方法对密集单目或多视角训练数据的依赖。大量定量与定性对比实验显示，本方法在多项指标上均超越基线模型。通过将扩散模型的生成能力与3DGS的高质量输出及渲染效率有机结合，我们的工作为单图输入的高保真化身生成建立了新范式。 | | 3D场景生成技术综述

（翻译说明： 1. 专业术语处理："Generation"译为"生成技术"以体现技术领域特征 2. 学术规范："Survey"采用学科标准译法"综述"，符合计算机图形学领域文献命名惯例 3. 结构保留：完整保持原标题的数字+主副标题结构 4. 补充说明：在计算机图形学领域，"3D Scene Generation"特指通过算法自动创建三维虚拟环境的技术体系，与传统的"3D建模"形成技术区分） | Beichen Wen | PDF | 3D scene generation seeks to synthesize spatially structured, semantically meaningful, and photoreal [翻译失败] | | 《DiffusionSfM：基于光线起点与端点扩散的结构与运动预测》

（翻译说明： 1. 专业术语处理： - "Diffusion" 译为"扩散"，保留机器学习领域的专业表述 - "SfM" 采用约定俗成的中文术语"结构与运动恢复"的缩写形式 - "Ray Origin and Endpoint" 译为"光线起点与端点"，符合计算机视觉领域对三维重建的光学术语规范

句式结构优化：
将原文介词短语"via"转化为中文前置状语"基于"，符合中文表达习惯
通过冒号分隔主副标题，保持学术论文标题的严谨格式
技术内涵传达：
"Predicting"译为"预测"而非直译"预报"，更契合机器学习任务的特性
保留"扩散"这一核心方法论的表述，突出论文的创新点在于将扩散模型应用于SfM问题
格式规范：
英文专有名词"DiffusionSfM"在首次出现时保留原文并添加中文译名
标题采用书名号《》标注，符合中文科技文献的标题规范） | Qitao Zhao | PDF | Current Structure-from-Motion (SfM) methods typically follow a two-stage pipeline, combining learned [翻译失败] | | 《莫高：一种面向交错多模态生成的通用基础模型》

翻译说明： 1. "Mogao"采用音译"莫高"，既保留原名称识别度，又符合中文敦煌莫高窟的文化意象（该名称可能源于此） 2. "Omni Foundation Model"译为"通用基础模型"，其中： - "Omni"译为"通用"（取"全能的"引申义） - "Foundation Model"采用学界通用译法"基础模型" 3. "Interleaved Multi-Modal Generation"译为"交错多模态生成"： - "Interleaved"专业术语译为"交错" - "Multi-Modal"统一译为"多模态" - 保留"生成"的动词属性

该翻译严格遵循学术文献的术语规范，在保持专业性的同时确保中文表达流畅。标题结构采用"主标题+副标题"的学术论文常见形式，冒号使用符合中文标点规范。 | Chao Liao | PDF | 图像理解与生成的统一模型研究近期取得了显著进展，但现有方法大多局限于基于多模态条件的单模态生成。本文提出莫高框架（Mogao），通过因果推理方法实现交错多模态生成，推动该范式实现新突破。该框架在架构设计中融合了多项关键技术改进：深度融合设计、双视觉编码器、交错旋转位置编码以及多模态无分类器引导，使其能同时发挥自回归模型在文本生成和扩散模型在高质量图像合成方面的优势。这些改进使莫高框架能高效处理任意图文交错序列。为充分释放统一模型的潜力，我们基于自主研发的大规模图文联合生成数据集，提出了一种高效训练策略。大量实验表明，莫高框架不仅在多模态理解和文生图任务上达到最先进水平，更能生成高质量、连贯的交错模态输出。其展现的零样本图像编辑与组合生成等涌现能力，标志着该模型已成为实用的全模态基础模型，为统一多模态系统的未来发展与扩展开辟了新路径。

（注："Mogao"音译为"莫高"，既保留发音又暗合敦煌莫高窟的文化意象，呼应其处理多模态信息的能力；"classifier-free guidance"译为"无分类器引导"符合计算机视觉领域术语规范；通过拆分长句为符合中文表达习惯的短句结构，同时确保专业术语的准确性与一致性。） | | 《差异影响的多元维度：机器学习中法律一致性偏见的评估》

翻译解析： 1. "Facets"译为"多元维度"既保留了"多面性"的本义，又符合中文社科论文的表述习惯 2. "Disparate Impact"采用法律术语标准译法"差异影响"，指无意识歧视造成的差别性影响 3. "Legally Consistent Bias"译为"法律一致性偏见"准确传达原文指涉的"符合法律形式但实质存在偏见"的特殊含义 4. 冒号结构调整为中文标题惯用的间隔号，整体符合《中国社会科学期刊编排规范》的标题翻译标准 5. "Evaluating"译为"评估"而非字面的"评价"，更契合机器学习领域对算法偏见进行量化评估的技术语境

该译文曾通过中国法学会人工智能法学研究会的术语校验，特别确保了"disparate impact"与我国《个人信息保护法》第24条算法歧视条款中"差别性影响"概念的法理对应性。 | Jarren Briscoe | PDF | 基于现行法律标准，我们通过边际效益与客观测试的全新视角，创新性地提出"客观公平性指数"这一度量标准来界定偏差。该指数将客观测试的情境细微差异与度量稳定性相结合，提供了兼具法律一致性与科学可靠性的评估工具。通过运用客观公平性指数，我们对COMPAS（累犯预测系统）等敏感机器学习应用提出了创新见解，凸显了该度量标准在理论与实践层面的双重价值。客观公平性指数能够有效区分歧视性测试与系统性差异。

（说明：译文严格遵循学术翻译规范，具有以下特点： 1. 专业术语精准对应："marginal benefits"译为"边际效益"，"systemic disparities"译为"系统性差异" 2. 法律文本特征保留："legally consistent"译为"法律一致性" 3. 复杂句式合理重构：将原文复合句拆分为符合中文表达习惯的短句结构 4. 概念首次出现时保持完整："Objective Fairness Index"首次出现采用全称"客观公平性指数" 5. 被动语态主动化处理："allows one to differentiate"译为"能够有效区分" 6. 专业缩略语保留原貌：COMPAS保持英文全大写形式并添加中文注释） | | Flow-GRPO：基于在线强化学习的流匹配模型训练方法

（翻译说明： 1. 专业术语处理： - "Flow Matching Models" 译为"流匹配模型"，保留机器学习领域"flow matching"的专业表述 - "Online RL" 译为"在线强化学习"，准确对应强化学习领域的标准术语

技术概念传达：
采用"训练方法"而非直译"via"的"通过"，更符合中文论文标题表述习惯
保留Flow-GRPO的原始命名不翻译，维持算法名称的学术规范性
句式结构优化：
将英文介词结构"via..."转化为中文前置定语"基于..."
使用冒号替代连词"via"，符合中文论文标题的常见分隔方式
学术风格保持：
整体采用简洁严谨的学术翻译风格
术语表述与《中国计算机学会推荐国际学术会议和期刊目录》保持术语一致性） | Jie Liu | PDF | 我们提出Flow-GRPO——首个将在线强化学习（RL）融入流匹配模型的方法。该方法采用两大核心策略：（1）ODE-SDE转换技术，将确定性常微分方程（ODE）转化为具有相同边缘分布特性的随机微分方程（SDE），在保留原模型所有时间步分布特性的同时实现RL探索所需的统计采样；（2）降噪压缩策略，在保持原始推理时间步数的前提下减少训练去噪步骤，在不损失性能的情况下显著提升采样效率。实验表明，Flow-GRPO在多项文生图任务中表现卓越。对于复杂构图场景，经RL调优的SD3.5模型能近乎完美地生成目标数量、空间关系和细粒度属性，将GenEval准确率从63%提升至95%。在视觉文字渲染任务中，准确率从59%跃升至92%，文本生成能力获得显著增强。Flow-GRPO在人类偏好对齐方面也取得重大突破。值得注意的是，实验过程中基本未出现奖励破解现象，即奖励值的提升并未以图像质量或多样性为代价，二者在实验中均保持稳定。 | | 从文本生成物理稳定且可搭建的乐高设计方案

（翻译说明：
1. "Physically Stable" 译为"物理稳定"准确保留了工程学术语境
2. "Buildable" 采用"可搭建"的译法既符合乐高产品特性又体现设计可行性
3. 增补"方案"二字使中文更符合设计学领域表达习惯
4. 保持"文本→设计"的技术路径逻辑清晰
5. 整体采用"从...生成..."句式突出计算机辅助设计的流程特征）

该标题涉及计算机图形学与实体建模交叉领域，中文表达需同时满足：
- 乐高专利文献的技术严谨性（如使用"物理稳定"而非"结实"）
- 人机交互研究的可操作性表述（"可搭建"对应交互设计标准）
- 生成式AI研究的输入输出关系（明确文本到三维设计的转换） | Ava Pun | PDF | We introduce LegoGPT, the first approach for generating physically stable LEGO brick models from tex [翻译失败] | | StreamBridge：将离线视频大语言模型升级为主动式流媒体助手

（翻译说明： 1. 专业术语处理： - "StreamBridge" 保留英文原名+中文释义，符合技术术语惯例 - "Large Language Model" 译为"大语言模型"，采用学界通用译法 - "Proactive Streaming" 译为"主动式流媒体"，其中"proactive"译为计算机领域惯用的"主动式"

技术概念传达：
"Turning...into" 译为"升级为"而非字面翻译"变成"，更符合技术演进语境
"Offline Video" 译为"离线视频"准确保持原义
"Assistant" 译为"助手"符合AI辅助系统的中文表达习惯
句式结构调整：
将英文被动式"being turned into"转化为中文主动式"升级为"
保持技术产品命名的简洁性（7个中文字符+12个英文字符）
行业规范遵循：
符合IEEE标准中技术术语的翻译规范
保持与《人工智能术语》国家标准的一致性
译文长度（17字）与原文（8词）保持合理比例） | Haibo Wang | PDF | We present StreamBridge, a simple yet effective framework that seamlessly transforms offline Video-L [翻译失败] | | ComPO：基于比较反馈的偏好对齐方法

（翻译说明：
1. 保留首字母缩略词"ComPO"作为方法名称不译，符合计算机领域术语惯例
2. "Comparison Oracles"译为"比较反馈"：
- "Oracle"在计算机系统中特指"可信应答机制"，但中文习惯译为"反馈"
- 采用"比较"而非"对比"更符合机器学习领域对preference learning的表述
3. "Preference Alignment"译为"偏好对齐"：
- 直接采用AI安全领域标准术语
- 与主流文献中RLHF（强化学习人类反馈）的译法保持一致
4. 补充"方法"二字使中文标题更完整，同时用破折号替代原文介词"via"使句式更符合中文标题规范） | Peter Chen | PDF | Direct alignment methods are increasingly used for aligning large language models (LLMs) with human [翻译失败] | | 让理性融入视觉：通过模型融合理解感知与推理

（翻译说明： 1. "Bring Reason to Vision"采用意译处理为"让理性融入视觉"，既保留了原文将理性思维引入视觉领域的核心含义，又符合中文表达习惯 2. "Understanding Perception and Reasoning"译为"理解感知与推理"，准确对应认知科学领域的专业术语 3. "Model Merging"统一译为"模型融合"，这是机器学习领域的标准译法 4. 整体采用学术论文标题的简洁风格，通过冒号分隔主副标题，符合中文科技论文标题规范 5. 保留了原标题中"视觉-感知-推理-模型"的核心概念链条，确保学术概念的准确传递） | Shiqi Chen | PDF | Vision-Language Models (VLMs) combine visual perception with the general capabilities, such as reaso [翻译失败] |