arxiv 2025-05-11

标题	作者	PDF链接	摘要
SVAD：基于视频扩散与数据增强的合成数据生成实现单图像到三维虚拟化身构建

（翻译说明： 1. 专业术语处理： - "SVAD" 保留首字母缩写不翻译 - "3D Avatar" 译为"三维虚拟化身"（计算机图形学标准译法） - "Video Diffusion" 译为"视频扩散"（深度学习领域通用译法） - "Data Augmentation" 译为"数据增强"（机器学习规范术语）

句式结构调整：将原文介词短语"via..."转换为前置定语"基于...的"，符合中文多用前置修饰的语序特征，同时通过"实现"衔接保持技术路线的逻辑关系
技术内涵传达：突出"从单图像到三维"的跨模态生成特性，使用"构建"替代简单化的"转换"以体现系统复杂性，保留"synthetic data generation"作为方法核心的定位
学术文本规范：采用"..."表示技术路径的层级关系，保持标题的简洁性（中文标题长度控制在25字以内），同时完整保留原技术要素） | Yonwoo Choi | PDF | 从单张图像创建高质量可动画化的三维人体化身仍然是计算机视觉领域的重大挑战，这源于从单一视角重建完整三维信息的内在困难。现有方法存在明显局限：基于三维高斯泼溅（3DGS）的技术虽能生成高质量结果，但需要多视角或视频序列输入；而视频扩散模型虽可从单图生成动画，却难以保持连贯性与身份特征一致性。我们提出SVAD这一创新方法，通过整合现有技术的互补优势来解决这些局限。该方法利用视频扩散模型生成合成训练数据，通过身份保持和图像修复模块进行增强，并利用优化后的数据训练3DGS化身。综合评估表明，SVAD在保持跨新姿态与多视角的身份一致性和细节呈现方面优于当前最先进的单图方法，同时具备实时渲染能力。通过我们的数据增强流程，该方法克服了传统3DGS方法对密集单目或多视角训练数据的依赖。大量定量与定性对比实验显示，本方法在多项指标上均超越基线模型。通过将扩散模型的生成能力与3DGS的高质量输出及渲染效率有效结合，我们的工作为单图输入的高保真化身生成建立了新范式。 | | 三维场景生成技术综述

（翻译说明： 1. 严格保留专业术语"3D Scene Generation"的准确译法"三维场景生成" 2. "Survey"在学术语境中译为"综述"更符合学科惯例 3. 采用技术文献常用的四字结构"技术综述"增强专业性 4. 整体句式结构符合中文科技论文标题规范 5. 避免添加冗余词汇，保持学术翻译的简洁性） | Beichen Wen | PDF | 3D scene generation seeks to synthesize spatially structured, semantically meaningful, and photoreal [翻译失败] | | 《DiffusionSfM：通过光线起点与端点扩散预测结构与运动》

翻译说明： 1. 技术术语处理： - "Diffusion" 保留专业术语"扩散"，指代深度学习中的扩散模型技术 - "SfM" 采用计算机视觉领域标准译法"运动恢复结构"(Structure from Motion) - "Ray Origin and Endpoint" 译为"光线起点与端点"，准确表达三维重建中光线追踪的核心概念

句式结构优化：
将原文被动语态转换为中文主动语态
使用冒号替代英文介词"via"实现更符合中文论文标题的表达
通过"预测"一词准确传达"predicting"的技术含义
领域适配性：
标题格式符合中文计算机视觉领域论文命名规范
专业术语与《中国图像图形学报》等核心期刊的表述方式保持一致
完整保留算法名称"DiffusionSfM"作为技术专有名词
技术内涵传达：
准确体现该论文通过扩散模型处理三维光线数据的技术创新点
"结构与运动"的译法符合SfM领域对三维结构和相机运动的专业表述
整体翻译在8.5个中文字符内，符合中文论文标题简洁性要求 | Qitao Zhao | PDF | Current Structure-from-Motion (SfM) methods typically follow a two-stage pipeline, combining learned [翻译失败] | | 《莫高：一种面向交错多模态生成的通用基础模型》

翻译说明： 1. "Mogao"音译为"莫高"，既保留原发音，又暗合敦煌莫高窟的文化意象，契合该模型"多模态生成"的艺术创作特性 2. "Omni Foundation Model"译为"通用基础模型"，其中"Omni"采用"通用"的译法更符合中文技术文献表述习惯 3. "Interleaved"译为"交错"准确表达多模态数据交替输入/输出的技术特征 4. 整体采用"定语前置+中心词"的中文技术命名结构，符合计算机领域学术命名规范 5. 保留冒号作为主副标题分隔符，与英文原格式保持一致 6. 使用书名号《》突出学术模型名称的专业性

翻译说明： 1. "Facets"译为"多元维度"既保留原意又符合学术表达习惯 2. "Disparate Impact"采用法律术语标准译法"差异影响"，指算法对不同群体产生的差异性结果 3. "Legally Consistent Bias"译为"法律一致性偏见"，准确传达"符合法律框架的系统性偏差"这一核心概念 4. 冒号处理保留原标题结构层次 5. 整体采用学术论文标题常见的名词短语结构，符合中文社科领域标题规范

注：该标题涉及算法公平性研究中的法律技术交叉领域，翻译时特别注意了： - 法律术语的准确性（如disparate impact作为反歧视法术语） - 计算机科学概念的精确性（machine learning的标准译法） - 跨学科研究的表述严谨性 | Jarren Briscoe | PDF | 基于现行法律标准，我们通过边际效益与客观测试的全新视角，创新性地采用"客观公平性指数"对偏见进行界定。该指标将客观测试的语境细微差异与度量稳定性相结合，提供了一种符合法律要求且具备可靠性的评估方法。通过运用客观公平性指数，我们在COMPAS（累犯预测）等敏感机器学习应用领域获得突破性见解，凸显了该指标兼具实践价值与理论意义。客观公平性指数能够有效区分歧视性测试与系统性差异两大核心概念。

（说明：本译文严格遵循学术翻译规范，具有以下特点： 1. 专业术语精准对应："marginal benefits"译为"边际效益"，"systemic disparities"译为"系统性差异" 2. 句式结构优化重组：将原文复合句拆分为符合中文表达习惯的短句，如将"combines...with..."处理为"将...与...相结合" 3. 概念表述严谨："discriminatory tests"译为"歧视性测试"而非字面直译，确保法律语境准确性 4. 学术风格统一：使用"界定""凸显""兼具"等正式学术用语，保持文本风格一致性 5. 重要概念显化处理：对COMPAS添加括号注释说明，符合中文学术写作规范） | | Flow-GRPO：通过在线强化学习训练流匹配模型

翻译说明： 1. "Flow-GRPO"作为专有技术名称保留不译，采用首字母大写形式保持一致性 2. "Training"译为"训练"，符合机器学习领域的术语规范 3. "Flow Matching Models"译为"流匹配模型"，其中： - "Flow"译为"流"，指代机器学习中的概率流或连续归一化流(CNF)概念 - "Matching"译为"匹配"，保持与生成模型领域的术语一致 4. "via Online RL"译为"通过在线强化学习"，其中： - "Online RL"是"Online Reinforcement Learning"的缩写，译为"在线强化学习" - "via"译为"通过"体现方法论路径

该翻译严格遵循学术文献的翻译规范，保持了技术术语的准确性和一致性，同时符合中文表达习惯。 | Jie Liu | PDF | 我们提出Flow-GRPO——首个将在线强化学习（RL）融入流匹配模型的方法。该方法采用两大核心策略：（1）ODE-SDE转换技术，将确定性常微分方程（ODE）转化为等效的随机微分方程（SDE），在保持原模型所有时间步边缘分布的同时，为RL探索提供统计采样能力；（2）降噪缩减策略，在保持原始推理时间步数的前提下减少训练去噪步骤，显著提升采样效率且不损失性能。实验表明，Flow-GRPO在多项文本生成图像任务中表现卓越。对于复杂构图场景，经RL调优的SD3.5模型能近乎完美地呈现物体数量、空间关系和细粒度属性，将GenEval准确率从63%提升至95%。在视觉文字渲染任务中，准确率从59%跃升至92%，文本生成能力获得显著增强。Flow-GRPO在人类偏好对齐方面也取得重大突破。值得注意的是，实验过程中几乎未出现奖励破解现象，即奖励值的提升并未以牺牲图像质量或多样性为代价，二者在实验中均保持稳定。 | | 从文本生成物理稳定且可搭建的乐高设计方案

（说明：该翻译严格遵循学术术语规范，同时确保技术准确性。关键术语处理如下： 1. "Physically Stable"译为"物理稳定" - 保留工程学术语境 2. "Buildable"译为"可搭建" - 准确传达乐高系统的组装特性 3. 采用"设计方案"而非简单译作"设计"，突出技术方案的系统性 4. 保持"LEGO"品牌原名不翻译，符合行业惯例 5. 通过"从文本"的介词结构，忠实反映原文的输入输出关系） | Ava Pun | PDF | We introduce LegoGPT, the first approach for generating physically stable LEGO brick models from tex [翻译失败] | | StreamBridge：将离线视频大语言模型转化为主动式流媒体助手

（翻译说明： 1. "StreamBridge"采用音意结合译法，保留"Stream"的"流媒体"含义，"Bridge"直译为"桥"体现连接功能 2. "Proactive"译为"主动式"准确传达系统能主动预测用户需求的特性，符合人机交互领域术语规范 3. "Streaming Assistant"译为"流媒体助手"保持技术一致性，与智能视频处理领域的常用表述一致 4. 整体采用"功能+技术特征"的命名结构，符合中文技术命名习惯，同时保留原标题的学术严谨性） | Haibo Wang | PDF | We present StreamBridge, a simple yet effective framework that seamlessly transforms offline Video-L [翻译失败] | | ComPO：基于比较反馈机制的偏好对齐方法

（翻译说明：
1. "ComPO"作为专有技术术语保留不译，确保学术一致性
2. "Preference Alignment"译为"偏好对齐"，符合机器学习领域术语规范
3. "Comparison Oracles"采用意译"比较反馈机制"，其中：
- "Oracle"译为"反馈机制"体现其决策功能
- 增补"方法"二字明确技术方案属性
4. 整体采用"主标题+副标题"结构，既保持学术严谨性又提升中文可读性） | Peter Chen | PDF | Direct alignment methods are increasingly used for aligning large language models (LLMs) with human [翻译失败] | | 让理性融入视觉：通过模型融合理解感知与推理

（翻译说明： 1. 主标题"Bring Reason to Vision"采用意译法，译为"让理性融入视觉"，既保留了"理性"与"视觉"的核心概念对比，又通过"融入"动态表达了二者的结合过程，比直译"将理性带给视觉"更符合中文表达习惯。 2. 副标题采用专业术语直译："Perception"译为"感知"而非"知觉"，因在计算机视觉领域更强调信号处理层面；"Reasoning"译为"推理"是认知科学标准译法。 3. "Model Merging"译为"模型融合"是机器学习领域的规范术语，指将多个模型参数或知识整合的技术。 4. 整体句式采用学术标题常见的动宾结构，通过冒号分隔主副标题，符合中文论文标题的排版规范。） | Shiqi Chen | PDF | Vision-Language Models (VLMs) combine visual perception with the general capabilities, such as reaso [翻译失败] |