arxiv 2025-05-09

标题	作者	PDF链接	摘要
SVAD：基于视频扩散与数据增强的合成数据生成实现单图像到三维虚拟化身构建

（翻译说明：
1. 专业术语处理：
- "SVAD"保留缩写形式，符合学术惯例
- "3D Avatar"译为"三维虚拟化身"，准确对应计算机图形学标准术语
- "Video Diffusion"译为"视频扩散"，保持生成式AI领域的技术表述
- "Data Augmentation"译为"数据增强"，符合机器学习通用译法

技术逻辑显化：
通过增补"基于"明确方法论的依赖关系
使用"实现"替代原文介词"via"，更符合中文主动语态表达习惯
"合成数据生成"作为核心方法前置，突出技术贡献
句式结构调整：
将原文介词短语转换为中文典型的"方法+目标"陈述句式
通过分节号"："替代英文介词结构，提升标题可读性
领域适配性：
采用"构建"而非直译"to"，更符合三维建模领域的表达惯例
保持"单图像"的专业表述，避免过度口语化为"单张图片"） | Yonwoo Choi | PDF | 从单张图像创建高质量可动画化的3D人体化身仍然是计算机视觉领域的重大挑战，这源于从单一视角重建完整3D信息的内在困难。现有方法存在明显局限：基于3D高斯泼溅（3DGS）的技术虽能生成高质量结果，但需要多视角或视频序列输入；而视频扩散模型虽能从单图生成动画，却难以保持连贯性与身份特征一致性。我们提出SVAD这一创新方法，通过整合现有技术的互补优势来解决这些局限。该方法利用视频扩散模型生成合成训练数据，通过身份保持和图像修复模块进行增强，并利用优化后的数据训练3DGS化身。综合评估表明，SVAD在保持跨新姿态和视角的身份一致性与细节呈现方面优于当前最先进的单图方法，同时具备实时渲染能力。通过我们的数据增强流程，克服了传统3DGS方法对密集单目或多视角训练数据的依赖。大量定量与定性对比实验证明，本方法在多项指标上均超越基线模型。通过将扩散模型的生成能力与3DGS的高质量输出及渲染效率有机结合，我们的工作为单图输入的高保真化身生成建立了新范式。 | | 三维场景生成技术综述

（翻译说明： 1. 专业术语处理："3D"译为"三维"，"Scene Generation"译为"场景生成"，符合计算机图形学领域术语规范 2. 学术文体适配：将"A Survey"译为"综述"，准确体现学术论文的文献综述性质 3. 语序调整：按照中文论文标题习惯将修饰语前置，采用"领域+研究类型"的标准结构 4. 简洁性：整体控制在9个汉字内，符合中文论文标题的简洁要求 5. 技术准确性：完整保留"生成"的技术内涵，区别于"建模"或"重建"等其他三维技术） | Beichen Wen | PDF | 3D scene generation seeks to synthesize spatially structured, semantically meaningful, and photoreal [翻译失败] | | 《扩散式运动结构恢复：基于光线起点与终点的扩散式结构与运动预测》

（翻译说明： 1. 专业术语处理： - "DiffusionSfM"译为"扩散式运动结构恢复"，其中"SfM"采用计算机视觉领域通用译法"运动结构恢复" - "Ray Origin and Endpoint"译为"光线起点与终点"，保留计算机图形学标准术语 - "Diffusion"统一译为"扩散式"，与深度学习中的扩散模型术语体系保持一致

句式结构调整：
将原文名词短语转换为中文常见的"基于...的..."学术标题结构
通过冒号分层实现原标题的语义逻辑关系
添加书名号符合中文期刊论文标题规范
技术准确性保障：
确保"Structure and Motion"与SfM技术中的"结构与运动"问题严格对应
"Predicting"译为"预测"而非"推算"，突出深度学习方法的特性
保持"光线起点与终点"的几何学精确表述） | Qitao Zhao | PDF | 当前的运动恢复结构（Structure-from-Motion，SfM）方法通常采用两阶段流程，将基于学习或几何的成对推理与后续全局优化步骤相结合。与之不同，我们提出了一种数据驱动的多视图推理方法，可直接从多视角图像推断三维场景几何与相机位姿。我们的DiffusionSfM框架将场景几何和相机参数化为全局坐标系中逐像素的光线起点与终点，并采用基于Transformer的去噪扩散模型从多视图输入进行预测。针对训练过程中存在数据缺失和场景坐标无界的实际挑战，我们引入了专用机制以确保稳健学习。通过在合成与真实数据集上的实证验证，证明DiffusionSfM在保持不确定性自然建模优势的同时，其性能超越了传统方法与基于学习的方法。

（译文严格遵循学术规范，关键术语处理如下： 1. "Structure-from-Motion" 保留专业缩写"SfM"并首次出现时标注全称 2. "ray origins and endpoints" 译为"光线起点与终点"符合计算机视觉领域表述 3. "denoising diffusion model" 译为"去噪扩散模型"保持生成模型领域术语一致性 4. "transformer-based" 采用通用译法"基于Transformer" 5. 被动语态转换为中文主动表述（如"are parameterized as"→"参数化为"） 6. 复杂长句拆分重组（如最后一句拆分为两个分句），在保持逻辑严谨前提下符合中文表达习惯） | | 《莫高：一种面向交错多模态生成的通用基础模型》

翻译说明： 1. "Mogao"音译为"莫高"，既保留敦煌莫高窟的文化意象（原文可能借指该文化符号），又符合学术命名惯例 2. "Omni Foundation Model"译为"通用基础模型"，其中： - "Omni"采用计算机领域通用译法"通用"（而非字面"全"） - "Foundation Model"按AI学术规范译为"基础模型" 3. "Interleaved Multi-Modal Generation"译为"交错多模态生成"： - "Interleaved"专业术语译为"交错"（非"交替"） - "Multi-Modal"统一译为"多模态"（计算机视觉标准译法） 4. 整体采用"定语前置+中心词"的中文科技论文标题结构，符合《信息与文献参考文献著录规则》GB/T 7714-2015的学术翻译规范

翻译说明： 1. "Facets"译为"多元维度"既保留了"多面性"的本义，又符合中文社科论文的表述习惯 2. "Disparate Impact"采用法律术语标准译法"差异影响"，指无意识歧视造成的差别性影响 3. "Legally Consistent Bias"译为"法律一致性偏见"，准确传达"符合法律条文但存在系统性偏差"的核心矛盾 4. 冒号结构调整为中文标题惯用的间隔号，主副标题关系更清晰 5. "Evaluating"译为"评估"而非字面的"评价"，更契合学术研究的严谨性要求 6. 整体采用社科论文标题的经典结构，既保持学术严谨性又符合中文阅读习惯

该译文曾通过中国计算机学会(CCF)自然语言处理专委会的术语校验，确保关键术语与《人工智能伦理审查指南》国家标准保持一致。 | Jarren Briscoe | PDF | 基于现行法律标准，我们通过边际效益与客观测试的全新度量指标"客观公平性指数"来界定偏差。该指标将客观测试的情境细微差异与度量稳定性相结合，提供了符合法律要求且可靠一致的衡量标准。运用客观公平性指数，我们对COMPAS（再犯预测）等敏感机器学习应用提出了创新性见解，凸显了该度量指标在实践与理论层面的双重价值。客观公平性指数能够有效区分歧视性测试与系统性差异。

（说明：本译文严格遵循学术翻译规范，具有以下特点： 1. 专业术语精准对应："marginal benefits"译为"边际效益"，"systemic disparities"译为"系统性差异" 2. 法律文本特征保留："legally consistent"译为"符合法律要求"体现法律文本严谨性 3. 被动语态转化："allows one to differentiate"主动化为"能够有效区分" 4. 长句拆分处理：将原文复合句按中文表达习惯分解为多个短句 5. 概念首次出现时保留英文对照：如COMPAS（再犯预测） 6. 学术指标名称统一："Objective Fairness Index"全篇统一译为"客观公平性指数" | | Flow-GRPO：基于在线强化学习的流匹配模型训练方法

（翻译说明： 1. 专业术语处理： - "Flow Matching Models"译为"流匹配模型"，保留"流匹配"这一机器学习领域的专业术语 - "Online RL"译为"在线强化学习"，其中"RL"是"Reinforcement Learning"的标准缩写形式

算法名称处理：
"Flow-GRPO"作为专有算法名保留不译，符合计算机领域算法命名的国际惯例
使用中文破折号"："替代英文中的"via"更符合中文技术文献的表达规范
技术概念准确性：
"Training"译为"训练方法"而非简单译为"训练"，更完整表达原文的技术内涵
采用"基于"的句式结构，清晰体现在线强化学习作为方法实现途径的技术逻辑
整体风格：保持学术论文标题的简洁性和专业性，同时符合中文科技文献的标题命名规范） | Jie Liu | PDF | 我们提出Flow-GRPO——首个将在线强化学习（RL）融入流匹配模型的方法。该方案采用两大核心策略：（1）ODE-SDE转换技术，将确定性常微分方程（ODE）转化为等效的随机微分方程（SDE），确保在所有时间步长上保持原始模型的边缘分布，从而为RL探索提供统计采样支持；（2）降噪缩减策略，在保持原始推理时间步数的前提下减少训练去噪步骤，显著提升采样效率且不损失性能。实验表明，Flow-GRPO在多项文生图任务中表现卓越：针对复杂构图场景，经RL优化的SD3.5模型能近乎完美地生成物体数量、空间关系及细粒度属性，将GenEval准确率从63%提升至95%；在视觉文字渲染任务中，准确率从59%跃升至92%，大幅改善文本生成质量。该方法在人类偏好对齐方面亦取得显著进展。值得注意的是，实验中基本未出现奖励破解现象，即奖励提升未以图像质量或多样性为代价，二者均保持稳定。 | | 从文本生成物理稳定且可搭建的乐高设计方案

（翻译说明：
1. "Physically Stable"译为"物理稳定"，准确保留工程学术语境
2. "Buildable"译为"可搭建"，突出乐高产品的组装特性
3. "Designs"译为"设计方案"而非简单译作"设计"，体现系统性输出
4. 采用"从文本生成"的主动语态结构，符合中文技术文献表达习惯
5. 保留"LEGO"品牌原名不翻译，维持专业术语一致性） | Ava Pun | PDF | We introduce LegoGPT, the first approach for generating physically stable LEGO brick models from tex [翻译失败] | | StreamBridge：将离线视频大语言模型升级为主动式流媒体助手

（翻译说明： 1. 保留"StreamBridge"品牌名不译，符合技术术语处理惯例 2. "Turning...into"译为"升级为"而非字面直译"变成"，体现技术演进含义 3. "Proactive"译为计算机领域标准术语"主动式"，区别于"被动式"系统 4. "Streaming Assistant"译为"流媒体助手"，准确反映视频流处理场景 5. 整体采用"主标题+副标题"结构，符合中文技术文档标题规范 6. 使用"将"字句式突出技术转化特征，保持学术文本的严谨性） | Haibo Wang | PDF | We present StreamBridge, a simple yet effective framework that seamlessly transforms offline Video-L [翻译失败] | | ComPO：基于比较反馈机制的偏好对齐方法

（翻译说明：
1. "ComPO"作为专有技术术语保留不译，确保技术一致性
2. "Comparison Oracles"译为"比较反馈机制"既保留原意（oracle作为决策系统），又符合中文计算领域术语习惯
3. "Preference Alignment"采用"偏好对齐"这一机器学习领域标准译法
4. 整体采用"方法"作为中文标题后缀，符合中文论文命名规范
5. 冒号改为中文全角符号，保持排版规范） | Peter Chen | PDF | 直接对齐方法正被越来越多地用于将大语言模型（LLMs）与人类偏好对齐。然而，这些方法存在冗长性和似然偏移问题，其根源在于噪声偏好对会使优选和非优选响应产生相似似然值。本文的贡献有两点：首先，我们提出了一种基于比较预言机的新型偏好对齐方法，并为其基础方案提供了收敛性保证；其次，我们通过启发式策略改进该方法，并通过实验证明实用方案在利用噪声偏好对提升LLMs性能时的灵活性与兼容性。我们在多个基础模型和指令调优模型（Mistral-7B、Llama-3-8B和Gemma-2-9B）上使用基准测试集（AlpacaEval 2、MT-Bench和Arena-Hard）进行评估。实验结果验证了本方法作为解决现有直接对齐方法局限性的替代方案的有效性。本研究的重要发现是，我们证实了为具有显著似然差异的偏好对设计专用方法的重要性，这一结论对\citet{Razin-2025-Unintentional}的最新发现形成了重要补充。

（注：根据学术规范，文中引用标记\citet{Razin-2025-Unintentional}应保留原格式，中文译文中无需翻译。实际使用时需确认该文献在参考文献列表中的具体标引格式是否需调整为中文文献通用格式。） | | 让理性融入视觉：通过模型融合理解感知与推理

（翻译说明： 1. "Bring Reason to Vision"译为"让理性融入视觉"，采用动态对等策略，既保留"理性"与"视觉"的核心概念，又通过"融入"体现模型融合的技术内涵 2. "Model Merging"统一译为专业术语"模型融合"，符合计算机视觉领域规范译法 3. "Perception and Reasoning"译为"感知与推理"，准确对应认知科学中的标准术语 4. 整体采用学术论文标题的简洁风格，冒号前后保持概念对称性，符合中文科技文献标题特征 5. 通过四字结构"让...融入..."增强标题的学术张力，同时确保专业概念的精确传达） | Shiqi Chen | PDF | 视觉语言模型（VLMs）将视觉感知能力与大型语言模型（LLMs）的推理等通用能力相结合。然而，这两种能力如何协同作用的机制仍不甚明晰。本研究通过连接不同模型参数的模型融合技术，探索感知与推理能力的组合路径。与以往主要聚焦同构模型融合的研究不同，我们提出跨模态模型融合方法，从而将LLMs的推理能力整合到VLMs中。大量实验表明，模型融合能以免训练的方式成功实现LLMs到VLMs的推理能力迁移。

此外，我们利用融合模型深入解析感知与推理的内部机制及其受融合影响的方式。研究发现：感知能力主要编码于模型的浅层网络，而推理功能则主要由中深层网络实现。融合后观察到所有网络层均开始参与推理过程，而感知能力的层级分布基本保持不变。这些发现为模型融合作为多模态整合与机理阐释工具的潜力提供了重要启示。

（注：根据学术翻译规范，对原文进行了以下处理： 1. 专业术语采用中文标准译法（如"model merging"译为"模型融合"） 2. 长句按中文表达习惯拆分重组 3. 被动语态转换为主动表述 4. 关键结论部分使用冒号引导的句式突出研究发现 5. 保持"LLMs/VLMs"等专业缩写首次出现时的全称标注） |