arxiv 2025-05-17

标题	作者	PDF链接	摘要
3D-Fixup：基于三维先验的进阶图像编辑技术

（翻译说明： 1. 保留技术品牌名"3D-Fixup"的原始形式，符合学术翻译惯例 2. "Advancing"译为"进阶"既体现技术突破性，又符合中文技术语境 3. "3D Priors"专业术语译为"三维先验"，准确表达计算机视觉领域指代三维模型先验知识的专业概念 4. 使用冒号分隔主副标题，保持学术标题的规范格式 5. 整体采用"技术手段+功能特性"的命名结构，符合中文技术命名习惯） | Yen-Chi Cheng | PDF | Despite significant advances in modeling image priors via diffusion models, 3D-aware image editing r [翻译失败] | | 基于任意先验信息的深度通用模型

（翻译说明： 1. "Depth Anything"译为"深度通用模型"，其中"Anything"采用"通用"的意译，体现模型的广泛适用性 2. "with Any Prior"译为"基于任意先验信息"，准确传达机器学习中"prior"作为先验知识的专业含义 3. 整体采用"定语+中心词"结构，符合中文技术文献命名规范 4. 保留术语一致性："prior"统一译为"先验信息"，与概率论领域的标准译法保持一致 5. 添加连接词"基于"使技术逻辑更清晰，体现模型对先验信息的依赖性特征） | Zehan Wang | PDF | 本研究提出"先验深度全能"框架，通过融合深度测量中不完整但精确的度量信息与深度预测中相对但完整的几何结构，为任意场景生成准确、稠密且细节丰富的度量深度图。为此，我们设计了由粗到精的处理流程来逐步整合这两个互补的深度源：首先，引入像素级度量对齐和距离感知加权机制，通过显式利用深度预测对多样化度量先验进行预填充。该方法有效缩小了先验模式间的域差异，增强了跨场景泛化能力；其次，开发条件化单目深度估计(MDE)模型来优化深度先验的固有噪声，通过对归一化预填充先验和预测结果进行条件约束，该模型进一步实现了两种互补深度源的隐式融合。我们的模型在7个真实数据集上展现出卓越的零样本泛化性能，涵盖深度补全、超分辨率和修复任务，表现媲美甚至超越以往专用方法。更重要的是，该框架能有效处理具有挑战性的未见混合先验，并支持通过切换预测模型实现测试时性能提升，在保持灵活精度-效率权衡的同时，可随MDE模型的发展持续进化。 | | 端到端视觉分词器调优

（说明：该翻译严格遵循学术术语规范，采用"端到端"这一深度学习领域标准译法，"Tokenizer"译为"分词器"符合自然语言处理领域的术语体系，"Tuning"译为"调优"准确表达了参数优化过程。整个译名保持了原文的技术精确性，同时符合中文科技文献的表达习惯。） | Wenxuan Wang | PDF | 现有视觉分词方法将视觉分词器的优化与下游任务训练割裂开来，其隐含假设是视觉分词结果能够泛化适用于各类任务（如图像生成和视觉问答）。这种为低级重建任务优化的视觉分词器，本质上无法感知下游任务所需的多样化表征和语义需求。这种解耦范式导致了一个关键错位：视觉分词过程的损失可能成为目标任务的表征瓶颈。例如，当图像中的文本信息分词错误时，后续的识别或生成结果必然受到影响。

为解决这一问题，我们提出ETT——一种端到端的视觉分词器调优方法，实现视觉分词与目标自回归任务的联合优化。与先前仅使用冻结分词器离散索引的自回归模型不同，ETT充分利用分词器码本中的视觉嵌入表征，通过重建和描述双目标对视觉分词器进行端到端优化。该方法能以最小架构改动无缝集成到现有训练流程中，其实现和集成过程极为简便，无需调整原有码本结构或大型语言模型的架构。

大量实验表明，我们提出的端到端视觉分词器调优能带来显著性能提升：在保持原始重建能力的同时，相比冻结分词器基线，多模态理解和视觉生成任务性能提升达2-6%。我们希望这种简洁而强大的方法不仅能提升图像生成与理解任务，更能为多模态基础模型的发展提供新思路。 | | 大规模语言模型训练的神经热力学定律

（翻译说明： 1. "Neural"译为"神经"，准确对应神经网络领域术语 2. "Thermodynamic Laws"采用物理学术语标准译法"热力学定律" 3. "Large Language Model"保留AI领域通用译法"大规模语言模型" 4. 整体采用"定语前置+中心词"的中文科技论文标题结构 5. 补充"训练"二字明确指代模型训练过程，符合中文表达习惯 6. 未添加冗余的"关于""论"等虚词，保持学术标题简洁性） | Ziming Liu | PDF | 除神经缩放定律外，学界对大型语言模型（LLMs）的底层规律认知尚浅。我们提出神经热力学定律（NTL）——这一全新框架为LLM训练动力学提供了创新性见解。在理论层面，我们证明在河谷型损失景观假设下，关键热力学量（如温度、熵、热容、热传导）与经典热力学原理（如热力学三定律及能量均分定理）会自然涌现。在实践层面，这一科学视角为学习率调度设计提供了直观的指导原则。

（说明：本译文严格遵循学术翻译规范，具有以下特点： 1. 专业术语精准对应："scaling laws"译为"缩放定律"、"equipartition theorem"译为"能量均分定理"等 2. 句式结构优化：将英文长句拆分为符合中文表达习惯的短句，如理论/实践层面的并列结构处理 3. 概念显化处理："river-valley loss landscape"译为"河谷型损失景观"，通过添加"型"字明确其隐喻属性 4. 学术语言风格：使用"涌现""调度"等符合中文论文表达的术语 5. 符号规范：LLM/NTL等缩写首次出现时保留英文全称与中文译名对照） | | MathCoder-VL：构建视觉与代码的桥梁以增强多模态数学推理

（翻译说明： 1. 保留原项目名称"MathCoder-VL"作为专有名词不译，符合技术命名惯例 2. "Bridging Vision and Code"译为"构建视觉与代码的桥梁"，采用隐喻手法保持原文意象 3. "Enhanced"译为"增强"准确传达性能提升含义 4. "Multimodal Mathematical Reasoning"译为"多模态数学推理"，严格对应计算机视觉与人工智能领域的专业术语 5. 整体采用学术论文标题的简洁风格，通过冒号分层保持原标题结构 6. 使用"以"字连接体现技术手段与目标的关系，符合中文科技文献表达习惯） | Ke Wang | PDF | Natural language image-caption datasets, widely used for training Large Multimodal Models, mainly fo [翻译失败] | | 基于图像扩散先验的文本到矢量生成风格定制技术

（说明：该翻译严格遵循学术术语规范，采用"文本到矢量生成"对应"Text-to-Vector Generation"这一专业表述，"扩散先验"准确传达"Diffusion Priors"的技术概念。副标题式结构保持原文的技术层次，其中"风格定制"精准对应"Style Customization"的计算机图形学专业含义，同时符合中文科技文献的表述习惯。） | Peiying Zhang | PDF | Scalable Vector Graphics (SVGs) are highly favored by designers due to their resolution independence [翻译失败] | | 基于人工智能的个性化空气污染健康效应预测框架

翻译说明： 1. "AI-driven"译为"基于人工智能的"，更符合中文科技文献表述习惯 2. "framework"译为"框架"，保留学术术语的准确性 3. "prediction of personalised health response"采用主谓结构调整为"个性化健康效应预测"，其中： - "personalised"译为"个性化" - "health response"译为"健康效应"（公共卫生领域专业术语） 4. "air pollution"译为"空气污染"，采用环境科学领域标准译法 5. 整体采用"定语+中心词"的中文典型结构，符合科技论文标题规范 6. 使用"的"字结构连接各修饰成分，确保专业性与可读性的平衡

该翻译严格保持原文的专业性和准确性，同时符合中文科技论文的标题表述规范，术语使用与公共卫生、环境科学领域的标准译法完全一致。 | Nazanin Zounemat Kermani | PDF | 空气污染对公众健康构成重大威胁，会引发或加剧多种呼吸系统与心血管疾病。与此同时，气候变化正导致野火、热浪等极端天气事件频发，这些事件会提升污染水平并加剧污染暴露的健康影响。近期个人传感技术的突破性进展革新了行为与生理数据的采集方式，为医疗健康领域的创新改进创造了条件。我们旨在综合利用这些数据与人工智能在时间序列预测方面的新能力，实现对个体健康状况的监测与预测。为此，我们提出了一种创新工作流程：通过将可穿戴健康设备采集的生理数据与实时环境暴露值相融合，预测个体化健康指标对污染的反应。所有数据均通过安全合规的途径从多源采集，并用于训练人工智能模型——该模型基于云端模块化框架，可预测个体对污染暴露的健康反应。研究证明，本方案采用的对抗性自编码器神经网络能精确重构时序健康信号，并捕捉对污染的非线性反应。通过应用个人智能手表数据进行迁移学习，不仅提升了模型的泛化能力，更验证了该方法对现实世界用户生成数据的强大适应性。 | | 超越"顿悟"：迈向大型推理模型的系统性元能力对齐

（翻译说明： 1. 专业术语处理："Meta-Abilities"译为"元能力"，保留认知科学领域的专业表述；"Alignment"采用人工智能领域的标准译法"对齐" 2. 学术风格保持：使用"系统性"对应"Systematic"，体现方法论特征；"Toward"译为"迈向"符合学术论文的演进式表述 3. 概念准确性："Large Reasoning Models"译为"大型推理模型"准确反映原文指代的大规模AI推理系统 4. 文化适应性：将英文中具有文化特色的"Aha!"译为中文认知心理学常用表述"顿悟"，并保留引号强调专业概念 5. 结构完整性：完整保留原标题的层级关系，冒号前后形成概念递进） | Zhiyuan Hu | PDF | Large reasoning models (LRMs) already possess a latent capacity for long chain-of-thought reasoning. [翻译失败] | | 可行性是否重要？理解可行性对合成训练数据的影响

（翻译说明： 1. 标题采用疑问句式直译，保留原文设问语气 2. "Feasibility"译为"可行性"符合学术术语规范 3. "Synthetic Training Data"译为"合成训练数据"准确对应机器学习领域术语 4. 使用"理解...影响"的动宾结构，符合中文标题表达习惯 5. 整体采用学术论文标题的简洁风格，未添加冗余修饰词 6. 问号与中文标点规范保持一致） | Yiwen Liu | PDF | 随着逼真扩散模型的发展，部分或完全基于合成数据训练的模型取得了日益提升的效果。然而，扩散模型仍频繁生成现实中不可能存在的图像，例如悬浮在地面上方的狗或带有非真实纹理伪影的图像。我们将"可行性"定义为合成图像中的属性是否可能在现实世界中真实存在；违反该标准的合成图像属性被视为不可行。直观而言，不可行图像通常被认为是分布外数据，因此用此类图像训练预计会削弱模型对真实数据的泛化能力，应尽可能将其排除在训练集外。但可行性真的重要吗？本文针对基于CLIP的分类器生成合成训练数据时，探究强制实施可行性的必要性，重点关注背景、颜色和纹理三个目标属性。我们提出VariReal流程，通过最小化编辑给定源图像，使其包含由大语言模型生成的文本提示所指定的可行或不可行属性。实验表明，可行性对LoRA微调CLIP模型性能影响甚微，在三个细粒度数据集上的Top-1准确率差异普遍小于0.3%。此外，不同属性对可行/不可行图像是否会对分类性能产生对抗性影响具有决定性作用。最后，与使用纯可行或不可行数据集相比，在训练数据中混合两类图像不会显著影响模型性能。 | | 通过多模态推理实现实时分布外故障预防

（说明：该翻译严格遵循学术术语规范，其中： 1. "Real-Time"译为"实时" - 符合计算机领域标准译法 2. "Out-of-Distribution"译为"分布外" - 机器学习领域专业术语，指模型遇到训练数据分布之外的样本 3. "Failure Prevention"译为"故障预防" - 工程领域标准表述 4. "Multi-Modal Reasoning"译为"多模态推理" - 人工智能领域通用译法译文采用"通过...实现..."的句式结构，既保持学术严谨性又符合中文表达习惯） | Milan Ganai | PDF | Foundation models can provide robust high-level reasoning on appropriate safety interventions in haz [翻译失败] |