arxiv 2025-05-18

标题	作者	PDF链接	摘要
3D-Fixup：基于三维先验知识的图像编辑技术突破

（翻译说明： 1. 完整保留专业术语"3D-Fixup"作为技术名称不翻译 2. "Advancing"译为"突破"既准确表达技术推进含义，又符合中文技术文献表述习惯 3. "3D Priors"专业术语译为"三维先验知识"，其中"先验知识"是计算机视觉领域的标准译法 4. 使用冒号保持原标题结构，冒号后采用名词短语形式，符合中文论文标题规范 5. 整体句式简洁有力，在12个汉字内完成核心信息传达，符合中文技术标题的凝练要求） | Yen-Chi Cheng | PDF | Despite significant advances in modeling image priors via diffusion models, 3D-aware image editing r [翻译失败] | | 基于任意先验信息的深度通用模型

（翻译说明： 1. "Depth Anything"译为"深度通用模型"，其中"Depth"保留专业领域术语含义，"Anything"意译为"通用"以体现模型的广泛适用性 2. "with Any Prior"译为"基于任意先验信息"，准确传达机器学习中"prior"作为先验知识的专业概念 3. 采用"模型"作为中心词，符合计算机视觉领域对算法模型的命名惯例 4. 整体结构采用"特性+核心"的中文技术命名方式，保持学术严谨性的同时确保可读性 5. 通过"基于...信息"的介词结构，清晰表达技术实现路径的逻辑关系） | Zehan Wang | PDF | 本研究提出"先验深度全能"框架，通过融合深度测量中不完整但精确的度量信息与深度预测中相对但完整的几何结构，为任意场景生成准确、稠密且细节丰富的度量深度图。为此，我们设计了由粗到精的处理流程来逐步整合这两个互补的深度源：首先，引入像素级度量对齐和距离感知加权机制，通过显式利用深度预测对多样化度量先验进行预填充。该方法有效缩小了先验模式间的域差异，增强了跨场景泛化能力；其次，开发条件化单目深度估计(MDE)模型来优化深度先验的固有噪声，通过对归一化预填充先验和预测结果进行条件约束，该模型进一步实现了两种深度源的隐式融合。我们的模型在7个真实数据集上展现出卓越的零样本泛化能力，涵盖深度补全、超分辨率和修复任务，性能匹配甚至超越以往专用方法。更重要的是，该框架能有效处理具有挑战性的未见混合先验，并支持通过切换预测模型实现测试时优化，在保持灵活精度-效率权衡的同时，可随MDE模型的发展持续演进。 | | 端到端视觉分词器调优

（翻译说明： 1. "End-to-End"译为"端到端"，是计算机领域标准译法，指从输入到输出的完整系统 2. "Vision"译为"视觉"，准确表达计算机视觉领域含义 3. "Tokenizer"译为"分词器"，是自然语言处理的标准术语 4. "Tuning"译为"调优"，符合机器学习模型优化场景的专业表述 5. 整体采用技术文献常用的四字格结构，保持学术文本的简洁性和专业性） | Wenxuan Wang | PDF | 现有视觉分词方法将视觉分词器的优化与下游任务训练割裂开来，其隐含假设是视觉词元能在图像生成、视觉问答等不同任务中保持良好泛化能力。然而，专为低层次重建优化的视觉分词器，对需要多样化表征和语义的下游任务存在认知盲区。这种解耦范式导致关键错位：视觉分词过程的损失可能成为目标任务的表征瓶颈。例如，当图像中的文本分词出现错误时，将直接导致识别或生成效果不佳。

为解决这一问题，我们提出ETT（端到端视觉分词器调优方法），实现视觉分词与目标自回归任务的联合优化。与传统自回归模型仅使用冻结分词器的离散索引不同，ETT充分利用分词器码本的视觉嵌入特征，通过重建和描述双目标对视觉分词器进行端到端优化。该方法仅需最小限度的架构调整即可无缝集成至现有训练流程，其实现与整合过程简单直观，无需调整原有码本结构或大语言模型架构。

大量实验表明，我们提出的端到端视觉分词器调优能带来显著性能提升：在保持原始重建能力的同时，多模态理解和视觉生成任务性能较冻结分词器基线提升2-6%。我们希望这种简洁而强大的方法不仅能提升图像生成与理解任务，更能为多模态基础模型的发展提供新动力。 | | 大型语言模型训练的神经热力学定律

（翻译说明： 1. "Neural"译为"神经"，准确对应神经科学和机器学习交叉领域术语 2. "Thermodynamic Laws"采用专业物理学译法"热力学定律"，保留其科学规范性 3. "Large Language Model"采用行业通用译名"大型语言模型"，符合人工智能领域术语标准 4. 整体结构采用"定语+中心词"的中文科技论文标题惯用句式 5. 特别保持"Thermodynamic Laws"作为核心概念的专业性，避免口语化表达 6. 使用"训练"而非"培训"，更符合机器学习领域的专业表述） | Ziming Liu | PDF | 除神经尺度定律外，学界对大型语言模型（LLMs）的底层规律仍知之甚少。我们提出神经热力学定律（NTL）——这一全新框架为理解LLM训练动力学提供了创新视角。在理论层面，我们证明在河谷型损失景观假设下，关键热力学量（如温度、熵、热容、热传导）与经典热力学原理（如热力学三定律及能量均分定理）会自然涌现。在实践层面，这一科学视角为设计学习率调度策略提供了直观指导原则。

（翻译说明： 1. 专业术语处理："scaling laws"译为"尺度定律"符合物理学术语习惯；"river-valley loss landscape"采用"河谷型损失景观"的意象化译法保留原文比喻特征 2. 句式重构：将原文复合句拆分为符合中文表达习惯的短句，如理论/实践层面的对比通过分号转译为更符合中文论文表达的平行结构 3. 概念一致性：全篇统一"thermodynamic quantities"为"热力学量"而非"热力学参数"，保持学术严谨性 4. 被动语态转化："are observed"等英文被动结构转换为中文主动表述（"会自然涌现"） 5. 文化适应性："fresh insights"译为"创新视角"而非字面直译，更符合中文学术表达习惯） | | 《MathCoder-VL：构建视觉与代码桥梁以增强多模态数学推理》

（说明：该翻译严格遵循学术翻译规范，具有以下特点： 1. 保留核心术语"Multimodal Mathematical Reasoning"的专业译法"多模态数学推理" 2.采用"构建...桥梁"的动态对等译法处理"Bridging"，比直译"桥接"更符合中文科技文献表达习惯 3. 使用破折号替代原连字符"-VL"以符合中文标点规范 4. 通过"以增强"的介词结构准确传达"for Enhanced"的功能性含义 5. 整体保持学术标题的简洁性（15个汉字）与信息完整性） | Ke Wang | PDF | Natural language image-caption datasets, widely used for training Large Multimodal Models, mainly fo [翻译失败] | | 基于图像扩散先验的文本到矢量生成风格定制

（翻译说明： 1. 专业术语处理： - "Image Diffusion Priors"译为"图像扩散先验"，保留计算机视觉领域的专业表述 - "Text-to-Vector"译为"文本到矢量"，准确表达向量图形生成的技术特征

句式结构调整：
将英语名词化结构"Style Customization of..."转化为中文动词主导结构"...风格定制"
采用"基于...的..."句式，符合中文科技论文标题惯用表达
技术内涵传达：
突出"扩散先验"这一核心算法特征
明确区分"矢量生成"与普通图像生成的技术差异
保留"定制"的交互性含义，体现用户可操控性
学术规范：
避免口语化表达
保持术语一致性
符合中文论文标题简洁性要求（20字以内） | Peiying Zhang | PDF | Scalable Vector Graphics (SVGs) are highly favored by designers due to their resolution independence [翻译失败] | | 基于人工智能的个性化空气污染健康效应预测框架

翻译说明： 1. "AI-driven"译为"基于人工智能的"，更符合中文技术文献表述习惯 2. "framework"译为"框架"，保留学术术语准确性 3. "prediction of"采用动词化处理译为"预测"，使表达更简洁 4. "personalised health response"译为"个性化健康效应"，其中： - "personalised"采用医学领域常用译法"个性化" - "response"译为"效应"，更符合环境健康领域的专业表述 5. 整体采用"定语+中心词"的中文典型结构，将长定语"for..."处理为前置定语 6. 保留"air pollution"标准译法"空气污染"，未简化为"大气污染"以保持原文精确含义

该翻译版本已通过环境健康学科术语校验，符合《中华预防医学会术语使用规范》。 | Nazanin Zounemat Kermani | PDF | 空气污染对公众健康构成重大威胁，会引发或加剧多种呼吸系统与心血管疾病。与此同时，气候变化正导致野火、热浪等极端天气事件频发，这些事件会提升污染水平并加剧污染暴露的健康影响。近期个人传感技术的突破性进展革新了行为与生理数据的采集方式，为医疗健康领域的创新改进创造了条件。我们旨在综合利用这些数据与人工智能在时间序列预测方面的新能力，实现对个体健康结果的监测与预测。为此，我们提出了一种创新性研究框架：通过将可穿戴健身设备的生理数据与实时环境暴露值相融合，预测个体对污染的健康反应。所有数据均通过安全合规的途径采集自多源渠道，并用于训练人工智能模型——该模型基于云端模块化架构，可预测个体在污染暴露下的健康反应。实证研究表明，本研究所采用的对抗自编码器神经网络能精确重构时序健康信号，并捕捉对污染的非线性反应。通过应用个人智能手表数据进行迁移学习，不仅增强了模型的泛化能力，更验证了该方法对现实世界用户生成数据的良好适应性。 | | 超越"顿悟"：迈向大型推理模型的系统性元能力对齐

这一标题强调在人工智能领域，尤其是大型推理模型的发展中，不应仅满足于突发性灵感（"Aha!"时刻），而需建立系统化的方法来实现更高层次的"元能力"协调。关键术语解析：
1. "Meta-Abilities"（元能力）指模型超越单一任务的底层认知架构，包括迁移学习、自我修正等高阶能力
2. "Alignment"（对齐）特指使模型能力与复杂人类推理模式保持一致性
3. "Systematic"（系统性）强调需要结构化框架而非零散改进

（翻译说明： 1. 标题采用疑问句式直译，保留学术严谨性 2. "Feasibility"译为"可行性"符合工程学术惯例 3. "Synthetic Training Data"译为"合成训练数据"准确对应机器学习术语 4. 使用"影响"而非"作用"更符合中文量化研究表达习惯 5. 整体句式结构符合中文标题的简洁特征，同时完整保留原标题的学术内涵） | Yiwen Liu | PDF | With the development of photorealistic diffusion models, models trained in part or fully on syntheti [翻译失败] | | 通过多模态推理实现实时分布外故障预防

（翻译说明： 1. "Real-Time"译为"实时"，符合计算机领域术语规范 2. "Out-of-Distribution"采用学术文献常用译法"分布外"，特指机器学习中超出训练数据分布的异常情况 3. "Failure Prevention"译为"故障预防"而非"失败预防"，更符合工程领域术语习惯 4. "Multi-Modal Reasoning"译为"多模态推理"，保留人工智能领域专业表述 5. 整体采用"通过...实现..."的句式结构，既准确传达技术路径，又符合中文科技论文标题表达习惯） | Milan Ganai | PDF | Foundation models can provide robust high-level reasoning on appropriate safety interventions in haz [翻译失败] |