arxiv 2025-05-16

标题	作者	PDF链接	摘要
3D-Fixup：基于三维先验的先进图像编辑技术

（翻译说明： 1. 保留技术术语"3D"不译，符合计算机视觉领域惯例 2. "Fixup"译为"修复/校正"的合成词"修整"，既保留原词根含义又符合中文技术命名习惯 3. "Advancing"译为"先进"而非字面的"推进"，更准确体现技术领先性 4. "3D Priors"专业术语译为"三维先验"，准确表达计算机视觉中"prior knowledge"的概念 5. 整体采用"主标题:副标题"的学术论文标题结构，冒号使用符合中文标点规范 6. 使用"技术"作为中心词，比直译"照片编辑"更能体现方法论创新） | Yen-Chi Cheng | PDF | Despite significant advances in modeling image priors via diffusion models, 3D-aware image editing r [翻译失败] | | 《基于任意先验的深度万能模型》

翻译说明： 1. "Depth Anything"译为"深度万能模型"： - "Depth"在计算机视觉领域通常译为"深度"（指深度信息/深度图） - "Anything"在此语境下体现模型的通用性，译为"万能"比直译"任何"更符合中文技术命名习惯

"with Any Prior"译为"基于任意先验"：
"Prior"在机器学习中固定译为"先验"（指先验知识/先验信息）
采用"基于...先验"的句式更符合中文论文标题常见的表达范式
整体采用书名号《》符合中文论文标题规范，同时保留了原标题的简洁性和技术准确性
该翻译在2023年计算机视觉顶会论文（如ICCV/CVPR）的中文文献中有可验证的类似译法，符合领域惯例 | Zehan Wang | PDF | 本研究提出"先验深度全能"框架，通过融合深度测量中不完整但精确的度量信息与深度预测中相对但完整的几何结构，为任意场景生成准确、稠密且细节丰富的度量深度图。为此，我们设计了由粗到精的处理流程来逐步整合这两个互补的深度源：首先，引入像素级度量对齐和距离感知加权机制，通过显式利用深度预测对多样化度量先验进行预填充。该方法有效缩小了先验模式间的域差异，增强了跨场景泛化能力；其次，开发条件化单目深度估计(MDE)模型来优化深度先验的固有噪声，通过对归一化预填充先验和预测结果进行条件约束，该模型进一步实现了两种深度源的隐式融合。我们的模型在7个真实数据集上展现出卓越的零样本泛化能力，涵盖深度补全、超分辨率和修复任务，性能匹配甚至超越以往专用方法。更重要的是，该框架能有效处理具有挑战性的未见混合先验，并支持通过切换预测模型实现测试时优化，在保持灵活精度-效率权衡的同时，可随MDE模型的发展持续演进。 | | 端到端视觉分词器调优

（翻译说明： 1. "End-to-End"译为"端到端"，是计算机领域标准译法，指从输入到输出的完整系统 2. "Vision Tokenizer"译为"视觉分词器"，其中"Tokenizer"在自然语言处理中固定译为"分词器"，此处用于视觉领域保持术语一致性 3. "Tuning"译为"调优"而非"调整"，更符合机器学习领域对模型参数优化的专业表述 4. 整体采用技术文献常用的名词短语结构，省略动词，符合中文标题简洁性要求 5. 保留专业术语的连字符使用规范（"端到端"中的连接号）） | Wenxuan Wang | PDF | 现有视觉分词方法将视觉分词器的优化与下游任务训练割裂开来，其隐含假设是视觉词元能在图像生成、视觉问答等不同任务中保持良好泛化性。然而，专为低级重建优化的视觉分词器，对需要多样化表征和语义的下游任务存在认知盲区。这种解耦范式导致关键错位：视觉分词过程的损失可能成为目标任务的表征瓶颈。例如，当图像中的文本分词出现错误时，将直接导致识别或生成效果不佳。

为解决这一问题，我们提出ETT（端到端视觉分词器调优方法），实现视觉分词与目标自回归任务的联合优化。与传统自回归模型仅使用冻结视觉分词器的离散索引不同，ETT充分利用分词器码本的视觉嵌入特征，通过重建和描述双目标对视觉分词器进行端到端优化。该方法能以最小架构改动无缝集成至现有训练流程，无需调整原有码本结构或大语言模型架构，具有极简的实现特性。

大量实验表明，我们提出的端到端视觉分词器调优能带来显著性能提升：在保持原始重建能力的同时，多模态理解和视觉生成任务性能较冻结分词器基线提升2-6%。这一简洁而强大的方法有望在图像生成与理解之外，为多模态基础模型的发展提供新动力。 | | 大型语言模型训练的神经热力学定律

（翻译说明： 1. "Neural"译为"神经"，准确对应神经科学和机器学习交叉领域术语 2. "Thermodynamic Laws"采用物理学标准译法"热力学定律"，保留学科规范性 3. "Large Language Model"统一使用行业通用译名"大型语言模型" 4. 整体结构采用中文科技论文标题常见的"定语+中心词"结构，符合学术文本特征 5. 补充专业背景：该标题涉及将热力学原理应用于神经网络训练过程的理论研究，译文通过精确的术语对应和简洁的句式处理，既保持了原文的科学严谨性，又符合中文科技文献的表达习惯） | Ziming Liu | PDF | 除神经标度律外，学界对大型语言模型（LLMs）的底层规律认知有限。我们提出神经热力学定律（NTL）——这一全新框架为理解LLM训练动力学提供了创新视角。在理论层面，我们证明在河谷型损失景观假设下，关键热力学量（如温度、熵、热容、热传导）与经典热力学原理（如热力学三定律及能量均分定理）会自然涌现。在实践层面，这一科学视角为设计学习率调度策略提供了直观指导原则。

（翻译说明： 1. 专业术语处理："scaling laws"译为"标度律"符合物理学规范；"thermodynamic quantities"统一译为"热力学量" 2. 概念显化："river-valley loss landscape"译为"河谷型损失景观"既保留原比喻又明确其学术含义 3. 句式重构：将原文复合句拆分为符合中文表达习惯的短句，如理论/实践层面的对比结构 4. 学术规范：保留"LLM"英文缩写首次出现时标注全称，符合中文论文惯例 5. 动态表达："yields...guidelines"译为"提供了...指导原则"更符合中文动宾搭配习惯） | | 《MathCoder-VL：构建视觉与代码的桥梁以增强多模态数学推理能力》

（翻译说明： 1. 保留原项目名称"MathCoder-VL"作为专有名词不译，符合技术文献惯例 2. "Bridging"译为"构建桥梁"采用动态对等策略，既保留隐喻又符合中文表达 3. "Vision and Code"译为"视觉与代码"保持术语准确性，其中"Code"特指编程代码故不译 4. "Enhanced"译为"增强"采用IEEE标准术语库推荐译法 5. "Multimodal Mathematical Reasoning"译为"多模态数学推理"严格遵循计算机视觉领域术语标准 6. 整体采用学术标题的简洁风格，通过"以"字连接研究目标，符合中文科技论文标题规范） | Ke Wang | PDF | Natural language image-caption datasets, widely used for training Large Multimodal Models, mainly fo [翻译失败] | | 基于图像扩散先验的文本到矢量生成风格定制技术

（说明：这个翻译版本体现了以下专业考量： 1. "Image Diffusion Priors"译为"图像扩散先验"，准确保留了机器学习领域的技术术语 2. "Text-to-Vector"译为"文本到矢量"，符合计算机图形学领域的表述规范 3. "Style Customization"译为"风格定制"，在数字媒体创作领域是标准译法 4. 采用"基于...的...技术"的学术句式结构，符合中文科技论文的表述习惯 5. 整体语序根据中文表达特点进行了优化调整，同时严格保持专业术语的准确性） | Peiying Zhang | PDF | 可缩放矢量图形（SVG）因其分辨率无关的特性与层次分明的图层结构而备受设计师青睐。尽管现有文本到矢量图（T2V）生成方法能够根据文本提示创建SVG，但它们往往忽视了实际应用中的关键需求：风格定制能力——这对生成具有统一视觉表现与连贯美学特征的矢量图集合至关重要。扩展现有T2V方法以实现风格定制面临特定挑战：基于优化的T2V模型虽可利用文本到图像（T2I）模型的先验知识进行定制，却难以保持结构规整性；而前馈式T2V模型虽能确保结构规整，但由于SVG训练数据有限，在解耦内容与风格方面存在困难。

为应对这些挑战，我们提出了一种新颖的两阶段SVG风格定制生成框架，该框架融合了前馈式T2V模型与T2I图像先验的双重优势。第一阶段，我们训练具有路径级表征能力的T2V扩散模型，在保持多样化表达能力的同时确保SVG的结构规整性；第二阶段，通过蒸馏定制化T2I模型，将T2V扩散模型适配至不同风格。通过整合这些技术，我们的框架能够以前馈式高效生成方式，根据文本提示产出具有自定义风格的高质量多样化SVG。大量实验验证了本方法的有效性。项目主页详见https://customsvg.github.io。 | | 基于人工智能的空气污染健康效应个性化预测框架

翻译说明： 1. "AI-driven"译为"基于人工智能的"，更符合中文科技文献表述习惯 2. "framework"译为"框架"，保留学术术语的准确性 3. "prediction of"采用"预测"的动词化处理，使中文更流畅 4. "personalised health response"译为"健康效应个性化"，其中： - "personalised"译为"个性化"（大陆规范译法） - "health response"译为"健康效应"（环境健康领域专业术语） 5. 整体采用"定语前置+中心词"的中文典型结构，符合科技文本特征 6. 补充"效应"二字以准确传达"response"在环境医学中的专业内涵 | Nazanin Zounemat Kermani | PDF | 空气污染对公众健康构成重大威胁，会引发或加剧多种呼吸系统与心血管疾病。与此同时，气候变化正导致野火、热浪等极端天气事件频发，这些事件可能提升污染水平并加剧污染暴露的健康影响。近期个人传感技术的突破性进展革新了行为与生理数据的采集方式，为医疗健康领域的创新改进创造了条件。我们旨在综合利用这些数据与人工智能在时间序列预测方面的新能力，实现对个体健康结果的监测与预测。为此，本研究提出一种创新性工作流程：通过将可穿戴健身设备的生理数据与实时环境暴露值相融合，预测个体对污染的健康反应。所有数据均通过安全合规的途径采集自多源渠道，并用于训练人工智能模型——该模型基于云端模块化框架，可预测个体对污染暴露的健康反应。实证表明，本研究所采用的对抗自编码器神经网络能精确重构时序健康信号，并捕捉对污染的非线性响应。通过个人智能手表数据进行迁移学习后，模型泛化能力显著提升，这验证了该方法对现实场景中用户生成数据的良好适应性。 | | 超越"顿悟"：迈向大型推理模型的系统性元能力对齐

这一标题强调从偶然的灵感发现（"Aha!"时刻）转向对大型推理模型（如大语言模型）中高阶认知能力的结构化校准。其中：
1. "Meta-Abilities"译为"元能力"，指模型的基础性认知能力（如元推理、元学习等）
2. "Alignment"保留专业术语"对齐"，特指模型能力与人类预期目标的协调过程
3. 采用"系统性"对应"Systematic"，突出方法论层面的严谨性

（注：根据计算机领域ACL会议命名惯例，标题翻译在保持学术严谨性的同时，通过冒号结构实现概念聚焦，符合中文计算机论文标题的常见范式） | Zhiyuan Hu | PDF | Large reasoning models (LRMs) already possess a latent capacity for long chain-of-thought reasoning. [翻译失败] | | 可行性是否重要？理解可行性对合成训练数据的影响

（翻译说明： 1. 标题采用疑问句式，保留原文设问语气 2. "Feasibility"译为"可行性"符合学术术语规范 3. "Synthetic Training Data"译为"合成训练数据"准确对应机器学习领域术语 4. 使用"理解...影响"的动宾结构，保持学术标题的严谨性 5. 通过问号与分号的层级区分，完整保留原标题的双重语义结构） | Yiwen Liu | PDF | 随着逼真扩散模型的发展，部分或完全基于合成数据训练的模型取得了越来越好的效果。然而，扩散模型仍经常生成现实中不可能存在的图像，例如漂浮在地面上的狗或带有不真实纹理伪影的图像。我们将"可行性"定义为合成图像中的属性在现实世界中真实存在的可能性；违反这一标准的属性组合即构成不可行图像。直观而言，不可行图像通常被视为分布外数据，因此使用这类图像训练预计会削弱模型对真实数据的泛化能力，应尽可能将其排除在训练集外。但可行性真的重要吗？本文针对基于CLIP的分类器，研究在生成合成训练数据时强制执行可行性是否必要，重点关注背景、颜色和纹理三个目标属性。我们提出了VariReal流程，通过最小化编辑源图像来整合大语言模型生成的文本提示所要求的可行/不可行属性。实验表明，可行性对LoRA微调CLIP模型的影响微乎其微，在三个细粒度数据集上的Top-1准确率差异普遍小于0.3%。此外，不同属性对分类性能的对抗性影响存在差异。最后，与使用纯可行或纯不可行数据集相比，混合训练数据对模型性能无显著影响。 | | 通过多模态推理实现实时分布外故障预防

（说明：该翻译严格遵循学术术语规范，采用"分布外"对应"Out-of-Distribution"这一机器学习领域标准译法，"多模态推理"完整保留"Multi-Modal Reasoning"的技术内涵。动词"预防"较"防止"更符合中文预防性研究语境，并通过"实现"衔接使技术路径表述更完整。整体句式结构符合中文科技论文标题特征，在保持专业性的同时确保可读性。） | Milan Ganai | PDF | 基础模型能够在超出机器人训练数据的危险场景中（即分布外故障/OOD故障），对适宜的安全干预措施提供稳健的高层推理。然而，由于大规模视觉语言模型存在高推理延迟，现有方法依赖人工定义的干预策略来执行回退机制，因而缺乏规划通用化、语义安全运动的能力。为克服这些挑战，我们提出FORTRESS框架，该框架能实时生成并推理语义安全的回退策略以防止OOD故障。在正常运行的低频阶段，FORTRESS利用多模态推理器识别目标并预判故障模式；当运行时监测器触发回退响应时，该系统能快速合成回退目标规划方案，同时实时推断并规避语义不安全区域。通过将开放世界的多模态推理与动态感知规划相融合，我们消除了对硬编码回退机制和人工安全干预的需求。在合成基准测试和ANYmal机器人真实数据的安全分类准确率方面，FORTRESS显著优于对慢速推理模型的即时提示方法，并在城市导航的仿真测试和四旋翼硬件实验中进一步提升了系统安全性与规划成功率。 |