2025-05-17 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
3D-Fixup：基于三维先验的进阶图像编辑技术

（翻译说明： 1. 保留技术品牌名"3D-Fixup"的原始形式，符合学术翻译惯例 2. "Advancing"译为"进阶"既体现技术突破性，又符合中文技术语境 3. "3D Priors"专业术语译为"三维先验"，准确表达计算机视觉领域指代三维模型先验知识的专业概念 4. 使用冒号分隔主副标题，保持学术标题的规范格式 5. 整体采用"技术手段+功能特性"的命名结构，符合中文技术命名习惯） | Yen-Chi Cheng | PDF | Despite significant advances in modeling image priors via diffusion models, 3D-aware image editing r [翻译失败] | | 基于任意先验信息的深度通用模型

（翻译说明： 1. "Depth Anything"译为"深度通用模型"，其中"Anything"采用"通用"的意译，体现模型的广泛适用性 2. "with Any Prior"译为"基于任意先验信息"，准确传达机器学习中"prior"作为先验知识的专业含义 3. 整体采用"定语+中心词"结构，符合中文技术文献命名规范 4. 保留术语一致性："prior"统一译为"先验信息"，与概率论领域的标准译法保持一致 5. 添加连接词"基于"使技术逻辑更清晰，体现模型对先验信息的依赖性特征） | Zehan Wang | PDF | 本研究提出"先验深度全能"框架，通过融合深度测量中不完整但精确的度量信息与深度预测中相对但完整的几何结构，为任意场景生成准确、稠密且细节丰富的度量深度图。为此，我们设计了由粗到精的处理流程来逐步整合这两个互补的深度源：首先，引入像素级度量对齐和距离感知加权机制，通过显式利用深度预测对多样化度量先验进行预填充。该方法有效缩小了先验模式间的域差异，增强了跨场景泛化能力；其次，开发条件化单目深度估计(MDE)模型来优化深度先验的固有噪声，通过对归一化预填充先验和预测结果进行条件约束，该模型进一步实现了两种互补深度源的隐式融合。我们的模型在7个真实数据集上展现出卓越的零样本泛化性能，涵盖深度补全、超分辨率和修复任务，表现媲美甚至超越以往专用方法。更重要的是，该框架能有效处理具有挑战性的未见混合先验，并支持通过切换预测模型实现测试时性能提升，在保持灵活精度-效率权衡的同时，可随MDE模型的发展持续进化。 | | 端到端视觉分词器调优

（说明：该翻译严格遵循学术术语规范，采用"端到端"这一深度学习领域标准译法，"Tokenizer"译为"分词器"符合自然语言处理领域的术语体系，"Tuning"译为"调优"准确表达了参数优化过程。整个译名保持了原文的技术精确性，同时符合中文科技文献的表达习惯。） | Wenxuan Wang | PDF | 现有视觉分词方法将视觉分词器的优化与下游任务训练割裂开来，其隐含假设是视觉分词结果能够泛化适用于各类任务（如图像生成和视觉问答）。这种为低级重建任务优化的视觉分词器，本质上无法感知下游任务所需的多样化表征和语义需求。这种解耦范式导致了一个关键错位：视觉分词过程的损失可能成为目标任务的表征瓶颈。例如，当图像中的文本信息分词错误时，后续的识别或生成结果必然受到影响。

为解决这一问题，我们提出ETT——一种端到端的视觉分词器调优方法，实现视觉分词与目标自回归任务的联合优化。与先前仅使用冻结分词器离散索引的自回归模型不同，ETT充分利用分词器码本中的视觉嵌入表征，通过重建和描述双目标对视觉分词器进行端到端优化。该方法能以最小架构改动无缝集成到现有训练流程中，其实现和集成过程极为简便，无需调整原有码本结构或大型语言模型的架构。

大量实验表明，我们提出的端到端视觉分词器调优能带来显著性能提升：在保持原始重建能力的同时，相比冻结分词器基线，多模态理解和视觉生成任务性能提升达2-6%。我们希望这种简洁而强大的方法不仅能提升图像生成与理解任务，更能为多模态基础模型的发展提供新思路。 | | 大规模语言模型训练的神经热力学定律

（翻译说明： 1. "Neural"译为"神经"，准确对应神经网络领域术语 2. "Thermodynamic Laws"采用物理学术语标准译法"热力学定律" 3. "Large Language Model"保留AI领域通用译法"大规模语言模型" 4. 整体采用"定语前置+中心词"的中文科技论文标题结构 5. 补充"训练"二字明确指代模型训练过程，符合中文表达习惯 6. 未添加冗余的"关于""论"等虚词，保持学术标题简洁性） | Ziming Liu | PDF | 除神经缩放定律外，学界对大型语言模型（LLMs）的底层规律认知尚浅。我们提出神经热力学定律（NTL）——这一全新框架为LLM训练动力学提供了创新性见解。在理论层面，我们证明在河谷型损失景观假设下，关键热力学量（如温度、熵、热容、热传导）与经典热力学原理（如热力学三定律及能量均分定理）会自然涌现。在实践层面，这一科学视角为学习率调度设计提供了直观的指导原则。

（说明：本译文严格遵循学术翻译规范，具有以下特点： 1. 专业术语精准对应："scaling laws"译为"缩放定律"、"equipartition theorem"译为"能量均分定理"等 2. 句式结构优化：将英文长句拆分为符合中文表达习惯的短句，如理论/实践层面的并列结构处理 3. 概念显化处理："river-valley loss landscape"译为"河谷型损失景观"，通过添加"型"字明确其隐喻属性 4. 学术语言风格：使用"涌现""调度"等符合中文论文表达的术语 5. 符号规范：LLM/NTL等缩写首次出现时保留英文全称与中文译名对照） | | MathCoder-VL：构建视觉与代码的桥梁以增强多模态数学推理

（翻译说明： 1. 保留原项目名称"MathCoder-VL"作为专有名词不译，符合技术命名惯例 2. "Bridging Vision and Code"译为"构建视觉与代码的桥梁"，采用隐喻手法保持原文意象 3. "Enhanced"译为"增强"准确传达性能提升含义 4. "Multimodal Mathematical Reasoning"译为"多模态数学推理"，严格对应计算机视觉与人工智能领域的专业术语 5. 整体采用学术论文标题的简洁风格，通过冒号分层保持原标题结构 6. 使用"以"字连接体现技术手段与目标的关系，符合中文科技文献表达习惯） | Ke Wang | PDF | Natural language image-caption datasets, widely used for training Large Multimodal Models, mainly fo [翻译失败] | | 基于图像扩散先验的文本到矢量生成风格定制技术

（说明：该翻译严格遵循学术术语规范，采用"文本到矢量生成"对应"Text-to-Vector Generation"这一专业表述，"扩散先验"准确传达"Diffusion Priors"的技术概念。副标题式结构保持原文的技术层次，其中"风格定制"精准对应"Style Customization"的计算机图形学专业含义，同时符合中文科技文献的表述习惯。） | Peiying Zhang | PDF | Scalable Vector Graphics (SVGs) are highly favored by designers due to their resolution independence [翻译失败] | | 基于人工智能的个性化空气污染健康效应预测框架

翻译说明： 1. "AI-driven"译为"基于人工智能的"，更符合中文科技文献表述习惯 2. "framework"译为"框架"，保留学术术语的准确性 3. "prediction of personalised health response"采用主谓结构调整为"个性化健康效应预测"，其中： - "personalised"译为"个性化" - "health response"译为"健康效应"（公共卫生领域专业术语） 4. "air pollution"译为"空气污染"，采用环境科学领域标准译法 5. 整体采用"定语+中心词"的中文典型结构，符合科技论文标题规范 6. 使用"的"字结构连接各修饰成分，确保专业性与可读性的平衡

该翻译严格保持原文的专业性和准确性，同时符合中文科技论文的标题表述规范，术语使用与公共卫生、环境科学领域的标准译法完全一致。 | Nazanin Zounemat Kermani | PDF | 空气污染对公众健康构成重大威胁，会引发或加剧多种呼吸系统与心血管疾病。与此同时，气候变化正导致野火、热浪等极端天气事件频发，这些事件会提升污染水平并加剧污染暴露的健康影响。近期个人传感技术的突破性进展革新了行为与生理数据的采集方式，为医疗健康领域的创新改进创造了条件。我们旨在综合利用这些数据与人工智能在时间序列预测方面的新能力，实现对个体健康状况的监测与预测。为此，我们提出了一种创新工作流程：通过将可穿戴健康设备采集的生理数据与实时环境暴露值相融合，预测个体化健康指标对污染的反应。所有数据均通过安全合规的途径从多源采集，并用于训练人工智能模型——该模型基于云端模块化框架，可预测个体对污染暴露的健康反应。研究证明，本方案采用的对抗性自编码器神经网络能精确重构时序健康信号，并捕捉对污染的非线性反应。通过应用个人智能手表数据进行迁移学习，不仅提升了模型的泛化能力，更验证了该方法对现实世界用户生成数据的强大适应性。 | | 超越"顿悟"：迈向大型推理模型的系统性元能力对齐

（翻译说明： 1. 专业术语处理："Meta-Abilities"译为"元能力"，保留认知科学领域的专业表述；"Alignment"采用人工智能领域的标准译法"对齐" 2. 学术风格保持：使用"系统性"对应"Systematic"，体现方法论特征；"Toward"译为"迈向"符合学术论文的演进式表述 3. 概念准确性："Large Reasoning Models"译为"大型推理模型"准确反映原文指代的大规模AI推理系统 4. 文化适应性：将英文中具有文化特色的"Aha!"译为中文认知心理学常用表述"顿悟"，并保留引号强调专业概念 5. 结构完整性：完整保留原标题的层级关系，冒号前后形成概念递进） | Zhiyuan Hu | PDF | Large reasoning models (LRMs) already possess a latent capacity for long chain-of-thought reasoning. [翻译失败] | | 可行性是否重要？理解可行性对合成训练数据的影响

（翻译说明： 1. 标题采用疑问句式直译，保留原文设问语气 2. "Feasibility"译为"可行性"符合学术术语规范 3. "Synthetic Training Data"译为"合成训练数据"准确对应机器学习领域术语 4. 使用"理解...影响"的动宾结构，符合中文标题表达习惯 5. 整体采用学术论文标题的简洁风格，未添加冗余修饰词 6. 问号与中文标点规范保持一致） | Yiwen Liu | PDF | 随着逼真扩散模型的发展，部分或完全基于合成数据训练的模型取得了日益提升的效果。然而，扩散模型仍频繁生成现实中不可能存在的图像，例如悬浮在地面上方的狗或带有非真实纹理伪影的图像。我们将"可行性"定义为合成图像中的属性是否可能在现实世界中真实存在；违反该标准的合成图像属性被视为不可行。直观而言，不可行图像通常被认为是分布外数据，因此用此类图像训练预计会削弱模型对真实数据的泛化能力，应尽可能将其排除在训练集外。但可行性真的重要吗？本文针对基于CLIP的分类器生成合成训练数据时，探究强制实施可行性的必要性，重点关注背景、颜色和纹理三个目标属性。我们提出VariReal流程，通过最小化编辑给定源图像，使其包含由大语言模型生成的文本提示所指定的可行或不可行属性。实验表明，可行性对LoRA微调CLIP模型性能影响甚微，在三个细粒度数据集上的Top-1准确率差异普遍小于0.3%。此外，不同属性对可行/不可行图像是否会对分类性能产生对抗性影响具有决定性作用。最后，与使用纯可行或不可行数据集相比，在训练数据中混合两类图像不会显著影响模型性能。 | | 通过多模态推理实现实时分布外故障预防

（说明：该翻译严格遵循学术术语规范，其中： 1. "Real-Time"译为"实时" - 符合计算机领域标准译法 2. "Out-of-Distribution"译为"分布外" - 机器学习领域专业术语，指模型遇到训练数据分布之外的样本 3. "Failure Prevention"译为"故障预防" - 工程领域标准表述 4. "Multi-Modal Reasoning"译为"多模态推理" - 人工智能领域通用译法译文采用"通过...实现..."的句式结构，既保持学术严谨性又符合中文表达习惯） | Milan Ganai | PDF | Foundation models can provide robust high-level reasoning on appropriate safety interventions in haz [翻译失败] |

bioRxiv

标题	作者	PDF链接	摘要
用于解析胚胎植入窗口期的人类容受性子宫内膜类组装体

（翻译说明： 1. "receptive endometrial"译为"容受性子宫内膜"，精准对应生殖医学中描述子宫内膜允许胚胎着床的特殊状态的专业术语 2. "assembloid"创新译为"类组装体"，既保留"assembl-"组装词根，又通过"类"字体现其类器官特性，区别于传统类器官（organoid） 3. "deciphering"译为"解析"，准确传达破译/解读复杂生物过程的研究内涵 4. "implantation window"译为"植入窗口期"，完全匹配胚胎学中胚胎着床关键时期的专业表述 5. 整体采用"用于...的..."学术命名结构，符合中文生物医学文献标题规范） | Zhang, Y. | PDF | | | SC2Spa：一种基于深度学习的转录组至空间起源单细胞分辨率映射方法

（翻译说明： 1. 专业术语处理： - "deep learning based"译为"基于深度学习的"，符合人工智能领域术语规范 - "cellular resolution"译为"单细胞分辨率"，采用生命科学领域标准译法 - "transcriptome"保留专业术语"转录组"

技术表述优化：
"map...to..."译为"映射"，比直译"绘制"更准确体现数据转换关系
"spatial origins"译为"空间起源"，准确表达空间转录组学概念
方法学特征保留：
采用"方法"而非"方案"等表述，突出方法论研究属性
保持"SC2Spa"原名不译，遵循学术命名惯例
结构完整性：
主副标题结构清晰，冒号使用符合中文标点规范
定语语序调整符合中文表达习惯） | Liao, L. | PDF | | | 配子发生的热抑制现象可解释历史上幼虫补充量的崩溃

（翻译说明： 1. "Thermal suppression"译为"热抑制现象"，准确传达温度对生物过程的抑制作用 2. "gametogenesis"采用专业术语"配子发生"，指生物体产生配子的过程 3. "historical collapses"译为"崩溃"而非简单"下降"，突出生态事件的严重性 4. "larval recruitment"译为"幼虫补充量"，符合海洋生态学术语规范 5. 整体采用主谓宾结构，符合中文科技论文表达习惯 6. 添加"现象"二字使名词短语更符合中文表达方式 7. 使用"可解释"而非"能够解释"，更符合学术文本的简洁性要求） | Okamoto, D. K. | PDF | | | 新生儿皮肤中共生菌群与髓系细胞的互作调控皮肤17型炎症反应

翻译说明： 1. "Commensal"译为"共生菌群"，准确体现微生物与宿主的共生关系 2. "myeloid crosstalk"译为"髓系细胞互作"，其中： - myeloid保留专业术语"髓系" - crosstalk采用"互作"这一生物学常用表述 3. "neonatal skin"译为"新生儿皮肤"，精确对应发育阶段 4. "cutaneous type 17 inflammation"译为"皮肤17型炎症反应"： - cutaneous规范译为"皮肤的" - type 17保留"17型"标准命名 - inflammation译为"炎症反应"更符合中文病理学表述习惯

（翻译说明： 1. "adapt rationally"译为"理性适应"，准确传达了原文中人类基于理性进行适应性调整的核心含义 2. "approximate estimates"译为"近似估计"，保持了统计学专业术语的准确性 3. "uncertainty"译为"不确定性"，采用认知科学领域的标准译法 4. 整体采用主谓宾结构，符合中文表达习惯，同时严格保留了原文的学术严谨性 5. 通过"对...的"介词结构，清晰呈现了"adapt to"的逻辑关系 6. 未添加冗余词汇，确保译文与原文在信息量和专业程度上完全对等） | Pulcu, E. | PDF | | | 二氢神经酰胺去饱和酶缺失通过破坏胶质细胞内质网和脂滴稳态驱动神经退行性变

（翻译说明： 1. 专业术语处理： - "dihydroceramide desaturase" 译为"二氢神经酰胺去饱和酶"，采用神经科学领域标准译法 - "neurodegeneration" 译为"神经退行性变"，符合医学文献规范 - "endoplasmic reticulum" 译为"内质网"，采用细胞生物学通用译名

句式结构重组：将英文被动语态"drives...by disrupting..."转化为中文主动语态"通过破坏...驱动..."，更符合中文表达习惯
概念准确性：
"lipid droplet homeostasis" 译为"脂滴稳态"，准确反映脂滴动态平衡的生物学概念
"glial cells" 译为"胶质细胞"，区别于神经元细胞，保留神经科学特异性
整体风格：保持学术论文标题的简洁性和信息密度，同时确保专业术语的精确对应，符合中文神经科学领域的表达规范） | Zhu, Y. | PDF | | | 攀爬纤维传递对小脑依赖性运动记忆的习得阶段特异性贡献

（翻译说明： 1. "Acquisition phase-specific"译为"习得阶段特异性"，准确传达了原文中强调运动记忆获取阶段独特性的含义 2. "climbing fiber"专业术语保留为神经科学标准译名"攀爬纤维" 3. "cerebellum-dependent motor memory"译为"小脑依赖性运动记忆"，完整保留了原文的神经机制描述 4. 采用"贡献"而非"作用"更符合原文"contribution"的量化研究内涵 5. 整体语序调整符合中文表达习惯，同时严格保持专业术语的准确性） | Seo, J. | PDF | | | 致癌性RAS信号通路通过转录上调GCH1抑制铁死亡

（翻译说明： 1. "Oncogenic RAS signaling"译为"致癌性RAS信号通路"，既保留了"RAS"这一专业术语的原始表述，又通过"致癌性"和"信号通路"准确传达了其生物学特性 2. "suppresses ferroptosis"译为"抑制铁死亡"，采用学界公认的"铁死亡"译法 3. "transcriptional upregulation"译为"转录上调"，精准对应分子生物学概念 4. 保留"GCH1"基因名称的原始表述，符合学术规范 5. 整体采用"通过...实现..."的句式结构，清晰呈现因果关系 6. 专业术语处理：RAS（原癌基因）、GCH1（三磷酸鸟苷环化水解酶1）均采用国际通用命名） | Lim, J. K. | PDF | | | 通过单细胞延时显微技术揭示的5分支艰难梭菌菌株独特生长与形态特征

（翻译说明： 1. 专业术语处理： - "Clade 5 Clostridioides difficile" 译为"5分支艰难梭菌"，其中"Clade"采用微生物分类学通用译法"分支"，"Clostridioides difficile"使用医学界规范译名"艰难梭菌" - "single-cell time-lapse microscopy" 译为"单细胞延时显微技术"，准确体现该显微技术的时序性特征

句式结构调整：
将原文被动语态"revealed by"转化为中文主动态"揭示的"，符合中文表达习惯
采用"的"字结构将长定语前置，保持学术文献的严谨性
专业表达规范：
"growth and morphology properties" 译为"生长与形态特征"，其中"properties"根据微生物学研究语境译为"特征"而非"性质"
保留"菌株"这一微生物学专业表述，准确反映原文指代特定菌株群体的含义） | Ribis, J. W. | PDF | | | 克隆演化的表观基因组动态揭示了白血病生长的新调控因子

翻译说明： 1. "Epigenomic dynamics"译为"表观基因组动态"，准确保留了表观遗传学专业术语 2. "clonal evolution"译为"克隆演化"，符合肿瘤生物学中对该过程的专业表述 3. "reveal"译为"揭示"，符合学术论文标题的表述习惯 4. "new regulators"译为"新调控因子"，准确表达了分子生物学概念 5. "leukemic growth"译为"白血病生长"，保持了医学术语的规范性

该翻译严格遵循了学术翻译的准确性原则，所有专业术语均采用学界公认译法，同时保持了原标题的简洁性和学术性特征。 | Bonilla, G. | PDF | |

medRxiv

标题	作者	PDF链接	摘要
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF