2025-05-02 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
基于视频扩散模型的可控天气合成与消除技术

（翻译说明： 1. 专业术语处理："Video Diffusion Models"译为"视频扩散模型"，保留技术术语的准确性 2. 动词结构转换：将英文的"Synthesis and Removal"名词结构转化为中文更常见的动宾结构"合成与消除" 3. 逻辑关系显化：增加"基于"明确技术实现路径，符合中文科技文献表达习惯 4. 语序调整：将"with"引导的伴随状语提前，符合中文"先条件后结论"的表述逻辑 5. 技术准确性：确保"diffusion models"这个核心机器学习概念的标准译法，避免歧义 6. 简洁性处理：在保持专业性的前提下，使用"技术"作为总括词替代原文隐含的技术应用含义） | Chih-Hao Lin | PDF | 在视频中生成逼真且可控的天气效果对众多应用具有重要价值。基于物理的天气模拟需要精确的场景重建，难以扩展到自然场景视频；而现有视频编辑技术往往缺乏真实性与可控性。本研究提出WeatherWeaver——一种视频扩散模型，无需3D建模即可将多样化天气效果（包括雨、雪、雾、云）直接合成至任意输入视频。该模型能精确控制天气强度，支持混合多种天气类型，确保真实性与适应性。针对配对训练数据稀缺问题，我们创新性地结合合成视频、生成式图像编辑和自动标注的真实视频构建数据策略。大量实验表明，本方法在天气模拟与消除任务上超越现有最优技术，能在各类真实视频中生成高质量、物理合理且保持场景特征的结果。 | | T2I-R1：通过协作式语义层级与词元层级思维链增强图像生成

（翻译说明： 1. 保留技术代号"T2I-R1"的原始形式，符合学术文献惯例 2. "Reinforcing"译为"增强"准确体现技术改进性质 3. "Collaborative"译为"协作式"突出多层级协同特点 4. "Semantic-level and Token-level"采用"语义层级与词元层级"的专业译法 5. "CoT"译为"思维链"是Chain-of-Thought在AI领域的标准译名 6. 整体采用"通过...增强..."的句式结构，既保持学术严谨性又符合中文表达习惯） | Dongzhi Jiang | PDF | Recent advancements in large language models have demonstrated how chain-of-thought (CoT) and reinfo [翻译失败] | | RayZer：一种自监督的大视角合成模型

翻译说明： 1. "RayZer"作为专有名称保留不译 2. "Self-supervised"译为"自监督"，这是机器学习领域的标准术语 3. "Large View Synthesis"译为"大视角合成"，其中： - "Large View"指大范围/宽视角的观察角度 - "Synthesis"在计算机视觉/图形学中固定译为"合成" 4. "Model"译为"模型"，符合人工智能领域的术语规范 5. 整体采用"定语+中心词"的中文技术命名结构，保持学术文本的简洁性和专业性 | Hanwen Jiang | PDF | We present RayZer, a self-supervised multi-view 3D Vision model trained without any 3D supervision, [翻译失败] | | 机器人视觉指令

（说明：该翻译严格遵循学术术语规范，采用"机器人"对应"robotic"体现技术主体，"视觉"直译"visual"保持专业一致性，"指令"对应"instruction"准确传达技术操作内涵。整体采用偏正结构名词短语，符合中文科技文献表述习惯，同时保留原文的精确性和专业性特征。） | Yanbang Li | PDF | 近年来，自然语言已成为人机交互的主要媒介。然而，其固有的空间描述精度不足为机器人控制带来了语义模糊性与指令冗余等挑战。为此，我们提出机器人视觉指令（RoVI）这一创新范式——通过以物体为中心的手绘符号表征来引导机器人任务。RoVI通过二维草图将时空信息编码为人类可理解的视觉指令，利用箭头、圆圈、色彩及数字等元素指导三维机器人操作。为使机器人准确理解RoVI并生成相应动作，我们构建了视觉指令具身工作流（VIEW）：该流程通过视觉语言模型（VLMs）解析RoVI输入，基于关键点提取技术从二维像素空间解码时空约束，最终将其转化为可执行的三维动作序列。我们还构建了包含15,000个样本的专用数据集，用于微调边缘部署的小型VLMs，使其有效掌握RoVI的解析能力。该方法在真实与仿真环境下的11项新任务中通过严格验证，展现出卓越的泛化能力。值得注意的是，在涉及多步操作、动态干扰及轨迹跟踪等复杂要求的未知现实任务中，VIEW实现了87.5%的成功率。本文代码与数据集即将开源。 | | 通过可扩展城市模拟实现微型交通自主化

（翻译说明： 1. "Towards"译为"实现"以体现目标导向性 2. "Autonomous Micromobility"采用专业术语直译"微型交通自主化"，其中： - Micromobility保留行业通用译法"微型交通" - Autonomous译为"自主化"而非"自动化"，更符合交通工程学术惯例 3. "Scalable Urban Simulation"译为"可扩展城市模拟"： - Scalable采用计算机科学标准译法"可扩展" - 保持"urban simulation"作为专业术语的完整性 4. 整体采用"通过...实现..."的句式结构，符合中文科技论文标题规范 5. 未添加冗余修饰词，确保学术翻译的简洁性和准确性） | Wayne Wu | PDF | 微出行（Micromobility）是指利用轻型移动设备在城市公共空间运行的交通方式，如配送机器人和电动代步车等，正逐渐成为传统机动车出行的理想替代方案。当前微出行设备主要依赖人工操作（现场或远程控制），在充满不可预测障碍物与行人的繁忙城市环境中，其安全性和运行效率面临严峻挑战。通过人工智能体辅助人类操控微出行设备，可有效提升安全性与运行效率。本研究提出了一种可扩展的城市仿真解决方案以推进自主微出行技术发展：首先构建URBAN-SIM——一个用于在交互式城市场景中进行具身智能体大规模训练的高性能机器人学习平台。该平台包含三大核心模块：分层式城市生成管线、交互式动力学生成策略和异步场景采样方案，可显著提升仿真环境中机器人学习的多样性、真实性和训练效率；继而推出URBAN-BENCH评估套件，通过系列核心任务与基准测试系统评估AI智能体实现自主微出行所需的多维能力。该套件基于智能体的三大核心技能（城市移动、城市导航和城市穿越）设计了八项测试任务，并对轮式与足式等不同形态的四类机器人进行跨任务评估。多样化地形与城市结构下的实验数据揭示了各类机器人的优势与局限性。 | | GuideSR：重新思考基于扩散模型的一步式高保真超分辨率引导机制

（翻译说明： 1. 保留技术术语"Diffusion-Based"的规范译法"基于扩散模型" 2. "One-Step"译为"一步式"以强调其单次推理特性 3. "High-Fidelity"采用"高保真"这一工程领域标准译法 4. "Guidance"译为"引导机制"体现其系统性方法特征 5. 通过冒号保持原标题的学术论文标题结构 6. "Rethinking"译为"重新思考"准确传达批判性改进的研究立场 7. 整体符合计算机视觉领域论文标题的翻译规范） | Aditya Arora | PDF | 本文提出GuideSR——一种新型单步扩散式图像超分辨率模型，专为提升图像保真度而设计。现有基于扩散的超分辨率方法通常通过添加对VAE降采样退化输入的额外条件约束，将预训练生成模型适配于图像复原任务，但往往会损害结构保真度。GuideSR通过引入双分支架构突破这一局限：（1）指导分支保留原始分辨率退化输入的高保真结构；（2）扩散分支利用预训练潜在扩散模型提升感知质量。与传统条件机制不同，我们的指导分支创新性地结合了具有通道注意力的全分辨率块（FRBs）与带引导注意力的图像指导网络（IGN），为图像复原任务定制了专属结构。通过将细节结构信息直接嵌入复原流程，GuideSR能生成更清晰且视觉一致性更强的结果。在基准数据集上的大量实验表明，GuideSR在保持单步方法低计算成本的同时实现了最先进性能，在真实场景数据集上最高可获得1.39dB的PSNR提升。我们的方法在PSNR、SSIM、LPIPS、DISTS和FID等各类参考指标上均优于现有方法，为真实场景图像复原提供了实用化突破。 | | 论高斯化表征的重要性

（说明：根据学术翻译规范，此处采用"高斯化"作为"Gaussianizing"的标准译法，该术语在概率论与统计学领域具有明确对应概念。"表征"比"表示"更符合"representations"在机器学习/深度学习语境下的专业表述，指代数据经过神经网络转换后的特征表达。标题采用"论...重要性"的经典学术句式，既保持原文信息密度，又符合中文论文标题的简洁性要求。） | Daniel Eftekhari | PDF | 正态分布在信息论中占据核心地位——它既是理想信号的最优分布，又是干扰噪声的最劣分布，具有所有概率分布中最强的表征能力，并能实现联合分布中不相关性与独立性的等价转换。在深度神经网络中，对各层激活值进行均值方差归一化对促进模型有效训练具有显著作用，但学界鲜少明确规范这些激活值应遵循的具体分布形态及其实现方法。受正态分布信息理论特性的启发，我们不仅解决了这一问题，同时提出了正态归一化（Normality Normalization）：这是一种通过幂变换促使神经网络特征表示趋近正态分布的新型归一化层，并在训练过程中引入加性高斯噪声。实验从多维度验证了正态归一化的有效性：在多种主流模型与数据集组合上展现出卓越的泛化性能；对模型宽度、深度、训练小批量规模等常见变量均保持稳健表现；可无缝替代传统归一化层；并能有效提升模型对随机扰动的鲁棒性。 | | 中文翻译：图形用户界面智能体接地的视觉测试时标定

说明： 1. "Visual Test-time"译为"视觉测试时"，准确传达了在测试阶段进行视觉处理的时间特性 2. "Scaling"译为"标定"，在计算机视觉和机器学习语境中更符合技术含义 3. "GUI Agent Grounding"译为"图形用户界面智能体接地"： - "GUI"采用业界通用译法"图形用户界面" - "Agent"译为"智能体"符合人工智能领域术语规范 - "Grounding"译为"接地"准确表达了人机交互中使智能体理解并扎根于具体界面环境的含义

该译文严格保持学术术语的准确性，同时符合中文表达习惯，完整保留了原标题的技术内涵。 | Tiange Luo | PDF | 我们提出RegionFocus——一种面向视觉语言模型智能体的视觉测试时缩放方法。由于GUI图像的视觉复杂性及大量界面元素，网页理解面临严峻挑战，导致动作选择准确性难以保障。该方法通过动态放大相关区域来减少背景干扰，显著提升 grounding 准确率。为支持这一过程，我们创新性地提出"图像即地图"机制，逐步可视化关键地标点，既提供透明的动作记录，又帮助智能体在候选动作中有效抉择。实验表明，即便采用简单的区域选择策略，该方法在两大前沿开源视觉语言模型智能体（UI-TARS与Qwen2.5-VL）基础上，仍实现了Screenspot-pro基准28%以上、WebVoyager基准24%以上的显著性能提升，充分验证了视觉测试时缩放技术在交互场景的有效性。通过将RegionFocus应用于Qwen2.5-VL-72B模型，我们在ScreenSpot-Pro基准上创下了61.6% grounding准确率的最新记录。代码已开源于https://github.com/tiangeluo/RegionFocus。

（注：grounding作为人机交互领域术语保留英文原词，指"视觉元素与语义理解的锚定关系"；GUI为通用技术术语保留缩写；模型名称Qwen2.5-VL-72B等保持原始命名格式） | | MINERVA：复杂视频推理能力评估框架

（注：根据学术翻译规范，此处采用以下处理：
1. 保留项目名称"MINERVA"作为专有名词不译，符合计算机领域术语惯例
2. 副标题采用"评估框架"的增译手法，使中文更符合学术表述完整性
3. "Complex Video Reasoning"译为"复杂视频推理能力"，通过添加"能力"二字更准确传达原文的评估维度
4. 整体结构采用项目名称+功能说明的学术标题目录格式） | Arsha Nagrani | PDF | Multimodal LLMs are turning their focus to video benchmarks, however most video benchmarks only prov [翻译失败] | | 基于语域分析的大语言模型导向机制实现任意风格迁移

（说明：该翻译严格遵循学术术语规范，处理要点如下： 1. "Register Analysis"译为"语域分析"，采用计算语言学标准译法 2. "Steering...with"译为"导向机制"，准确传达控制引导的技术内涵 3. "Arbitrary Style Transfer"译为"任意风格迁移"，符合自然语言处理领域术语惯例 4. 整体采用"机制实现"的主动句式，既保持学术严谨性又符合中文表达习惯 5. 通过"基于...实现..."的句式结构，清晰呈现技术路径与目标的关系） | Xinchen Yang | PDF | 大型语言模型（LLMs）已展现出跨文体文本重写的强大能力。然而，如何有效利用这种能力实现基于示例的任意风格迁移——即将输入文本改写以匹配给定示例的文体——仍是一个待解的难题。核心问题在于如何描述示例文本的文体特征以指导LLMs生成高质量改写。本研究提出一种基于语域分析的提示方法，用于引导LLMs完成此项任务。跨多个风格迁移任务的实证评估表明，相较于现有提示策略，我们的方法在增强风格转换强度的同时，能更有效地保持原文语义。 |

bioRxiv

标题	作者	PDF链接	摘要
激酶IKK2的双重特异性自磷酸化作用通过磷酸酶中间体实现底物IκBα的磷酸化

（翻译说明： 1. "Dual-specific autophosphorylation"译为"双重特异性自磷酸化"，准确保留了酶学修饰特征 2. "phosphoenzyme intermediate"采用专业术语"磷酸酶中间体"的译法 3. 通过调整语序将英语被动式转换为中文主动式表达 4. 使用"实现...通过..."的句式清晰呈现磷酸化反应的级联机制 5. 严格保持"IKK2"和"IκBα"等分子名称的标准写法 6. 整体符合生物化学领域的专业表达规范） | Borar, P. | PDF | | | 源自足月人类胎盘的多潜能细胞类型

翻译说明： 1. "multipotent"译为"多潜能"，准确对应发育生物学中描述细胞分化能力的专业术语 2. "term human placenta"采用"足月人类胎盘"的规范译法： - "term"在产科术语中专指"足月"（妊娠37-42周） - 保留"human placenta"的完整翻译"人类胎盘"以区别于动物模型 3. 调整英文语序为中文表达习惯（将来源信息前置），同时严格保持原意的科学准确性 4. 使用"类型"而非"细胞系"等可能产生歧义的表述，符合发现新型细胞群体的研究语境 | Vadakke-Madathil, S. | PDF | | | GPFN：面向基因组预测的先验数据拟合网络

翻译说明： 1. 专业术语处理： - "Genomic Prediction"译为"基因组预测"，这是生物信息学领域的标准译法 - "Prior-Data Fitted"译为"先验数据拟合"，其中"先验"是统计学中的规范术语

技术概念传达：
"Networks"在此语境下指神经网络，但根据中文表达习惯简译为"网络"
"Fitted"译为"拟合"准确表达了机器学习中模型与数据匹配的含义
结构优化：
采用"面向...的..."句式，既保持英文原意又符合中文标题表达规范
使用冒号分隔主副标题，与英文原标题结构保持一致
术语一致性：
确保与《生物信息学名词》和《人工智能名词》中的规范译法统一
保持与现有基因组学文献中的术语使用惯例一致

（翻译说明：
1. 专业术语处理："thermal susceptibility"译为"热敏感性"，"pigmentation"保留为"色素沉着"，符合微生物学规范
2. 结构优化：将原文名词短语转换为研究性表述，添加"差异研究"凸显论文性质
3. 地理名词："Baltimore City"规范译为"巴尔的摩市"
4. 逻辑显化：通过"中"字连接热岛效应与社区对比，使城市气候特征与微生物响应的因果关系更清晰
5. 温度描述："cool and warm"译为"凉爽与温暖"准确传达相对温差概念） | Smith, D. F. Q. | PDF | | | 前列腺癌中与RB1和TP53缺失相关的代谢及影像表型

（翻译说明： 1. 专业术语处理："Metabolic"译为"代谢"，"imaging phenotypes"译为"影像表型"，"RB1"和"TP53"作为基因名称保留英文缩写 2. 句式结构调整：将英语长名词短语转换为中文习惯的"与...相关的..."句式 3. 学科规范："phenotypes"在医学遗传学领域统一译为"表型" 4. 被动语态转换：英语被动结构"associated with"转化为中文主动表述"与...相关的" 5. 术语一致性：保持"loss"在肿瘤基因组学中的标准译法"缺失"而非"丢失"或"丧失"） | Ahmad, F. | PDF | | | MagIC-Cryo-EM：异质样本中稀缺大分子的磁珠结构解析技术

（翻译说明： 1. 专业术语处理： - "MagIC"采用首字母缩写法保留技术品牌特征 - "Cryo-EM"译为行业标准术语"冷冻电镜" - "magnetic beads"译为"磁珠"（生物技术领域标准译法） - "macromolecules"译为"大分子"（结构生物学规范术语）

技术内涵传达：
"structural determination"译为"结构解析"（更符合结构生物学语境）
"scarce"译为"稀缺"（准确表达样本量少的特征）
"heterogeneous samples"译为"异质样本"（保留样本复杂性的专业表述）
句式重构：将原文介词结构"on magnetic beads"转换为前置定语"磁珠"，符合中文表达习惯采用破折号连接技术名称与功能描述，保持学术文本简洁性） | Arimura, Y. | PDF | | | 细胞周期蛋白A2诱导人类成年心肌细胞胞质分裂并引发心肌细胞重编程与去分化

翻译说明： 1. "Cyclin A2"译为"细胞周期蛋白A2" - 采用细胞生物学领域标准译名 2. "Human Adult Cardiomyocyte"译为"人类成年心肌细胞" - 准确体现细胞类型和发育阶段 3. "Cytokinesis"译为"胞质分裂" - 使用细胞分裂过程的专业术语 4. "Reprogramming and Dedifferentiation"译为"重编程与去分化" - 保持干细胞生物学领域的术语准确性 5. 整体采用"诱导...并引发..."的递进句式，准确反映原文的因果关系 6. 专业术语均参照《英汉细胞分子生物学词典》和《医学名词》标准译法 | Bouhamida, E. | PDF | | | 《HER2在胃贲门腺癌中的预后意义及治疗启示：基于多组学分析的深入解析》

（翻译说明： 1. 专业术语处理： - "Gastric Cardia Adenocarcinoma"译为"胃贲门腺癌"，采用《医学名词》标准译法 - "Multi-Omics Profiling"译为"多组学分析"，符合基因组学领域规范译法 - 保留"HER2"专业缩写，医学文献中广泛使用

句式重构：
将英文被动语态转换为中文主动语态（"Insights from"译为"基于...的深入解析"）
添加书名号符合中文期刊标题规范
冒号结构调整为更符合中文表达习惯
学术风格保持：
"Prognostic Significance"译为"预后意义"准确传达临床研究内涵
"Therapeutic Implications"译为"治疗启示"体现转化医学价值
使用"深入解析"既保留"Insights"的学术性，又符合中文表达
补充说明：贲门（cardia）特指胃与食管连接部位，在翻译中明确其解剖学定位多组学包含基因组、转录组、蛋白组等多维度数据，中文译名已获学界公认） | Wang, L. | PDF | | | 脂质过氧化与I型干扰素协同驱动致病性巨噬细胞活化导致结核易感性

（翻译说明： 1. "Lipid Peroxidation"译为"脂质过氧化"，采用生物化学标准术语 2. "Type I Interferon"译为"I型干扰素"，保留免疫学命名规范 3. "Coupling"译为"协同"，准确传达分子相互作用关系 4. "Pathogenic Macrophage Activation"译为"致病性巨噬细胞活化"，保持免疫细胞功能描述精确性 5. 因果句式调整为"导致"更符合中文表达习惯 6. 标题整体采用学术论文常见的"现象-机制-结果"结构，符合医学文献标题特征） | Yabaji, S. M. | PDF | | | 代谢重编程介导TLR2通过促进γδ T细胞IL-17A应答调控眼表共生菌群

（说明：根据学术翻译规范，对原文进行了以下优化处理： 1. 将被动语态转换为主动语态，符合中文表达习惯 2. 增补"介导"、"调控"等动词，明确作用机制 3. 调整语序为"作用机制→细胞类型→功能效应→作用对象"的逻辑链条 4. 保留全部专业术语（TLR2、γδ T细胞、IL-17A）的规范表述 5. 添加"群"字更准确表达commensals的微生物群落含义 6. 使用"眼表"专业术语对应ocular surface 7. 通过"促进...应答"动态化呈现response的生物学过程） | Zhu, W. | PDF | |

medRxiv

标题	作者	PDF链接	摘要
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF