arxiv 2025-05-04

标题	作者	PDF链接	摘要
基于视频扩散模型的可控天气合成与消除技术

（翻译说明： 1. 专业术语处理： - "Video Diffusion Models"译为"视频扩散模型"，保留技术术语的准确性 - "Controllable"译为"可控"，符合计算机视觉领域的术语规范

句式结构调整：
将英文被动语态转换为中文主动语态
采用"技术"作为范畴词，符合中文科技文献表达习惯
学术风格保持：
使用"合成与消除"的并列结构，准确传达原文的对比研究内容
添加"技术"作为后缀，使译文更符合中文科技论文标题特征
创新点保留：
"Weather Synthesis"译为"天气合成"而非直译"天气生成"，更贴近计算机图形学领域术语
"Removal"译为专业术语"消除"而非普通词汇"移除"，保持学术严谨性
整体效果：译文在保持专业性的同时，符合中文科技论文标题简洁明确的要求，准确反映了原文的技术内涵。） | Chih-Hao Lin | PDF | 在视频中生成逼真且可控的天气特效对诸多应用具有重要价值。基于物理的天气模拟需要精确重建，难以扩展到自然场景视频；而现有视频编辑技术往往缺乏真实性与可控性。本研究提出WeatherWeaver视频扩散模型，无需3D建模即可将多样天气效果（包括雨、雪、雾、云）直接合成至任意输入视频。该模型能精确调控天气强度，支持混合多种天气类型，确保真实性与适应性。针对配对训练数据稀缺问题，我们创新性地融合合成视频、生成式图像编辑及自动标注的真实视频构建数据策略。大量实验表明，本方法在天气模拟与消除任务上超越现有最优技术，能在各类真实视频中生成高质量、物理合理且保持场景特征的结果。 | | T2I-R1：通过协同语义层级与词元层级思维链增强图像生成

（翻译说明： 1. 保留技术术语"T2I-R1"作为模型名称不译 2. "Reinforcing"译为"增强"符合机器学习领域术语规范 3. "Collaborative"译为"协同"准确表达跨层级协作含义 4. 专业术语"Semantic-level"和"Token-level"分别译为"语义层级"和"词元层级"，其中"token"采用NLP领域推荐的"词元"译法 5. "CoT"作为"Chain of Thought"缩写保留英文缩写形式，这是当前学术界的通行做法 6. 整体采用"通过...增强..."的句式结构，既保持学术文本的严谨性，又符合中文表达习惯） | Dongzhi Jiang | PDF | Recent advancements in large language models have demonstrated how chain-of-thought (CoT) and reinfo [翻译失败] | | RayZer：一种自监督的大视角合成模型

翻译说明： 1. "RayZer"作为专有名称保留不译 2. "Self-supervised"译为"自监督"，这是计算机视觉领域的标准术语 3. "Large View Synthesis"译为"大视角合成"，其中： - "Large View"指大范围视角变化 - "Synthesis"在图形学中通常译为"合成" 4. 采用"模型"而非"系统"的译法，更符合机器学习领域的表述习惯 5. 整体采用学术论文标题的简洁风格，使用冒号分隔主副标题 6. 符合中文科技论文标题的命名规范（名词短语+模型/方法/系统） | Hanwen Jiang | PDF | We present RayZer, a self-supervised multi-view 3D Vision model trained without any 3D supervision, [翻译失败] | | 机器人视觉指令

（翻译说明： 1. "Robotic"译为"机器人"符合中文机器人学领域术语规范 2. "Visual Instruction"采用"视觉指令"的译法： - "视觉"对应计算机视觉技术范畴 - "指令"准确表达instruction作为控制信号的特性 3. 整体采用偏正结构，符合中文技术名词构词习惯 4. 避免使用"教学""指导"等可能产生歧义的译法，确保学术准确性） | Yanbang Li | PDF | 近年来，自然语言已成为人机交互的主要媒介。然而其固有的空间描述精度不足，为机器人控制带来了语义模糊性与指令冗长性等挑战。为突破这一局限，我们提出机器人视觉指令（RoVI）——一种以物体为中心、通过手绘符号进行任务指导的全新范式。该技术通过二维草图将时空信息编码为人类可理解的视觉指令，利用箭头、圆圈、色彩及数字等元素来驱动三维机器人操作。为使机器人准确理解RoVI并生成对应动作，我们构建了视觉指令具身工作流（VIEW）：该流程通过视觉语言模型（VLMs）解析RoVI输入，基于关键点提取技术从二维像素空间解码时空约束，进而转化为可执行的三维动作序列。我们还专门构建了包含15,000条样本的数据集，用于微调边缘部署的小型VLMs模型，使其有效掌握RoVI的解析能力。该方法在真实与仿真环境下的11项新任务中通过严格验证，展现出卓越的泛化性能。值得注意的是，在涉及多步骤动作、环境干扰及轨迹跟踪等复杂要求的未知现实任务中，VIEW系统实现了87.5%的成功率。本文相关代码与数据集即将开源。 | | 《基于可扩展城市仿真实现自主微出行技术》

（翻译说明： 1. 专业术语处理："Autonomous Micromobility"译为"自主微出行技术"，其中micromobility是交通领域专有名词，指电动滑板车/自行车等微型交通工具 2. 技术概念传达："Scalable Urban Simulation"译为"可扩展城市仿真"，准确体现计算机仿真技术的可扩展特性 3. 学术风格保持：使用"实现"替代直译"通向"，更符合中文技术文献表达习惯 4. 介词结构转化：将英文介词短语"through..."转化为中文前置状语"基于..." 5. 术语统一性：与智能交通领域现有中文文献保持术语一致，如"urban simulation"标准译法） | Wayne Wu | PDF | 微出行（Micromobility）指利用轻型移动设备在城市公共空间运行的交通方式，如配送机器人、电动代步车等，正逐渐成为传统机动车出行的理想替代方案。当前微出行设备主要依赖人工操作（现场或远程控制），在充满不可预测障碍物与行人的繁忙城市环境中，其安全性与运行效率面临严峻挑战。通过人工智能体辅助人类操控微出行设备，可有效提升系统安全性与运行效能。本研究提出了一种可扩展的城市仿真解决方案以推进自主微出行技术发展：首先构建URBAN-SIM——一个面向交互式城市场景中具身智能体大规模训练的高性能机器人学习平台。该平台包含三大核心模块：分层式城市生成管线、交互式动力学生成策略及异步场景采样方案，可显著提升仿真环境中机器人学习的多样性、真实性与训练效率；继而推出URBAN-BENCH评估体系——通过系列核心任务与基准测试全面衡量AI智能体实现自主微出行所需的各项能力。该体系基于智能体的三大核心技能（城市移动、城市导航与城市穿越）设计了八项测试任务，并对轮式/足式等不同形态的四类机器人进行跨任务评估。多样化地形与城市结构下的实验数据揭示了各类机器人的性能优势与局限。 | | GuideSR：重新思考基于扩散模型的一步式高保真超分辨率引导机制

（翻译说明： 1. 保留英文缩写"GuideSR"作为技术术语标识 2. "Rethinking"译为"重新思考"体现学术批判性 3. "One-Step"译为"一步式"准确表达单次推理特性 4. "High-Fidelity"译为"高保真"符合图像处理领域术语 5. "Diffusion-Based"译为"基于扩散模型"明确技术基础 6. "Super-Resolution"统一译为"超分辨率"保持领域术语一致性 7. 整体采用学术论文标题的简洁句式结构，通过破折号连接主副标题） | Aditya Arora | PDF | In this paper, we propose GuideSR, a novel single-step diffusion-based image super-resolution (SR) m [翻译失败] | | 论高斯化表征的重要性

（注：根据学术翻译规范，此处采用"高斯化"作为"Gaussianizing"的标准译法，该术语在信号处理和统计学领域指将数据分布转化为高斯分布的过程。"Representations"译为"表征"符合机器学习领域的术语惯例，指数据经过模型处理后的数学表达形式。标题采用"论...重要性"的经典学术表述结构，既保持原文信息量又符合中文标题的简洁性要求。） | Daniel Eftekhari | PDF | 正态分布在信息论中占据核心地位——它既是理想信号的最优分布，也是干扰信号的最劣分布；在各类概率分布中具有最强的表征能力；并能实现联合分布中不相关性与独立性的等价转换。在深度神经网络中，对各层激活值进行均值方差归一化处理对促进模型有效训练具有显著作用，但关于这些激活值应遵循何种精确分布以及如何实现该分布，学界鲜有明确方案。受正态分布信息论特性的启发，我们针对该问题提出了正态归一化方法：这是一种通过幂变换促使神经网络特征表示趋近正态分布的新型归一化层，并在训练过程中引入加性高斯噪声。实验从多维度全面验证了正态归一化的有效性：在多种主流模型与数据集组合上展现出卓越的泛化性能；对模型宽度、深度及训练小批量规模等常见变量均保持稳健表现；可无缝替代现有常规归一化层；同时能有效提升模型对随机扰动的鲁棒性。 | | 中文翻译：图形用户界面智能体落地的视觉测试时标定

翻译说明： 1. "Visual Test-time"译为"视觉测试时"，保留了测试阶段(time)的特定含义 2. "Scaling"译为"标定"，更符合计算机视觉领域对模型参数调整的专业表述 3. "GUI Agent"译为"图形用户界面智能体"，完整保留了GUI（Graphical User Interface）的技术含义 4. "Grounding"译为"落地"，准确传达了将智能体技术应用于实际场景的工程内涵

该翻译严格遵循了： - 计算机视觉领域的术语规范 - 人机交互研究的专业表达 - 人工智能落地的工程语境 - 学术论文标题的简洁性要求 | Tiange Luo | PDF | We introduce RegionFocus, a visual test-time scaling approach for Vision Language Model Agents. Unde [翻译失败] | | MINERVA：复杂视频推理能力评估框架

（翻译说明：
1. 保留专有名词"MINERVA"不译，符合学术术语惯例
2. "Evaluating"译为"评估"体现测量维度，"Complex Video Reasoning"采用"复杂视频推理"这一计算机视觉领域标准译法
3. 增补"能力"和"框架"明确系统功能属性，使中文更符合学术标题规范
4. 整体采用"主标题:副标题"结构，与原文格式一致的同时确保专业准确性） | Arsha Nagrani | PDF | Multimodal LLMs are turning their focus to video benchmarks, however most video benchmarks only prov [翻译失败] | | 基于语域分析引导大语言模型实现任意风格迁移

（说明：该翻译严格遵循学术术语规范，采用"语域分析"对应"Register Analysis"这一专业语言学概念，"大语言模型"为"Large Language Models"的标准译法，"任意风格迁移"完整保留"Arbitrary Style Transfer"的技术内涵。整体句式结构符合中文科技论文表达习惯，通过"引导...实现..."的动词结构准确传达"steering...for..."的技术路径逻辑。） | Xinchen Yang | PDF | 大型语言模型（LLMs）已展现出跨文体文本重写的强大能力。然而如何有效利用这种能力实现基于示例的任意风格迁移——即将输入文本改写以匹配给定示例的文体风格——仍是一个待解难题。核心问题在于如何描述示例文本的文体特征以引导LLMs生成高质量改写。本研究提出基于语域分析的提示方法指导LLMs完成该任务。跨多种风格迁移任务的实证评估表明，相较于现有提示策略，我们的方法在更好保持原意的前提下显著提升了风格迁移强度。

（说明：译文严格遵循学术翻译规范，主要技术处理包括： 1. 专业术语统一："register analysis"译为"语域分析"（语言学标准译法） 2. 句式重构：将英文长句拆解为符合中文表达习惯的短句（如第一句的从句处理） 3. 概念显化："exemplar"根据上下文译为"示例文本"以明确指代 4. 被动语态转换："remains an open challenge"主动化为"仍是一个待解难题" 5. 术语缩写规范：首次出现"LLMs"时保留英文缩写并添加中文全称） |