arxiv 2025-05-02

标题	作者	PDF链接	摘要
基于视频扩散模型的可控天气合成与消除技术

（翻译说明： 1. 专业术语处理："Video Diffusion Models"译为"视频扩散模型"，保留技术术语的准确性 2. 动词结构转换：将英文的"Synthesis and Removal"名词结构转化为中文更常见的动宾结构"合成与消除" 3. 逻辑关系显化：增加"基于"明确技术实现路径，符合中文科技文献表达习惯 4. 语序调整：将"with"引导的伴随状语提前，符合中文"先条件后结论"的表述逻辑 5. 技术准确性：确保"diffusion models"这个核心机器学习概念的标准译法，避免歧义 6. 简洁性处理：在保持专业性的前提下，使用"技术"作为总括词替代原文隐含的技术应用含义） | Chih-Hao Lin | PDF | 在视频中生成逼真且可控的天气效果对众多应用具有重要价值。基于物理的天气模拟需要精确的场景重建，难以扩展到自然场景视频；而现有视频编辑技术往往缺乏真实性与可控性。本研究提出WeatherWeaver——一种视频扩散模型，无需3D建模即可将多样化天气效果（包括雨、雪、雾、云）直接合成至任意输入视频。该模型能精确控制天气强度，支持混合多种天气类型，确保真实性与适应性。针对配对训练数据稀缺问题，我们创新性地结合合成视频、生成式图像编辑和自动标注的真实视频构建数据策略。大量实验表明，本方法在天气模拟与消除任务上超越现有最优技术，能在各类真实视频中生成高质量、物理合理且保持场景特征的结果。 | | T2I-R1：通过协作式语义层级与词元层级思维链增强图像生成

（翻译说明： 1. 保留技术代号"T2I-R1"的原始形式，符合学术文献惯例 2. "Reinforcing"译为"增强"准确体现技术改进性质 3. "Collaborative"译为"协作式"突出多层级协同特点 4. "Semantic-level and Token-level"采用"语义层级与词元层级"的专业译法 5. "CoT"译为"思维链"是Chain-of-Thought在AI领域的标准译名 6. 整体采用"通过...增强..."的句式结构，既保持学术严谨性又符合中文表达习惯） | Dongzhi Jiang | PDF | Recent advancements in large language models have demonstrated how chain-of-thought (CoT) and reinfo [翻译失败] | | RayZer：一种自监督的大视角合成模型

翻译说明： 1. "RayZer"作为专有名称保留不译 2. "Self-supervised"译为"自监督"，这是机器学习领域的标准术语 3. "Large View Synthesis"译为"大视角合成"，其中： - "Large View"指大范围/宽视角的观察角度 - "Synthesis"在计算机视觉/图形学中固定译为"合成" 4. "Model"译为"模型"，符合人工智能领域的术语规范 5. 整体采用"定语+中心词"的中文技术命名结构，保持学术文本的简洁性和专业性 | Hanwen Jiang | PDF | We present RayZer, a self-supervised multi-view 3D Vision model trained without any 3D supervision, [翻译失败] | | 机器人视觉指令

（说明：该翻译严格遵循学术术语规范，采用"机器人"对应"robotic"体现技术主体，"视觉"直译"visual"保持专业一致性，"指令"对应"instruction"准确传达技术操作内涵。整体采用偏正结构名词短语，符合中文科技文献表述习惯，同时保留原文的精确性和专业性特征。） | Yanbang Li | PDF | 近年来，自然语言已成为人机交互的主要媒介。然而，其固有的空间描述精度不足为机器人控制带来了语义模糊性与指令冗余等挑战。为此，我们提出机器人视觉指令（RoVI）这一创新范式——通过以物体为中心的手绘符号表征来引导机器人任务。RoVI通过二维草图将时空信息编码为人类可理解的视觉指令，利用箭头、圆圈、色彩及数字等元素指导三维机器人操作。为使机器人准确理解RoVI并生成相应动作，我们构建了视觉指令具身工作流（VIEW）：该流程通过视觉语言模型（VLMs）解析RoVI输入，基于关键点提取技术从二维像素空间解码时空约束，最终将其转化为可执行的三维动作序列。我们还构建了包含15,000个样本的专用数据集，用于微调边缘部署的小型VLMs，使其有效掌握RoVI的解析能力。该方法在真实与仿真环境下的11项新任务中通过严格验证，展现出卓越的泛化能力。值得注意的是，在涉及多步操作、动态干扰及轨迹跟踪等复杂要求的未知现实任务中，VIEW实现了87.5%的成功率。本文代码与数据集即将开源。 | | 通过可扩展城市模拟实现微型交通自主化

（翻译说明： 1. "Towards"译为"实现"以体现目标导向性 2. "Autonomous Micromobility"采用专业术语直译"微型交通自主化"，其中： - Micromobility保留行业通用译法"微型交通" - Autonomous译为"自主化"而非"自动化"，更符合交通工程学术惯例 3. "Scalable Urban Simulation"译为"可扩展城市模拟"： - Scalable采用计算机科学标准译法"可扩展" - 保持"urban simulation"作为专业术语的完整性 4. 整体采用"通过...实现..."的句式结构，符合中文科技论文标题规范 5. 未添加冗余修饰词，确保学术翻译的简洁性和准确性） | Wayne Wu | PDF | 微出行（Micromobility）是指利用轻型移动设备在城市公共空间运行的交通方式，如配送机器人和电动代步车等，正逐渐成为传统机动车出行的理想替代方案。当前微出行设备主要依赖人工操作（现场或远程控制），在充满不可预测障碍物与行人的繁忙城市环境中，其安全性和运行效率面临严峻挑战。通过人工智能体辅助人类操控微出行设备，可有效提升安全性与运行效率。本研究提出了一种可扩展的城市仿真解决方案以推进自主微出行技术发展：首先构建URBAN-SIM——一个用于在交互式城市场景中进行具身智能体大规模训练的高性能机器人学习平台。该平台包含三大核心模块：分层式城市生成管线、交互式动力学生成策略和异步场景采样方案，可显著提升仿真环境中机器人学习的多样性、真实性和训练效率；继而推出URBAN-BENCH评估套件，通过系列核心任务与基准测试系统评估AI智能体实现自主微出行所需的多维能力。该套件基于智能体的三大核心技能（城市移动、城市导航和城市穿越）设计了八项测试任务，并对轮式与足式等不同形态的四类机器人进行跨任务评估。多样化地形与城市结构下的实验数据揭示了各类机器人的优势与局限性。 | | GuideSR：重新思考基于扩散模型的一步式高保真超分辨率引导机制

（翻译说明： 1. 保留技术术语"Diffusion-Based"的规范译法"基于扩散模型" 2. "One-Step"译为"一步式"以强调其单次推理特性 3. "High-Fidelity"采用"高保真"这一工程领域标准译法 4. "Guidance"译为"引导机制"体现其系统性方法特征 5. 通过冒号保持原标题的学术论文标题结构 6. "Rethinking"译为"重新思考"准确传达批判性改进的研究立场 7. 整体符合计算机视觉领域论文标题的翻译规范） | Aditya Arora | PDF | 本文提出GuideSR——一种新型单步扩散式图像超分辨率模型，专为提升图像保真度而设计。现有基于扩散的超分辨率方法通常通过添加对VAE降采样退化输入的额外条件约束，将预训练生成模型适配于图像复原任务，但往往会损害结构保真度。GuideSR通过引入双分支架构突破这一局限：（1）指导分支保留原始分辨率退化输入的高保真结构；（2）扩散分支利用预训练潜在扩散模型提升感知质量。与传统条件机制不同，我们的指导分支创新性地结合了具有通道注意力的全分辨率块（FRBs）与带引导注意力的图像指导网络（IGN），为图像复原任务定制了专属结构。通过将细节结构信息直接嵌入复原流程，GuideSR能生成更清晰且视觉一致性更强的结果。在基准数据集上的大量实验表明，GuideSR在保持单步方法低计算成本的同时实现了最先进性能，在真实场景数据集上最高可获得1.39dB的PSNR提升。我们的方法在PSNR、SSIM、LPIPS、DISTS和FID等各类参考指标上均优于现有方法，为真实场景图像复原提供了实用化突破。 | | 论高斯化表征的重要性

（说明：根据学术翻译规范，此处采用"高斯化"作为"Gaussianizing"的标准译法，该术语在概率论与统计学领域具有明确对应概念。"表征"比"表示"更符合"representations"在机器学习/深度学习语境下的专业表述，指代数据经过神经网络转换后的特征表达。标题采用"论...重要性"的经典学术句式，既保持原文信息密度，又符合中文论文标题的简洁性要求。） | Daniel Eftekhari | PDF | 正态分布在信息论中占据核心地位——它既是理想信号的最优分布，又是干扰噪声的最劣分布，具有所有概率分布中最强的表征能力，并能实现联合分布中不相关性与独立性的等价转换。在深度神经网络中，对各层激活值进行均值方差归一化对促进模型有效训练具有显著作用，但学界鲜少明确规范这些激活值应遵循的具体分布形态及其实现方法。受正态分布信息理论特性的启发，我们不仅解决了这一问题，同时提出了正态归一化（Normality Normalization）：这是一种通过幂变换促使神经网络特征表示趋近正态分布的新型归一化层，并在训练过程中引入加性高斯噪声。实验从多维度验证了正态归一化的有效性：在多种主流模型与数据集组合上展现出卓越的泛化性能；对模型宽度、深度、训练小批量规模等常见变量均保持稳健表现；可无缝替代传统归一化层；并能有效提升模型对随机扰动的鲁棒性。 | | 中文翻译：图形用户界面智能体接地的视觉测试时标定

说明： 1. "Visual Test-time"译为"视觉测试时"，准确传达了在测试阶段进行视觉处理的时间特性 2. "Scaling"译为"标定"，在计算机视觉和机器学习语境中更符合技术含义 3. "GUI Agent Grounding"译为"图形用户界面智能体接地"： - "GUI"采用业界通用译法"图形用户界面" - "Agent"译为"智能体"符合人工智能领域术语规范 - "Grounding"译为"接地"准确表达了人机交互中使智能体理解并扎根于具体界面环境的含义

该译文严格保持学术术语的准确性，同时符合中文表达习惯，完整保留了原标题的技术内涵。 | Tiange Luo | PDF | 我们提出RegionFocus——一种面向视觉语言模型智能体的视觉测试时缩放方法。由于GUI图像的视觉复杂性及大量界面元素，网页理解面临严峻挑战，导致动作选择准确性难以保障。该方法通过动态放大相关区域来减少背景干扰，显著提升 grounding 准确率。为支持这一过程，我们创新性地提出"图像即地图"机制，逐步可视化关键地标点，既提供透明的动作记录，又帮助智能体在候选动作中有效抉择。实验表明，即便采用简单的区域选择策略，该方法在两大前沿开源视觉语言模型智能体（UI-TARS与Qwen2.5-VL）基础上，仍实现了Screenspot-pro基准28%以上、WebVoyager基准24%以上的显著性能提升，充分验证了视觉测试时缩放技术在交互场景的有效性。通过将RegionFocus应用于Qwen2.5-VL-72B模型，我们在ScreenSpot-Pro基准上创下了61.6% grounding准确率的最新记录。代码已开源于https://github.com/tiangeluo/RegionFocus。

（注：grounding作为人机交互领域术语保留英文原词，指"视觉元素与语义理解的锚定关系"；GUI为通用技术术语保留缩写；模型名称Qwen2.5-VL-72B等保持原始命名格式） | | MINERVA：复杂视频推理能力评估框架

（注：根据学术翻译规范，此处采用以下处理：
1. 保留项目名称"MINERVA"作为专有名词不译，符合计算机领域术语惯例
2. 副标题采用"评估框架"的增译手法，使中文更符合学术表述完整性
3. "Complex Video Reasoning"译为"复杂视频推理能力"，通过添加"能力"二字更准确传达原文的评估维度
4. 整体结构采用项目名称+功能说明的学术标题目录格式） | Arsha Nagrani | PDF | Multimodal LLMs are turning their focus to video benchmarks, however most video benchmarks only prov [翻译失败] | | 基于语域分析的大语言模型导向机制实现任意风格迁移

（说明：该翻译严格遵循学术术语规范，处理要点如下： 1. "Register Analysis"译为"语域分析"，采用计算语言学标准译法 2. "Steering...with"译为"导向机制"，准确传达控制引导的技术内涵 3. "Arbitrary Style Transfer"译为"任意风格迁移"，符合自然语言处理领域术语惯例 4. 整体采用"机制实现"的主动句式，既保持学术严谨性又符合中文表达习惯 5. 通过"基于...实现..."的句式结构，清晰呈现技术路径与目标的关系） | Xinchen Yang | PDF | 大型语言模型（LLMs）已展现出跨文体文本重写的强大能力。然而，如何有效利用这种能力实现基于示例的任意风格迁移——即将输入文本改写以匹配给定示例的文体——仍是一个待解的难题。核心问题在于如何描述示例文本的文体特征以指导LLMs生成高质量改写。本研究提出一种基于语域分析的提示方法，用于引导LLMs完成此项任务。跨多个风格迁移任务的实证评估表明，相较于现有提示策略，我们的方法在增强风格转换强度的同时，能更有效地保持原文语义。 |