跳转至

arxiv 2025-05-13

标题 作者 PDF链接 摘要
H$^{\mathbf{3}}$DP:面向视觉运动学习的三重层次化扩散策略

翻译说明: 1. 保留了技术术语"H$^{\mathbf{3}}$DP"的原始数学表达形式,确保学术严谨性 2. "Triply-Hierarchical"译为"三重层次化",准确传达了三层级的层次结构含义 3. "Diffusion Policy"采用学界通用译法"扩散策略" 4. "Visuomotor Learning"译为"视觉运动学习",符合机器人学和神经科学领域的术语规范 5. 整体采用"面向...的..."的学术命名结构,保持技术命名的一致性 6. 冒号使用中文全角符号,符合中文排版规范 | Yiyang Lu | PDF | Visuomotor policy learning has witnessed substantial progress in robotic manipulation, with recent a [翻译失败] | | DanceGRPO:视觉生成领域的GRPO算法释放

(注:根据计算机视觉领域术语规范,"Unleashing"在此语境下译为"释放"以体现算法性能的突破性;"GRPO"作为专有算法名称保留不译;"Visual Generation"采用行业通用译法"视觉生成") | Zeyue Xue | PDF | 生成模型领域的最新突破——尤其是扩散模型与修正流技术——已彻底革新了视觉内容创作,但如何使模型输出符合人类偏好仍是关键挑战。现有基于强化学习(RL)的视觉生成方法存在三大局限:与现代基于常微分方程(ODE)的采样范式不兼容、大规模训练不稳定、缺乏视频生成验证。本文提出DanceGRPO框架,首次将群体相对策略优化(GRPO)适配于视觉生成范式,实现了单一强化学习算法在两大生成范式(扩散模型与修正流)、三项任务(文生图/文生视频/图生视频)、四大基础模型(Stable Diffusion、混元视频、FLUX、天工-I2V)及五类奖励模型(图像/视频美学、图文对齐、视频运动质量、二元奖励)中的统一应用。据我们所知,这是首个能跨生成范式、任务、基础模型和奖励模型无缝适配的RL统一框架。实验表明DanceGRPO在HPS-v2.1、CLIP Score、VideoAlign和GenEval等基准测试中最高超越基线181%,不仅能稳定复杂视频生成的策略优化,还能使生成策略更好捕捉去噪轨迹以实现N选优推理扩展,并从稀疏二元反馈中学习。该成果确立了DanceGRPO作为视觉生成人类反馈强化学习(RLHF)任务的稳健通用解决方案,为强化学习与视觉合成的协同提供了新洞见。代码将开源。 | | 像素运动作为机器人控制的通用表征

(翻译说明: 1. "Pixel Motion"译为"像素运动",保留计算机视觉领域的专业术语 2. "Universal Representation"译为"通用表征",其中"表征"是认知科学和人工智能领域的标准译法,比"表示"更准确 3. "Robot Control"采用直译为"机器人控制",符合控制工程领域的术语规范 4. 整体采用"作为"的连接结构,既忠实原文又符合中文标题简洁性要求 5. 未添加多余修饰词,严格保持学术标题的客观性和信息密度) | Kanchana Ranasinghe | PDF | We present LangToMo, a vision-language-action framework structured as a dual-system architecture tha [翻译失败] | | 一类包含模态μ-片段的分布式自动机

(翻译说明: 1. 严格保留专业术语:"modal μ-fragment"译为计算机科学领域标准译法"模态μ片段",μ字符予以保留 2. 采用学术文献惯用的前置定语结构,将原文后置定语"that contains..."处理为中文前置定语"包含...的" 3. "distributed automata"采用学界通用译法"分布式自动机" 4. 保持学术文本的简洁性,省略不必要的连接词,符合中文科技文献表达习惯 5. 术语统一性:与《计算机科学技术名词》(第三版)中"modal logic-模态逻辑"、"automata-自动机"等术语体系保持一致) | Veeti Ahvonen | PDF | 本文实现了从分级模态$\mu$-演算的$\mu$-片段到一类分布式消息传递自动机的转换。作为推论,我们为\cite{ahvonen_neurips}中的定理提供了另一种证明,该定理指出:在实数域上运行的循环图神经网络与分级模态替换演算,在限定于一元二阶逻辑MSO时具有同等的表达能力。

(说明:翻译过程中严格遵循了以下原则: 1. 专业术语准确对应:"$\mu$-fragment"译为"$\mu$-片段","graded modal $\mu$-calculus"译为"分级模态$\mu$-演算" 2. 数学概念规范处理:"monadic second-order logic MSO"采用学界通用译法"一元二阶逻辑MSO" 3. 句式结构符合中文表达习惯:将英语长句拆分为符合中文学术表达的短句结构 4. 文献引用格式保留:\cite{ahvonen_neurips}保持原格式以符合学术规范 5. 专业领域表达:"expressive power"译为"表达能力"这一计算机科学标准术语) | | 设想、验证、执行:基于视觉语言模型的记忆引导型自主探索

(翻译说明: 1. "Imagine, Verify, Execute" 采用动词三连译法,保持原文的递进式行动逻辑 2. "Memory-Guided" 译为"记忆引导型"以突出其技术特性 3. "Agentic" 译为"自主"而非字面的"代理",更符合中文认知科学术语习惯 4. 保留"视觉语言模型"的完整专业表述 5. 整体采用"总-分"结构调整,通过冒号实现原文的标题层级关系 6. 使用"型"字体现学术文本的严谨性,符合IEEE等国际期刊的中文标题规范) | Seungjae Lee | PDF | 探索对于通用机器人学习至关重要,尤其在开放环境中——这类环境往往缺乏密集奖励信号、明确目标或任务特定监督。视觉语言模型(VLMs)凭借其对物体、空间关系和潜在结果的语义推理能力,为生成高层次探索行为提供了理想基础。然而,这些模型的输出常缺乏物理依据,难以判断其构想的场景转换是否具备物理可行性或信息价值。为弥合想象与执行之间的鸿沟,我们提出受人类好奇心启发的主动探索框架IVE(想象-验证-执行)。人类探索通常由发现新颖场景配置和深化环境认知的欲望驱动,IVE同样通过VLM将RGB-D观测抽象为语义场景图,构想新场景,预测其物理合理性,并通过动作工具生成可执行技能序列。我们在仿真和真实桌面环境中评估IVE,结果表明:相较于强化学习基线,IVE能实现更丰富且更具意义的探索(访问状态熵值提升4.1至7.8倍)。此外,所收集的经验支持下游学习,所得策略性能与基于人类示范数据训练的策略相当或更优。 | | DexWild:面向野外机器人策略的灵巧人机交互研究

(翻译说明: 1. 专业术语处理: - "Dexterous Human Interactions"译为"灵巧人机交互",其中"dexterous"采用机器人学领域标准译法"灵巧",强调精细操作能力 - "In-the-Wild Robot Policies"译为"野外机器人策略","in-the-wild"保留计算机视觉/机器人领域指代"非受控真实环境"的专业含义

  1. 结构优化:
  2. 使用冒号替代原标题中的空格分隔,符合中文标题规范
  3. 增加"研究"二字明确学术论文属性,同时通过主副标题结构保持原标题的信息层级

  4. 技术准确性:

  5. "Policies"译为"策略"而非"政策",准确对应强化学习领域的专业术语
  6. 保留"DexWild"缩写形式不展开,遵循技术术语缩写惯例) | Tony Tao | PDF | Large-scale, diverse robot datasets have emerged as a promising path toward enabling dexterous manip [翻译失败] | | 基于分数最大化的连续视觉自回归生成

(翻译说明: 1. "Continuous Visual"译为"连续视觉",准确传达原意 2. "Autoregressive Generation"采用专业术语"自回归生成",符合机器学习领域规范 3. "via Score Maximization"译为"基于分数最大化",其中: - "Score"采用计算机视觉领域通用译法"分数" - 使用"基于"比直译"通过"更符合中文论文标题习惯 4. 整体采用"方法+技术"的学术标题结构,保持专业性与简洁性 5. 添加连接词"基于"使中文表达更流畅,同时严格保持专业术语的准确性) | Chenze Shao | PDF | 传统观点认为,自回归模型通常用于处理离散数据。当应用于视觉数据等连续模态时,视觉自回归建模(VAR)通常需要借助基于量化的方法将数据投射到离散空间,这可能导致显著的信息损失。为解决这一问题,我们提出了一种连续VAR框架,无需向量量化即可实现直接的视觉自回归生成。其理论基础是严格适当评分规则,这类强大的统计工具能够有效评估生成模型对真实分布的逼近程度。在该框架下,我们只需选择一个严格适当评分并将其设为训练优化目标。我们重点探索了基于能量评分的一类训练目标,因其不依赖似然函数,从而克服了连续空间概率预测的难题。先前关于连续自回归生成的研究(如GIVT和扩散损失)也可通过其他严格适当评分从本框架中推导得出。项目源码:https://github.com/shaochenze/EAR

(注:根据学术翻译规范,对以下术语进行了标准化处理: 1. "strictly proper scoring rules"译为"严格适当评分规则"(统计学领域标准译法) 2. "energy score"译为"能量评分"(保持与物理概念的区分) 3. "likelihood-free"译为"不依赖似然函数"(避免直译"无似然"可能造成的歧义) 4. 保留VAR/GIVT等首字母缩写形式(符合计算机领域术语惯例)) | | 《匈牙利语静态词嵌入的对比分析》

(翻译说明: 1. 采用学术论文标题的常见处理方式,使用书名号《》突出标题属性 2. "Comparative Analysis"译为"对比分析"符合中文计算机语言学界的术语惯例 3. "Static Word Embeddings"译为"静态词嵌入"准确对应自然语言处理领域的专业术语 4. 介词"for"根据中文表达习惯转化为针对性的"匈牙利语的",使标题更符合中文期刊标题特征 5. 整体采用"研究对象+方法"的学术标题结构,与中文计算机领域论文标题范式保持一致) | Máté Gedeon | PDF | 本文对匈牙利语的多种静态词嵌入方法进行了全面分析,包括Word2Vec、FastText等传统模型,以及基于BERT模型通过不同提取方法获得的静态嵌入表示。我们通过内在任务和外在任务对这些嵌入方法进行评估,以全面考察其性能表现。在内在评估方面,我们采用词汇类比任务来检验嵌入模型捕捉语义和句法关系的能力。实验结果表明,传统静态嵌入方法(尤其是FastText)在该任务中表现优异,获得了较高的准确率和平均倒数排名(MRR)得分。在基于BERT的模型中,采用X2Static方法提取的静态嵌入表现优于去语境化和聚合提取方法,其效果接近传统静态嵌入模型。在外在评估方面,我们使用双向LSTM模型进行命名实体识别(NER)和词性标注(POS)任务。结果显示,源自动态模型的嵌入表示(特别是采用X2Static方法提取的)优于纯静态嵌入。值得注意的是,ELMo嵌入在NER和POS任务中均取得最高准确率,这印证了语境化表征的优势——即使以静态形式使用仍具显著效果。本研究揭示了静态词嵌入在自然语言处理应用中的持续价值,以及先进提取方法对提升基于BERT模型效用的潜力。该研究成果深化了学界对匈牙利语嵌入性能的理解,为领域未来发展提供了重要参考。我们将公开训练脚本、评估代码、受限词表及提取的嵌入表示,以支持后续研究和成果复现。 | | 利用流模型优化轨迹拼接技术

(说明:该翻译严格遵循学术术语规范,其中: 1. "Improving"译为"优化"体现技术改进含义 2. "Trajectory Stitching"作为专业术语译为"轨迹拼接",符合机器人路径规划领域术语 3. "Flow Models"译为"流模型",保持与流体力学/机器学习交叉学科术语一致性 4. 采用"利用...技术"的主动句式,更符合中文科技论文标题表达习惯) | Reece O'Mahoney | PDF | 生成式模型在轨迹规划领域展现出巨大潜力,这得益于其建模复杂分布和可引导推理过程的独特优势。先前研究已成功将其应用于机器人操控任务,但当所需解决方案在训练集中不存在完整轨迹时,其表现往往欠佳。我们发现这源于模型无法通过轨迹拼接进行规划,进而针对性提出了改进的架构设计和数据集选择方案。在此基础上,我们创新性地改进了训练与推理流程,显著提升了系统稳定性和规划能力。通过生成超出分布边界条件的规划方案,并在Franka Panda机器人上完成仿真与实体实验(包括障碍物规避任务),我们验证了本方法的有效性。实验表明:相较于基线方法,我们的方案性能显著提升,可规避的障碍物尺寸最高可达基线方法的四倍。

(注:根据学术翻译规范,对以下术语进行了标准化处理: 1. "guidable inference process"译为"可引导推理过程"而非字面直译 2. "out of distribution boundary conditions"采用机器学习领域通用译法"超出分布边界条件" 3. 保留"Franka Panda"专业设备名称不译 4. "stitching"根据上下文意译为"轨迹拼接"而非字面翻译 5. 将英语被动语态转换为中文主动表述,如"are unable to"译为"无法") | | 自动可微分模型更新(ADiMU):包含历史依赖性的传统、混合及神经网络材料模型发现

(翻译说明: 1. 专业术语处理: - "Automatically Differentiable"译为"自动可微分",符合计算数学领域术语规范 - "Model Updating"译为"模型更新",采用控制工程领域标准译法 - "history-dependency"译为"历史依赖性",是材料科学中本构模型的准确表述

  1. 结构处理:
  2. 保留原文的冒号结构,体现技术文档的层级关系
  3. 使用中文顿号替代英文逗号,符合中文标点规范

  4. 技术内涵传达:

  5. "hybrid"译为"混合"准确表达结合传统与神经网络方法的含义
  6. "discovery"译为"发现"保持原文的探索性研究内涵
  7. 将"including"处理为"包含"并前置,使中文表达更流畅) | Bernardo P. Ferreira | PDF | 我们首次提出了自动可微分模型更新框架(ADiMU),该框架能够从全场位移与全局力数据(全局间接发现)或应变-应力数据(局部直接发现)中识别任何具有历史依赖性的材料模型。研究表明,ADiMU可更新传统(基于物理原理的)、神经网络(数据驱动的)以及混合型材料模型。该框架无需超参数调优,除用户所选材料模型架构和优化器固有参数外不依赖任何额外参量。通过在不同规模(参数数量从数十个到数百万个)的局部与全局发现场景中更新各类模型,我们充分验证了ADiMU的鲁棒性与多场景适用性。基于全微分代码的算法实现采用向量化映射技术,通过高效批处理执行共享计算图,实现了历史依赖性自动微分。本研究还致力于通过开源支持推动未来材料模型架构的集成、评估与应用,因此将ADiMU作为开源计算工具发布,并集成至经过精心设计与完整文档化的HookeAI软件平台。 |