arxiv 2025-05-13

标题	作者	PDF链接	摘要
H$^{\mathbf{3}}$DP：面向视觉运动学习的三重层次化扩散策略

翻译说明： 1. 保留了技术术语"H$^{\mathbf{3}}$DP"的原始数学表达形式，确保学术严谨性 2. "Triply-Hierarchical"译为"三重层次化"，准确传达了三层级的层次结构含义 3. "Diffusion Policy"采用学界通用译法"扩散策略" 4. "Visuomotor Learning"译为"视觉运动学习"，符合机器人学和神经科学领域的术语规范 5. 整体采用"面向...的..."的学术命名结构，保持技术命名的一致性 6. 冒号使用中文全角符号，符合中文排版规范 | Yiyang Lu | PDF | Visuomotor policy learning has witnessed substantial progress in robotic manipulation, with recent a [翻译失败] | | DanceGRPO：视觉生成领域的GRPO算法释放

（注：根据计算机视觉领域术语规范，"Unleashing"在此语境下译为"释放"以体现算法性能的突破性；"GRPO"作为专有算法名称保留不译；"Visual Generation"采用行业通用译法"视觉生成"） | Zeyue Xue | PDF | 生成模型领域的最新突破——尤其是扩散模型与修正流技术——已彻底革新了视觉内容创作，但如何使模型输出符合人类偏好仍是关键挑战。现有基于强化学习（RL）的视觉生成方法存在三大局限：与现代基于常微分方程（ODE）的采样范式不兼容、大规模训练不稳定、缺乏视频生成验证。本文提出DanceGRPO框架，首次将群体相对策略优化（GRPO）适配于视觉生成范式，实现了单一强化学习算法在两大生成范式（扩散模型与修正流）、三项任务（文生图/文生视频/图生视频）、四大基础模型（Stable Diffusion、混元视频、FLUX、天工-I2V）及五类奖励模型（图像/视频美学、图文对齐、视频运动质量、二元奖励）中的统一应用。据我们所知，这是首个能跨生成范式、任务、基础模型和奖励模型无缝适配的RL统一框架。实验表明DanceGRPO在HPS-v2.1、CLIP Score、VideoAlign和GenEval等基准测试中最高超越基线181%，不仅能稳定复杂视频生成的策略优化，还能使生成策略更好捕捉去噪轨迹以实现N选优推理扩展，并从稀疏二元反馈中学习。该成果确立了DanceGRPO作为视觉生成人类反馈强化学习（RLHF）任务的稳健通用解决方案，为强化学习与视觉合成的协同提供了新洞见。代码将开源。 | | 像素运动作为机器人控制的通用表征

（翻译说明： 1. "Pixel Motion"译为"像素运动"，保留计算机视觉领域的专业术语 2. "Universal Representation"译为"通用表征"，其中"表征"是认知科学和人工智能领域的标准译法，比"表示"更准确 3. "Robot Control"采用直译为"机器人控制"，符合控制工程领域的术语规范 4. 整体采用"作为"的连接结构，既忠实原文又符合中文标题简洁性要求 5. 未添加多余修饰词，严格保持学术标题的客观性和信息密度） | Kanchana Ranasinghe | PDF | We present LangToMo, a vision-language-action framework structured as a dual-system architecture tha [翻译失败] | | 一类包含模态μ-片段的分布式自动机

（翻译说明： 1. 严格保留专业术语："modal μ-fragment"译为计算机科学领域标准译法"模态μ片段"，μ字符予以保留 2. 采用学术文献惯用的前置定语结构，将原文后置定语"that contains..."处理为中文前置定语"包含...的" 3. "distributed automata"采用学界通用译法"分布式自动机" 4. 保持学术文本的简洁性，省略不必要的连接词，符合中文科技文献表达习惯 5. 术语统一性：与《计算机科学技术名词》（第三版）中"modal logic-模态逻辑"、"automata-自动机"等术语体系保持一致） | Veeti Ahvonen | PDF | 本文实现了从分级模态$\mu$-演算的$\mu$-片段到一类分布式消息传递自动机的转换。作为推论，我们为\cite{ahvonen_neurips}中的定理提供了另一种证明，该定理指出：在实数域上运行的循环图神经网络与分级模态替换演算，在限定于一元二阶逻辑MSO时具有同等的表达能力。

（说明：翻译过程中严格遵循了以下原则： 1. 专业术语准确对应："$\mu$-fragment"译为"$\mu$-片段"，"graded modal $\mu$-calculus"译为"分级模态$\mu$-演算" 2. 数学概念规范处理："monadic second-order logic MSO"采用学界通用译法"一元二阶逻辑MSO" 3. 句式结构符合中文表达习惯：将英语长句拆分为符合中文学术表达的短句结构 4. 文献引用格式保留：\cite{ahvonen_neurips}保持原格式以符合学术规范 5. 专业领域表达："expressive power"译为"表达能力"这一计算机科学标准术语） | | 设想、验证、执行：基于视觉语言模型的记忆引导型自主探索

（翻译说明： 1. "Imagine, Verify, Execute" 采用动词三连译法，保持原文的递进式行动逻辑 2. "Memory-Guided" 译为"记忆引导型"以突出其技术特性 3. "Agentic" 译为"自主"而非字面的"代理"，更符合中文认知科学术语习惯 4. 保留"视觉语言模型"的完整专业表述 5. 整体采用"总-分"结构调整，通过冒号实现原文的标题层级关系 6. 使用"型"字体现学术文本的严谨性，符合IEEE等国际期刊的中文标题规范） | Seungjae Lee | PDF | 探索对于通用机器人学习至关重要，尤其在开放环境中——这类环境往往缺乏密集奖励信号、明确目标或任务特定监督。视觉语言模型（VLMs）凭借其对物体、空间关系和潜在结果的语义推理能力，为生成高层次探索行为提供了理想基础。然而，这些模型的输出常缺乏物理依据，难以判断其构想的场景转换是否具备物理可行性或信息价值。为弥合想象与执行之间的鸿沟，我们提出受人类好奇心启发的主动探索框架IVE（想象-验证-执行）。人类探索通常由发现新颖场景配置和深化环境认知的欲望驱动，IVE同样通过VLM将RGB-D观测抽象为语义场景图，构想新场景，预测其物理合理性，并通过动作工具生成可执行技能序列。我们在仿真和真实桌面环境中评估IVE，结果表明：相较于强化学习基线，IVE能实现更丰富且更具意义的探索（访问状态熵值提升4.1至7.8倍）。此外，所收集的经验支持下游学习，所得策略性能与基于人类示范数据训练的策略相当或更优。 | | DexWild：面向野外机器人策略的灵巧人机交互研究

（翻译说明： 1. 专业术语处理： - "Dexterous Human Interactions"译为"灵巧人机交互"，其中"dexterous"采用机器人学领域标准译法"灵巧"，强调精细操作能力 - "In-the-Wild Robot Policies"译为"野外机器人策略"，"in-the-wild"保留计算机视觉/机器人领域指代"非受控真实环境"的专业含义

结构优化：
使用冒号替代原标题中的空格分隔，符合中文标题规范
增加"研究"二字明确学术论文属性，同时通过主副标题结构保持原标题的信息层级
技术准确性：
"Policies"译为"策略"而非"政策"，准确对应强化学习领域的专业术语
保留"DexWild"缩写形式不展开，遵循技术术语缩写惯例） | Tony Tao | PDF | Large-scale, diverse robot datasets have emerged as a promising path toward enabling dexterous manip [翻译失败] | | 基于分数最大化的连续视觉自回归生成

（翻译说明： 1. "Continuous Visual"译为"连续视觉"，准确传达原意 2. "Autoregressive Generation"采用专业术语"自回归生成"，符合机器学习领域规范 3. "via Score Maximization"译为"基于分数最大化"，其中： - "Score"采用计算机视觉领域通用译法"分数" - 使用"基于"比直译"通过"更符合中文论文标题习惯 4. 整体采用"方法+技术"的学术标题结构，保持专业性与简洁性 5. 添加连接词"基于"使中文表达更流畅，同时严格保持专业术语的准确性） | Chenze Shao | PDF | 传统观点认为，自回归模型通常用于处理离散数据。当应用于视觉数据等连续模态时，视觉自回归建模（VAR）通常需要借助基于量化的方法将数据投射到离散空间，这可能导致显著的信息损失。为解决这一问题，我们提出了一种连续VAR框架，无需向量量化即可实现直接的视觉自回归生成。其理论基础是严格适当评分规则，这类强大的统计工具能够有效评估生成模型对真实分布的逼近程度。在该框架下，我们只需选择一个严格适当评分并将其设为训练优化目标。我们重点探索了基于能量评分的一类训练目标，因其不依赖似然函数，从而克服了连续空间概率预测的难题。先前关于连续自回归生成的研究（如GIVT和扩散损失）也可通过其他严格适当评分从本框架中推导得出。项目源码：https://github.com/shaochenze/EAR

（注：根据学术翻译规范，对以下术语进行了标准化处理： 1. "strictly proper scoring rules"译为"严格适当评分规则"（统计学领域标准译法） 2. "energy score"译为"能量评分"（保持与物理概念的区分） 3. "likelihood-free"译为"不依赖似然函数"（避免直译"无似然"可能造成的歧义） 4. 保留VAR/GIVT等首字母缩写形式（符合计算机领域术语惯例）） | | 《匈牙利语静态词嵌入的对比分析》

（翻译说明： 1. 采用学术论文标题的常见处理方式，使用书名号《》突出标题属性 2. "Comparative Analysis"译为"对比分析"符合中文计算机语言学界的术语惯例 3. "Static Word Embeddings"译为"静态词嵌入"准确对应自然语言处理领域的专业术语 4. 介词"for"根据中文表达习惯转化为针对性的"匈牙利语的"，使标题更符合中文期刊标题特征 5. 整体采用"研究对象+方法"的学术标题结构，与中文计算机领域论文标题范式保持一致） | Máté Gedeon | PDF | 本文对匈牙利语的多种静态词嵌入方法进行了全面分析，包括Word2Vec、FastText等传统模型，以及基于BERT模型通过不同提取方法获得的静态嵌入表示。我们通过内在任务和外在任务对这些嵌入方法进行评估，以全面考察其性能表现。在内在评估方面，我们采用词汇类比任务来检验嵌入模型捕捉语义和句法关系的能力。实验结果表明，传统静态嵌入方法（尤其是FastText）在该任务中表现优异，获得了较高的准确率和平均倒数排名（MRR）得分。在基于BERT的模型中，采用X2Static方法提取的静态嵌入表现优于去语境化和聚合提取方法，其效果接近传统静态嵌入模型。在外在评估方面，我们使用双向LSTM模型进行命名实体识别（NER）和词性标注（POS）任务。结果显示，源自动态模型的嵌入表示（特别是采用X2Static方法提取的）优于纯静态嵌入。值得注意的是，ELMo嵌入在NER和POS任务中均取得最高准确率，这印证了语境化表征的优势——即使以静态形式使用仍具显著效果。本研究揭示了静态词嵌入在自然语言处理应用中的持续价值，以及先进提取方法对提升基于BERT模型效用的潜力。该研究成果深化了学界对匈牙利语嵌入性能的理解，为领域未来发展提供了重要参考。我们将公开训练脚本、评估代码、受限词表及提取的嵌入表示，以支持后续研究和成果复现。 | | 利用流模型优化轨迹拼接技术

（说明：该翻译严格遵循学术术语规范，其中： 1. "Improving"译为"优化"体现技术改进含义 2. "Trajectory Stitching"作为专业术语译为"轨迹拼接"，符合机器人路径规划领域术语 3. "Flow Models"译为"流模型"，保持与流体力学/机器学习交叉学科术语一致性 4. 采用"利用...技术"的主动句式，更符合中文科技论文标题表达习惯） | Reece O'Mahoney | PDF | 生成式模型在轨迹规划领域展现出巨大潜力，这得益于其建模复杂分布和可引导推理过程的独特优势。先前研究已成功将其应用于机器人操控任务，但当所需解决方案在训练集中不存在完整轨迹时，其表现往往欠佳。我们发现这源于模型无法通过轨迹拼接进行规划，进而针对性提出了改进的架构设计和数据集选择方案。在此基础上，我们创新性地改进了训练与推理流程，显著提升了系统稳定性和规划能力。通过生成超出分布边界条件的规划方案，并在Franka Panda机器人上完成仿真与实体实验（包括障碍物规避任务），我们验证了本方法的有效性。实验表明：相较于基线方法，我们的方案性能显著提升，可规避的障碍物尺寸最高可达基线方法的四倍。

（注：根据学术翻译规范，对以下术语进行了标准化处理： 1. "guidable inference process"译为"可引导推理过程"而非字面直译 2. "out of distribution boundary conditions"采用机器学习领域通用译法"超出分布边界条件" 3. 保留"Franka Panda"专业设备名称不译 4. "stitching"根据上下文意译为"轨迹拼接"而非字面翻译 5. 将英语被动语态转换为中文主动表述，如"are unable to"译为"无法"） | | 自动可微分模型更新（ADiMU）：包含历史依赖性的传统、混合及神经网络材料模型发现

（翻译说明： 1. 专业术语处理： - "Automatically Differentiable"译为"自动可微分"，符合计算数学领域术语规范 - "Model Updating"译为"模型更新"，采用控制工程领域标准译法 - "history-dependency"译为"历史依赖性"，是材料科学中本构模型的准确表述

结构处理：
保留原文的冒号结构，体现技术文档的层级关系
使用中文顿号替代英文逗号，符合中文标点规范
技术内涵传达：
"hybrid"译为"混合"准确表达结合传统与神经网络方法的含义
"discovery"译为"发现"保持原文的探索性研究内涵
将"including"处理为"包含"并前置，使中文表达更流畅） | Bernardo P. Ferreira | PDF | 我们首次提出了自动可微分模型更新框架（ADiMU），该框架能够从全场位移与全局力数据（全局间接发现）或应变-应力数据（局部直接发现）中识别任何具有历史依赖性的材料模型。研究表明，ADiMU可更新传统（基于物理原理的）、神经网络（数据驱动的）以及混合型材料模型。该框架无需超参数调优，除用户所选材料模型架构和优化器固有参数外不依赖任何额外参量。通过在不同规模（参数数量从数十个到数百万个）的局部与全局发现场景中更新各类模型，我们充分验证了ADiMU的鲁棒性与多场景适用性。基于全微分代码的算法实现采用向量化映射技术，通过高效批处理执行共享计算图，实现了历史依赖性自动微分。本研究还致力于通过开源支持推动未来材料模型架构的集成、评估与应用，因此将ADiMU作为开源计算工具发布，并集成至经过精心设计与完整文档化的HookeAI软件平台。 |