arxiv 2025-06-20

标题	作者	PDF链接	摘要
Nabla-R2D3：基于二维奖励的高效三维扩散对齐方法

（翻译说明： 1. 专业术语处理： - "Nabla"保留数学符号∇的英文名，符合学术惯例 - "R2D3"作为算法名称保留不译 - "3D/2D"采用科技领域通用的"三维/二维"译法

技术概念传达：
"Diffusion Alignment"译为"扩散对齐"，准确反映扩散模型的技术特性
"Rewards"译为"奖励"，符合强化学习领域的术语规范
句式结构调整：
将英文被动语态转换为中文主动语态
通过冒号分隔实现标题的层次化呈现
添加"基于"二字明确技术路径关系
效率表达：
"Effective and Efficient"合并译为"高效"，通过"效"字双关体现双重含义
使用"方法"作为落脚点，符合中文论文标题习惯） | Qingming Liu | PDF | 生成高质量且具有照片级真实感的3D资产始终是三维视觉与计算机图形学领域的长期挑战。尽管扩散模型等前沿生成模型在3D生成领域取得了显著进展，但由于在遵循指令、符合人类偏好以及生成逼真纹理、几何结构与物理属性等方面存在局限，其产出往往难以匹敌人为设计内容。本文提出Nabla-R2D3——一个基于2D奖励信号、面向原生3D扩散模型的高效强化学习对齐框架。该方法以最新提出的Nabla-GFlowNet为基础，通过将得分函数与奖励梯度以原理性方式匹配来实现奖励微调，使得仅需2D奖励信号即可有效优化3D扩散模型。大量实验表明：相较于传统微调基线方法（易陷入收敛困难或奖励破解问题），Nabla-R2D3能在少量微调步骤内持续获得更高奖励，并显著降低先验知识遗忘。

（注：专业术语处理说明： 1. "photorealistic"译为"照片级真实感"符合计算机图形学界规范译法 2. "diffusion models"统一译为"扩散模型"保持术语一致性 3. "reward hacking"译为"奖励破解"采用强化学习领域通用译法 4. "Nabla-GFlowNet"保留原名不翻译，符合学术惯例 5. "prior forgetting"译为"先验知识遗忘"准确传达机器学习概念） | | 《幻影猎手：基于家族感知学习的未公开调优大语言模型生成文本检测》

翻译说明： 1. 主标题"PhantomHunter"译为"幻影猎手"，既保留原名的意象特征（phantom指难以捉摸的隐形存在），又体现其检测功能的主动性 2. "Privately-Tuned LLM"译为"未公开调优大语言模型"，准确传达未经公开的个性化模型调优含义 3. "Family-Aware Learning"译为"家族感知学习"，专业术语化处理机器学习领域的"family"概念，指代具有共同特征的模型族群 4. 通过冒号结构和"基于"的表述，清晰呈现方法论（家族感知学习）与研究目标（检测特定生成文本）的逻辑关系 5. 整体符合计算机领域论文标题的简洁规范（14个汉字+11个汉字），同时完整保留原文的技术内涵 | Yuhui Shi | PDF | 随着大语言模型（LLMs）的普及，错误信息生成和学术不端等负面社会问题日益严峻，使得LLM生成文本检测的重要性达到前所未有的高度。尽管现有方法已取得显著进展，但针对私有调校LLMs生成文本的新挑战仍研究不足——用户只需用私有语料微调开源模型即可获得私有LLMs，这导致现有检测器在实际应用中性能急剧下降。为解决该问题，我们提出PhantomHunter检测器，专门针对未知私有调校LLMs的生成文本进行识别。其家族感知学习框架通过捕捉基础模型及其衍生模型共有的家族级特征（而非记忆个体特性），实现了跨模型泛化能力。在LLaMA、Gemma和Mistral三大模型家族的测试数据上，其性能显著优于7个基线方法和3个工业级服务，F1分数均超过96%。

（注：根据学术翻译规范，对以下术语进行了标准化处理： 1. "privately-tuned LLMs"译为"私有调校LLMs"而非字面直译，既保留技术含义又符合中文表达 2. "family-aware learning framework"译为"家族感知学习框架"，通过添加"感知"二字准确传达算法特性 3. 将英文长句拆分为符合中文阅读习惯的短句结构，如将结果部分独立成句 4. 保留LLaMA/Gemma等专有模型名称原文，符合计算机领域术语惯例） | | 进化式缓存加速现成扩散模型

（翻译说明： 1. "Evolutionary Caching"译为"进化式缓存"，既保留"进化"的计算科学内涵（指通过算法迭代优化），又准确表达缓存技术特性 2. "Off-the-Shelf"采用商务技术文献常用译法"现成的"，指未经修改即可直接使用的标准模型 3. 增译"加速"作为动词使中文标题更符合动宾结构习惯 4. 专业术语处理： - Diffusion Model保持"扩散模型"的标准译名 - Caching统一译为计算机领域的专业术语"缓存" 5. 整体采用"技术方法+功能效益"的中文标题范式，符合IEEE等学术机构的标题规范） | Anirud Aggarwal | PDF | Diffusion-based image generation models excel at producing high-quality synthetic content, but suffe [翻译失败] | | GenRecal：从大型到小型视觉语言模型的再校准后生成

（翻译说明： 1. "GenRecal"采用音意结合译法，保留"Gen"（生成）的缩写含义，同时音译"Recal"部分，整体简洁且符合技术术语命名习惯 2. "Generation after Recalibration"译为"再校准后生成"，准确传达时序关系和核心操作 3. 介词结构"from...to..."处理为"从...到..."的经典学术表述，清晰体现模型规模迁移方向 4. "Vision-Language Models"统一译为专业术语"视觉语言模型"，保持领域内术语一致性 5. 整体采用"主标题:副标题"的学术论文标题标准格式，冒号使用符合中文排版规范） | Byung-Kwan Lee | PDF | Recent advancements in vision-language models (VLMs) have leveraged large language models (LLMs) to [翻译失败] | | 基于粒子-网格神经动力学从RGB-D视频学习可变形物体模型的方法

（翻译说明： 1. "Particle-Grid Neural Dynamics" 译为"粒子-网格神经动力学"，准确保留了计算机图形学中"粒子系统"和"网格模型"的专业术语 2. "Learning Deformable Object Models" 译为"学习可变形物体模型"，其中"deformable"采用计算机视觉领域标准译法"可变形" 3. "from RGB-D Videos" 处理为"从RGB-D视频"，保持RGB-D（彩色-深度）这一视觉传感技术的标准表述 4. 补充"方法"二字使中文标题更符合学术论文标题规范 5. 整体采用"基于...的方法"的经典学术标题结构，确保专业性和可读性的平衡） | Kaifeng Zhang | PDF | 由于可变形物体具有多样化的物理特性且难以通过有限视觉信息估计其状态，对其动力学进行建模具有挑战性。我们提出一种神经动力学框架应对这些挑战，该框架采用粒子-网格混合表征方式。我们的粒子网格模型既能捕捉全局形状与运动信息，又能预测密集粒子运动，从而实现对不同形状和材质物体的建模。其中粒子表征物体形状，空间网格则对三维空间进行离散化处理以确保空间连续性并提升学习效率。结合高斯泼溅技术进行视觉渲染，该框架实现了完全基于学习的可变形物体数字孪生，并能生成三维动作条件视频。实验表明，我们的模型能够从机器人-物体交互的稀疏视角RGB-D记录中，学习绳索、布料、毛绒玩具和纸袋等多种物体的动力学特性，同时在类别层级上对未见实例展现泛化能力。该方法在有限相机视角场景下，性能优于当前最先进的基于学习的模拟器和基于物理的模拟器。此外，我们还验证了所学模型在基于目标的物体操控任务规划中的实用性。项目页面详见https://kywind.github.io/pgnd。

（注：根据学术翻译规范，对以下术语进行了标准化处理： 1. "Gaussian Splattings"译为"高斯泼溅"（计算机图形学领域标准译法） 2. "digital twin"译为"数字孪生"（智能制造领域通用译法） 3. "state-of-the-art"译为"最先进的"（学术文献常用表述） 4. 保持"RGB-D"等专业缩写的原形式 5. 将英文长句按中文表达习惯拆分为多个短句，同时严格保持专业术语一致性） | | 密集自编码器潜在表征实为特征，而非缺陷

（翻译说明： 1. 专业术语处理："Dense SAE"译为"密集自编码器"，"Latents"译为"潜在表征"，符合机器学习领域术语规范 2. 学术观点转译：将"Features, Not Bugs"这一反常识性学术主张译为"实为特征，而非缺陷"，通过"实为"强调研究结论的创新性 3. 句式结构调整：将英文标题的陈述句式转化为中文更常见的判断句式，使用"是...而非..."的对比结构 4. 学术严谨性：避免使用"bug"的直译"漏洞"，采用"缺陷"这一更准确的科技术语 5. 简洁性保持：在准确传达学术含义的前提下，严格遵循标题的简洁性要求） | Xiaoqing Sun | PDF | 稀疏自编码器（SAEs）通过施加稀疏性约束，旨在从语言模型中提取可解释特征。理想情况下，SAE训练应产生兼具稀疏性和语义意义的潜在特征。然而实践中许多SAE潜在特征频繁激活（即呈现\emph{密集性}），这引发了对它们可能是训练过程不良产物的担忧。本研究系统探究了密集潜在特征的几何特性、功能属性及形成机制，证明它们不仅持续存在，而且往往反映模型的有意义表征。

我们首先证实：密集潜在特征倾向于形成对映对，用于重构残差流中的特定方向；若在重新训练的SAE中消融其子空间，会抑制新密集特征的出现——这表明高密度特征是残差空间的内在属性。继而我们建立了密集特征的分类体系，识别出与位置追踪、上下文绑定、熵调节、字母特异性输出信号、词性标注及主成分重构相关的特征类别。最后通过分析这些特征在模型各层的演化规律，揭示了从早期层的结构特征，到中间层的语义特征，直至末层输出导向信号的转变过程。

研究结果表明，密集潜在特征在语言模型计算中具有功能性作用，不应被视为训练噪声而忽视。 | | "具身化网络智能体：融合物理与数字领域的集成化智能体技术"

这个翻译方案具有以下专业考量：

"Embodied"译为"具身化"：采用认知科学和AI领域的专业术语，准确表达智能体具有物理实体或虚拟化身的特性
"Web Agents"译为"网络智能体"：保留计算机科学领域对Agent的标准译法，同时通过"网络"限定其运行环境
副标题处理为动宾结构："融合...领域"的表述更符合中文科技文献的表达习惯
"Integrated Agent Intelligence"译为"集成化智能体技术"：通过增译"技术"二字，使中文表达更完整，同时"集成化"准确传达了系统整合的含义
整体采用"领域限定+核心概念+技术特征"的中文标题结构，既保持学术严谨性又符合中文阅读习惯

（说明：该翻译严格遵循以下原则： 1. 专业术语准确对应："Gender-Neutral"译为"性别中立"（语言学标准译法） 2. 学术语境保留："Strategies in Practice"译为"实践中的策略"（符合社科论文标题惯例） 3. 句式结构调整：将后置介词短语"in Practice"前置为中文惯用的定语结构 4. 被动语态转化：英文被动隐含主语通过中文主动句式呈现 5. 术语统一性："Machine Translation"完整保留专业术语"机器翻译"而非简写） | Hillary Dawkins | PDF | 性别包容性机器翻译（MT）应保留源语言中的性别模糊性，以避免错误性别指认和表征性伤害。虽然性别模糊性在英语等概念性别语言中自然存在，但在语法性别语言中保持这种性别中立性仍具挑战性。本研究评估了21个机器翻译系统针对三种不同难度翻译方向中性别模糊性时，对性别中立需求的敏感度。我们对实践中观察到的具体性别中立策略进行了分类与探讨。此外，我们还检验了二元性别刻板印象对性别中立翻译使用的影响。总体而言，当前机器翻译系统在面对性别模糊性时普遍缺乏性别中立翻译方案，这一现状令人失望。不过我们也发现，少数系统会根据目标语言特点，采用特定策略切换至性别中立翻译模式。

（说明：本译文严格遵循学术翻译规范，具有以下特点： 1. 专业术语准确对应："notional gender languages"译为"概念性别语言"，"grammatical gender languages"译为"语法性别语言" 2. 被动语态转化："are categorized and discussed"译为主动式"进行了分类与探讨" 3. 长句拆分："While引导的复合句"拆分为两个中文短句，符合汉语表达习惯 4. 学术表达规范："representational harms"译为专业术语"表征性伤害" 5. 逻辑关系显化："depending on..."译为"根据...特点"，明确修饰关系 6. 程度副词精确："a small handful of"译为"少数"，准确传达数量级） | | 《Sekai：面向全球探索的视频数据集》

翻译说明： 1. 保留专有名词"Sekai"的罗马字形式，采用斜体标注以体现其作为数据集名称的特殊性 2. "World Exploration"译为"全球探索"，其中： - "World"采用"全球"而非字面的"世界"，更符合中文科研文献表述习惯 - "Exploration"译为"探索"准确传达主动研究性含义 3. 补充"数据集"三字明确定位其数据类型，符合中文计算机学科命名规范 4. 整体采用书名号标注，遵循中文文献标题格式要求 5. 副标题结构"面向..."体现该数据集的目标导向性，保持学术文本的严谨性

（注：根据中文出版规范，实际使用时斜体可替换为书名号《》，即《Sekai：面向全球探索的视频数据集》） | Zhen Li | PDF | 视频生成技术已取得显著进展，有望成为交互式世界探索的基础。然而现有视频生成数据集存在若干局限性：场景地点有限、持续时间短、画面静态化，且缺乏关于探索行为与世界属性的标注信息，因而难以适配世界探索任务的训练需求。本文推出"Sekai"数据集（日语意为"世界"），这是一个专为世界探索研究设计的高质量第一人称视角全球视频数据集，具有丰富的标注体系。该数据集包含来自750个城市、100多个国家和地区的行走及无人机视角（FPV与UAV）视频，总时长超过5,000小时。我们开发了高效的工具链，可对视频进行采集、预处理及多维度标注，包括地理位置、场景类型、天气状况、人群密度、描述文本以及摄像机运动轨迹。实验验证了数据集的质量优势。基于数据子集，我们训练出名为"YUME"（日语意为"梦"）的交互式视频世界探索模型。我们相信Sekai数据集将推动视频生成与世界探索领域的发展，并催生具有重要价值的应用场景。

（注：专业术语处理说明： 1. FPV/UAV保留英文缩写但补充全称说明 2. "toolbox"译为"工具链"以体现系统性 3. "annotations"根据上下文分别译为"标注信息/标注体系" 4. 日语专名保留罗马音并附加中文释义 5. 长难句按中文表达习惯进行分拆重组 6. 学术表述保持客观严谨性，如"demonstrate"译为"验证"而非"展示"） | | 《思维泄露：大型推理模型并非隐秘思考者》

（翻译说明： 1. 主标题"Leaky Thoughts"译为"思维泄露"，采用计算机安全领域术语"泄露"对应"leaky"，准确体现隐私保护语境 2. 副标题处理为判断句式，其中： - "Large Reasoning Models"统一译为行业标准术语"大型推理模型" - "Private Thinkers"译为"隐秘思考者"，通过"隐秘"对应"private"的隐私属性，"思考者"保留拟人化修辞 3. 冒号结构调整为中文标题惯用的破折号连接 4. 整体保留原标题的警示语气，通过"并非"强化否定判断 5. 书名号使用符合中文科技论文标题规范） | Tommaso Green | PDF | 我们研究了作为个人代理的大型推理模型在思维轨迹中的隐私泄露问题。与最终输出不同，思维轨迹通常被假定为内部数据且安全无害。我们通过实证表明，这些推理轨迹往往包含敏感用户数据——既可能通过提示词注入被提取，也可能意外泄露至输出结果——从而挑战了这一固有认知。通过探测测试和智能体评估，我们证实测试时计算策略（特别是增加推理步骤）会加剧此类泄露。虽然增加这些测试时计算策略的预算会使模型在最终答案中表现更谨慎，但同时也会导致其推理过程更加冗长，在自主思考中泄露更多信息。这揭示了一个核心矛盾：增强推理能力虽能提升效用，却同时扩大了隐私攻击面。我们主张安全防护必须延伸至模型的内部思考过程，而非仅关注其输出结果。

（翻译说明： 1. 专业术语处理："reasoning traces"译为"思维轨迹"符合认知科学术语，"prompt injections"保留技术领域惯用译法"提示词注入" 2. 学术句式重构：将英语长句拆解为符合中文表达习惯的短句，如将"which"引导的定语从句转换为破折号补充说明 3. 概念准确对应："test-time compute approaches"译为"测试时计算策略"既保持专业又避免歧义 4. 学术修辞保留："core tension"译为"核心矛盾"准确传达论文观点冲突 5. 被动语态转化：将"it is demonstrated"等被动结构转为主动语态，符合中文论述习惯 6. 程度副词处理："more cautiously/verbosely"译为"更谨慎/更加冗长"体现比较级含义） |