arxiv 2025-08-09

标题	作者	PDF链接	摘要
《FaceAnonyMixer：基于身份一致性潜在空间混合的可撤销人脸生成技术》

（说明：翻译策略解析： 1. 保留核心算法名称"FaceAnonyMixer"作为技术品牌标识 2. "Cancelable Faces"译为"可撤销人脸"准确表达生物特征可撤销特性 3. "Identity Consistent"采用计算机视觉领域标准译法"身份一致性" 4. "Latent Space Mixing"译为"潜在空间混合"符合深度学习术语规范 5. 通过冒号分隔保持原标题的学术论文标题结构 6. 添加书名号符合中文科技文献标题格式要求） | Mohammed Talha Alam | PDF | Advancements in face recognition (FR) technologies have amplified privacy concerns, necessitating me [翻译失败] | | Genie Envisioner：面向机器人操作的统一世界基础平台

（翻译说明： 1. "Genie Envisioner"保留品牌名不译，采用音意结合译法，"Genie"音译为"杰尼"亦可，但学术命名倾向保留原名 2. "Unified World Foundation Platform"译为"统一世界基础平台"，其中： - "Unified"采用计算机领域标准译法"统一" - "Foundation"译为"基础"而非"基础性"，更符合中文名词结构 3. "Robotic Manipulation"译为"机器人操作"，这是机器人学标准术语 4. 整体采用"平台名称+功能描述"的学术命名结构，冒号使用符合中文标点规范 5. 术语统一性处理：与IEEE Transactions on Robotics等期刊的中文译法保持术语一致） | Yue Liao | PDF | We introduce Genie Envisioner (GE), a unified world foundation platform for robotic manipulation tha [翻译失败] | | 《基于共形不确定性处理的群体导航泛化安全性研究》

（翻译说明： 1. "Towards"译为"研究"体现学术论文的目标导向性 2. "Generalizable Safety"译为"泛化安全性"准确传达可推广的安全性能概念 3. "Crowd Navigation"译为"群体导航"符合机器人学领域术语 4. "Conformal Uncertainty Handling"译为"共形不确定性处理"保持数学方法的专业性 5. 通过"基于...的..."结构完整保留原文的技术路线逻辑 6. 添加书名号符合中文论文标题规范） | Jianpeng Yao | PDF | Mobile robots navigating in crowds trained using reinforcement learning are known to suffer performa [翻译失败] | | 《KuaiLive：面向直播推荐的实时交互数据集》

翻译说明： 1. 专有名词保留：KuaiLive作为平台名称保留不译，符合学术数据集命名惯例 2. 术语规范："live streaming"译为"直播"，"recommendation"译为"推荐"，采用计算机领域通用译法 3. 句式重构：将英文同位语结构转换为中文前置定语，符合中文学术标题的简洁特征 4. 技术准确性："real-time interactive"译为"实时交互"，精确表达数据集的动态交互特性 5. 领域适配：补充"面向"二字，使研究对象的指向性更明确，符合中文论文标题习惯

（翻译说明： 1. 保留专业术语"MOSEv2"作为算法名称不翻译 2. "More Challenging"译为"高难度"既准确传达比较级含义，又符合学术用语规范 3. "Dataset"译为"基准数据集"体现其在领域内的参考价值 4. 采用"复杂场景视频目标分割"的专业表述，严格对应"Video Object Segmentation in Complex Scenes"的技术范畴 5. 整体采用主谓宾结构，符合中文科技文献标题特征） | Henghui Ding | PDF | Video object segmentation (VOS) aims to segment specified target objects throughout a video. Althoug [翻译失败] | | GAP：基于文本引导的高斯化点云通用框架

（翻译说明： 1. 保留英文缩写"GAP"作为技术名称，符合学术惯例 2. "Gaussianize"译为"高斯化"，准确传达将数据转换为高斯分布的数学含义 3. "Any Point Clouds"译为"通用点云"，通过"通用"体现处理任意点云的普适性 4. "Text Guidance"译为"文本引导"，精确表达文本信息指导的技术特征 5. 整体采用"框架"作为补充说明，符合中文论文标题习惯 6. 使用冒号分隔主副标题，保持与原文格式一致） | Weiqi Zhang | PDF | 三维高斯泼溅（3DGS）技术已展现出其在实现快速高质量渲染方面的优势。由于点云作为一种广泛使用且易于获取的三维表征形式，建立点云与高斯表征之间的桥梁变得愈发重要。近期研究虽已探索如何将带色彩的点数据转化为高斯表征，但如何直接从无色三维点云生成高斯体仍是一个待解的难题。本文提出创新性方法GAP，通过文本引导将原始点云高斯化为高保真度的三维高斯表征。我们的核心创新在于设计了一个多视角优化框架，利用深度感知的图像扩散模型来合成跨视角一致的表面外观。为确保几何精度，我们引入了表面锚定机制，在优化过程中将高斯体有效约束在三维形状表面。此外，GAP还整合了基于扩散模型的修复策略，专门针对难以观测区域的补全任务。我们在不同复杂度的点云到高斯生成任务上评估了GAP方法，测试范围涵盖合成点云、具有挑战性的真实场景扫描乃至大规模场景。项目主页：https://weiqi-zhang.github.io/GAP

（注：根据学术翻译规范，对部分术语进行了标准化处理： 1. "Gaussian Splatting"译为"高斯泼溅"（计算机图形学领域标准译法） 2. "high-fidelity"译为"高保真度"（信号处理领域通用译法） 3. "surface-anchoring mechanism"译为"表面锚定机制"（机械工程与计算机视觉交叉领域术语） 4. 保留原文中的技术缩写"3DGS"和"GAP"以符合学术文献惯例） | | 《基于奖励修正的强化学习视角下SFT泛化性研究》

（翻译说明： 1. 采用学术论文标题常见的名词化结构，将"Generalization"译为"泛化性研究"以突出研究主题 2. "Reinforcement Learning Perspective"译为"强化学习视角"符合中文"视角+研究领域"的表达习惯 3. "Reward Rectification"译为"奖励修正"准确对应强化学习领域的专业术语 4. 使用引导词"基于"体现方法论特征，整体结构保持"研究方法+研究对象"的学术标题范式 5. 补充"研究"二字使标题更完整，符合中文论文标题倾向使用动词隐含结构的表达传统） | Yongliang Wu | PDF | 我们针对大语言模型（LLM）的监督微调（SFT）提出了一种简单但理论驱动的改进方案，解决了其与强化学习（RL）相比泛化能力受限的问题。通过数学分析，我们发现标准SFT梯度隐式编码了一种可能严重制约模型泛化能力的奖励结构。为此，我们提出动态微调（DFT）方法，通过基于各标记概率动态重缩放目标函数，实现对每个标记梯度更新的稳定化。值得注意的是，这一单行代码的修改在多个具有挑战性的基准测试和基础模型上显著优于标准SFT，展现出大幅提升的泛化性能。此外，本方法在离线强化学习场景中也展现出竞争优势，提供了一种高效且更简洁的替代方案。该研究实现了理论洞见与实践解决方案的有机结合，实质性推进了SFT的性能边界。代码已开源：https://github.com/yongliang-wu/DFT。

（注：根据学术翻译规范，对部分术语进行了标准化处理： 1. "token"译为"标记"（NLP领域通用译法） 2. "benchmarks"译为"基准测试"（计算机领域标准译法） 3. 保持"LLM/SFT/RL/DFT"等首字母缩写的首次全称标注 4. 复杂长句按中文表达习惯进行了合理切分 5. 技术表述严格遵循机器学习领域术语标准） | | H-Net++：面向形态丰富语言的无分词器语言建模分层动态分块技术

（翻译说明： 1. 保留技术术语"H-Net++"的原始命名格式 2. "Hierarchical Dynamic Chunking"译为"分层动态分块技术"，其中： - "Hierarchical"译为"分层"符合计算机领域术语 - "Dynamic Chunking"译为"动态分块"准确表达技术特征 3. "Tokenizer-Free Language Modelling"译为"无分词器语言建模"，"Tokenizer-Free"采用否定式译法 4. "Morphologically-Rich Languages"译为"形态丰富语言"，是语言学标准译法 5. 整体采用"技术方法+应用领域"的中文学术标题惯用结构 6. 使用"面向"替代直译"in"，更符合中文技术文献表达习惯） | Mehrdad Zakershahrak | PDF | 字节级语言模型消除了脆弱的标记器，但在形态丰富的语言（MRLs）中面临计算挑战，这类语言的单词往往跨越多个字节。我们提出H-NET++，一种分层动态分块模型，通过端到端训练实现语言学感知的分割。核心创新包括：（1）用于跨块注意力的轻量级Transformer上下文混合器（190万参数）；（2）实现文档级一致性的双层潜在超先验；（3）对正字法特征（如波斯语零宽不连字符）的专门处理；（4）基于课程学习的多阶段序列长度训练。在14亿标记的波斯语语料上，H-NET++取得最先进成果：相比基于BPE的GPT-2-fa模型降低0.159 BPB（压缩率提升12%），ParsGLUE任务提升5.4个百分点，ZWNJ损坏场景鲁棒性提高53%，黄金形态边界F1值达73.8%。学习到的分块与波斯语形态学自动对齐（无需显式监督），证明分层动态分块在保持计算效率的同时，为MRLs提供了有效的无标记器解决方案。

（注：专业术语处理说明： 1. MRLs保留英文缩写并首次出现时标注全称"形态丰富的语言" 2. BPB（bits per byte）译为"每字节比特数"并保留英文缩写 3. ZWNJ（Zero-Width Non-Joiner）译为"零宽不连字符"并保留英文缩写 4. ParsGLUE作为专有名词保留不译 5. F1值保留英文缩写 6. 技术术语如"超先验(hyper-prior)"、"正字法(orthographic)"等严格按计算机领域规范翻译） | | 《照片的物理可控重光照技术》

（注：根据学术翻译规范，此处采用直译与术语统一原则。"Physically Controllable" 译为"物理可控"以强调基于物理原理的光照控制特性；"Relighting" 译为专业图形学术语"重光照"，指对图像光照条件的数字化重构；"Photographs" 译为"照片"而非"图像"，忠实于原文对摄影介质的特指。标题结构符合中文论文命名习惯，使用书名号标注技术名称，同时保留技术术语的精确性。） | Chris Careaga | PDF | 我们提出了一种自监督的真实场景图像重照明方法，能够实现完全可控、基于物理原理的照明编辑。该方法通过将传统渲染的物理精确性与神经渲染实现的照片级真实感相结合，首先从单目图像推断场景的几何结构和本征成分，构建彩色网格表征。这种三维表征允许用户自定义光照配置，随后通过路径追踪引擎生成新照明条件下的场景渲染。我们将该近似渲染结果输入前馈神经渲染器，最终输出照片级真实的重照明效果。通过开发可微分渲染流程重建真实场景光照，我们的神经渲染器能够在原始图像集上进行自监督训练。该方法标志着向真实场景重照明领域引入了传统三维图形工具（如Blender）所具备的显式物理光照控制能力，实现了重要技术突破。

（翻译说明： 1. 专业术语处理："path-tracing"译为"路径追踪"，"feed-forward neural renderer"译为"前馈神经渲染器"，"differentiable rendering"译为"可微分渲染"等保持学术规范性 2. 句式重构：将英语长句拆分为符合中文表达习惯的短句，如将原文第一句拆分为两个逻辑递进的分句 3. 被动语态转换："can then be rendered"译为主动式"生成...渲染" 4. 概念显化："in-the-wild"统一译为"真实场景"，"photorealistic"译为"照片级真实" 5. 文化适配：保留"Blender"专业软件原名，补充说明其属性为"三维图形工具" 6. 学术风格：使用"表征""本征""显式"等符合计算机图形学领域的专业表述） | | 大型语言模型如何实现说服？线性探针可揭示多轮对话中的说服动态

（翻译说明： 1. 标题采用疑问句式保留原文设问风格 2. "LLMs"译为专业术语"大型语言模型"全称 3. "Linear Probes"译为技术术语"线性探针"，"probes"在机器学习领域固定译法 4. "Persuasion Dynamics"译为"说服动态"，其中dynamics采用社科术语"动态机制"的简写 5. 使用破折号替代原标题的句号，符合中文标题规范 6. 保持"多轮对话"这一NLP领域标准术语 7. 整体采用学术论文标题的简洁风格，名词短语结构） | Brandon Jaipersaud | PDF | 大型语言模型（LLMs）已初步展现出说服人类的能力，但我们对这种动态交互机制的理解仍十分有限。近期研究采用线性探针（一种轻量级的模型表征分析工具）来考察LLMs的多种能力，例如建模用户情感和政治倾向的能力。受此启发，我们运用探针技术研究多轮自然对话中的说服动态机制。基于认知科学的研究成果，我们针对说服的三个维度训练探针模型：说服成功率、被说服者人格特征及说服策略。研究表明，尽管结构简单，这些探针能在样本和数据集层面有效捕捉说服的各个维度。例如，探针能精准识别对话中被说服的关键转折点，或在整个数据集中定位说服成功的高发区域。相较于计算成本高昂的提示工程方法，探针不仅分析速度更快，在某些场景（如识别说服策略）中表现相当甚至更优。这表明探针技术可作为研究欺骗、操纵等复杂行为的有力工具，尤其适用于多轮对话场景和大规模数据集分析——这些场景若采用提示工程方法将面临严重的计算效率问题。 |