arxiv 2025-06-12

标题	作者	PDF链接	摘要
《从判定到干预：通过流式内容监控实现大语言模型有害输出的早期阻断》

（说明：这个翻译版本具有以下特点： 1. 专业术语准确："Streaming Content Monitoring"译为"流式内容监控"，符合计算机领域术语规范 2. 学术风格保留：使用"阻断"而非更口语化的"停止"，保持论文标题的严谨性 3. 结构优化：将介词短语转换为更符合中文标题习惯的动宾结构 4. 核心概念突出：通过冒号分层，清晰呈现研究方法和目标 5. 技术准确性："LLM"保留英文缩写形式，符合人工智能领域惯例） | Yang Li | PDF | Though safety alignment has been applied to most large language models (LLMs), LLM service providers [翻译失败] | | DGS-LRM：基于单目视频的实时可变形3D高斯重建

（翻译说明： 1. 专业术语处理： - "Deformable"译为"可变形"，符合计算机视觉领域术语规范 - "3D Gaussian Reconstruction"译为"3D高斯重建"，保留专业称谓 - "Monocular Videos"译为"单目视频"，采用计算机视觉领域标准译法

技术准确性：
强调"实时"特性，体现系统性能指标
使用"基于"表明视频数据是重建算法的输入源
保留"DGS-LRM"缩写形式，符合学术文献惯例
结构优化：
采用主副标题结构，与原文格式对应
使用冒号分隔，保持学术标题的严谨性
中文语序调整符合技术文献表达习惯） | Chieh Hubert Lin | PDF | We introduce the Deformable Gaussian Splats Large Reconstruction Model (DGS-LRM), the first feed-for [翻译失败] | | 《逆势翻转：通过语言化拒绝采样降低大语言模型抛硬币偏差》

翻译说明： 1. "Flipping Against All Odds"译为"逆势翻转"，既保留了"抛硬币"的隐喻（flipping），又通过"逆势"体现原文对抗概率偏差的涵义 2. "LLM"作为专业术语保留英文缩写形式，符合中文计算机领域惯例 3. "Coin Flip Bias"译为"抛硬币偏差"，准确传达原文指代概率偏差的专业概念 4. "Verbalized Rejection Sampling"译为"语言化拒绝采样"，其中： - "verbalized"译为"语言化"而非字面的"言语化"，更符合NLP领域术语规范 - "rejection sampling"采用统计学标准译法"拒绝采样" 5. 标题整体采用学术论文常见的冒号分隔结构，主副标题层次清晰 6. 通过书名号《》突出论文标题属性，符合中文科技文献格式规范 | Tim Z. Xiao | PDF | 大型语言模型（LLMs）通常能准确使用自然语言描述概率分布，但在生成符合该分布的可靠样本时仍存在困难。这种能力错位限制了其在需要可信随机性的任务中的应用，例如蒙特卡洛方法、基于代理的模拟和随机决策制定。本研究以伯努利分布为切入点，探究模型认知与采样能力之间的差异。我们提出"语言化拒绝采样法"（VRS）——将经典拒绝采样方法转化为自然语言指令，促使LLM对候选样本进行推理判断并决定接受或拒绝。尽管内部仍采用相同的伯努利机制，VRS显著降低了不同模型的采样偏差。理论分析表明，在温和假设条件下，VRS较直接采样具有明显优势，其增益来源于算法设计及提示词优化的双重作用。更广泛而言，本研究证明经典概率工具可通过语言化方式嵌入LLM工作流以提升可靠性，既无需访问模型内部参数，也不依赖复杂的提示工程。 | | 玩家一号：自我中心世界模拟器

（翻译说明： 1. "PlayerOne"采用直译加意译结合的方式，译为"玩家一号"，既保留游戏术语特征又体现序列感 2. "Egocentric"译为"自我中心"准确对应心理学和认知科学术语 3. "World Simulator"译为"世界模拟器"符合计算机模拟技术领域的专业表述 4. 整体采用主副标题结构，冒号分隔保持原文格式 5. 术语统一采用《计算机科学技术名词》第三版标准译法） | Yuanpeng Tu | PDF | 我们推出首个以自我为中心的逼真世界模拟器PlayerOne，该系统支持在高度动态的虚拟环境中进行沉浸式无约束探索。当用户输入以自我为中心的场景图像时，PlayerOne能精确构建对应虚拟世界，并生成与外部摄像头捕捉的真实用户动作严格同步的自我中心视角视频。本系统采用由粗到精的训练流程：首先通过大规模自我中心文本-视频对进行粗粒度理解预训练，随后利用我们设计的自动构建流程，从主客观同步视频数据集中提取运动-视频数据进行微调训练。

针对人体各部位运动重要性的差异，我们创新性地提出部件解耦运动注入机制，实现对局部动作的精准控制。此外，我们开发了联合重建框架，通过渐进式建模4D场景与视频帧序列，确保长视频生成中的场景一致性。实验结果表明，本系统在精确控制多样化人体运动、保持跨场景世界建模一致性方面展现出卓越的泛化能力。

作为自我中心现实世界模拟的首个系统性探索，这项研究为学界深入开拓世界建模及其多元应用的新疆域奠定了重要基础。 | | 基于扩散模型的文本感知图像修复技术

（翻译说明： 1. 专业术语处理： - "Diffusion Models" 采用学界通用译法"扩散模型" - "Text-Aware" 译为"文本感知"，准确表达模型对文本信息的感知能力

技术内涵体现：
使用"基于"表明技术实现路径
"修复技术"比直译"恢复"更符合计算机视觉领域术语习惯
结构优化：
将介词短语"with"转化为前置定语"基于"，符合中文表达习惯
采用"技术"作为中心词，突出方法论属性
学术规范性：
保留关键术语的英文首字母大写形式
使用破折号连接复合形容词"文本感知"
整体符合IEEE等学术期刊的中文标题规范） | Jaewon Min | PDF | Image restoration aims to recover degraded images. However, existing diffusion-based restoration met [翻译失败] | | eFlesh：基于切割单元微结构的可高度定制化磁触觉传感技术

（翻译说明： 1. 保留品牌名称"eFlesh"不译，符合技术术语惯例 2. "Highly customizable"译为"可高度定制化"，准确传达技术特征 3. "Magnetic Touch Sensing"译为"磁触觉传感"，专业领域标准译法 4. "Cut-Cell Microstructures"译为"切割单元微结构"，其中"Cut-Cell"作为专业术语采用直译+注释的译法 5. 整体采用"技术特征+实现方式"的中文技术命名结构，符合中文科技文献命名规范 6. 使用冒号替代英文破折号，符合中文标点规范） | Venkatesh Pattabiraman | PDF | If human experience is any guide, operating effectively in unstructured environments -- like homes a [翻译失败] | | 面向低资源巴尔干语言毒性内容检测的大规模语言模型研究

（翻译说明： 1. 专业术语处理："Large Language Models"译为"大规模语言模型"，符合自然语言处理领域术语规范；"Toxic Language Detection"译为"毒性内容检测"，采用内容安全领域通用译法 2. 技术特征保留："Low-Resource"准确译为"低资源"，精准传达数据稀缺的语言特性 3. 地域名词规范："Balkan Languages"译为"巴尔干语言"，符合地理学名词标准 4. 学术标题优化：补充"研究"二字，符合中文论文标题习惯，同时保持原标题的技术严谨性 5. 语序结构调整：将原文后置定语转换为中文前置定语，符合汉语句法特征） | Amel Muminovic | PDF | Online toxic language causes real harm, especially in regions with limited moderation tools. In this [翻译失败] | | 多元宇宙：语言模型暗中决定并行化与生成融合的策略

（翻译说明： 1. "Multiverse"译为"多元宇宙"，既保留原词科幻语境，又暗喻模型处理的多重可能性空间 2. "Secretly Decide"译为"暗中决定"，准确传达算法自主决策的隐蔽性特征 3. "Parallelize and Merge Generation"译为"并行化与生成融合"，其中： - "Parallelize"采用计算机领域标准译法"并行化" - "Merge Generation"译为"生成融合"，通过"融合"体现多路径生成的聚合过程 4. 补充"策略"二字使中文表达更完整，符合学术标题的严谨性要求 5. 整体采用四字格"多元宇宙"与长短语的对比结构，增强标题张力） | Xinyu Yang | PDF | Autoregressive Large Language Models (AR-LLMs) frequently exhibit implicit parallelism in sequential [翻译失败] | | 动作链：机器人操作中的轨迹自回归建模

（翻译说明： 1. "Chain-of-Action"译为"动作链"，准确传达"动作序列"的核心概念，同时保留"Chain-of"的术语结构 2. "Trajectory Autoregressive Modeling"译为"轨迹自回归建模"，专业术语严格对应： - "Trajectory"采用机器人学标准译法"轨迹" - "Autoregressive"保留计量经济学经典译法"自回归" 3. "Robotic Manipulation"译为"机器人操作"，符合IEEE标准术语 4. 整体采用"主标题+副标题"结构，与原文破折号结构形成对应 5. 补充"中的"字使中文表达更流畅，同时确保学术严谨性） | Wenbo Zhang | PDF | We present Chain-of-Action (CoA), a novel visuo-motor policy paradigm built upon Trajectory Autoregr [翻译失败] | | 《听觉之手：从三维场景物理交互中生成声音》

（翻译说明： 1. 主标题"Hearing Hands"采用意译结合直译，保留"手"的意象同时体现听觉感知的转化过程，书名号突出学术论文标题属性 2. 副标题采用科技论文标准译法："Generating Sounds"译为"生成声音"符合计算机领域术语规范；"Physical Interactions"译为"物理交互"是图形学标准译法 3. "3D Scenes"统一译为"三维场景"而非"3D场景"，符合国内计算机学报用词惯例 4. 冒号使用遵循中文标题规范，整体结构保持原标题"主标题+副标题"的学术论文标题特征 5. 通过动词"从...中"准确传达物理交互与声音生成的因果关系，体现原文的技术逻辑） | Yiming Dou | PDF | 我们通过提出以下问题来研究如何实现三维场景重建的交互性：能否预测人类双手与场景物理互动时产生的声音？首先，我们录制人类用手操纵三维场景中物体的视频。随后利用这些动作-声音配对数据训练整流流模型，将三维手部运动轨迹映射至对应音频。测试阶段，用户可通过输入参数化为手部姿态序列的其他动作来查询模型，进而估算其对应声音。实验表明，生成的声音能准确传递材质属性与动作特征，人类观察者往往难以将其与真实声音区分。项目主页：https://www.yimingdou.com/hearing_hands/

（翻译说明： 1. 专业术语处理："rectified flow model"译为"整流流模型"遵循机器学习领域术语规范 2. 被动语态转换：将"can we predict"译为主动句式"能否预测"，符合中文表达习惯 3. 长句拆分："parameterized as..."独立译为"参数化为..."并添加"输入"作为隐含主语 4. 概念一致性："human observers"统一译为"人类观察者"保持学术严谨性 5. 动态对等："indistinguishable from"译为"难以区分"而非字面直译，更符合中文认知 6. 技术表述："hand poses"译为"手部姿态"采用计算机视觉领域标准译法） |