arxiv 2025-08-20

标题	作者	PDF链接	摘要
LongSplat：面向非固定视角长视频的鲁棒三维高斯泼溅技术

（注：翻译采用学术文献常用命名规范： 1. 保留核心算法名"LongSplat"音意结合译法 2. "Unposed"译为"非固定视角"准确体现计算机视觉领域特性 3. "3D Gaussian Splatting"统一译为专业术语"三维高斯泼溅" 4. "Casual Long Videos"译为"长视频"并添加"面向"体现技术适用场景 5. 增加"鲁棒"强化原文"Robust"的技术内涵，符合学术翻译规范） | Chin-Yang Lin | PDF | LongSplat致力于解决从具有不规则相机运动、未知相机位姿和广阔场景特性的随意拍摄长视频中进行新视角合成（NVS）的关键挑战。现有方法普遍存在位姿漂移、几何初始化不准确和严重内存限制等问题。针对这些痛点，我们提出LongSplat——一个鲁棒的无位姿3D高斯泼溅框架，其核心创新包括：（1）增量联合优化机制，通过同步优化相机位姿与3D高斯模型避免局部极小值并确保全局一致性；（2）基于学习型3D先验的鲁棒位姿估计模块；（3）高效八叉树锚点生成机制，依据空间密度将稠密点云转化为锚点结构。在多个高难度基准测试上的实验表明，LongSplat实现了最先进的性能，相较现有方法在渲染质量、位姿精度和计算效率方面均有显著提升。项目页面：https://linjohnss.github.io/longsplat/

（注：根据学术翻译规范，对以下术语进行标准化处理： - "unposed"译为"无位姿"而非"未摆拍"，强调无需预设相机参数的特性 - "Gaussian Splatting"保留"高斯泼溅"的领域通用译法 - "Anchor Formation"译为"锚点生成"以符合计算机图形学惯例 - "state-of-the-art"采用"最先进的"标准译法） | | 计算机强化学习：面向计算机使用代理的端到端在线强化学习规模化应用

（注：翻译严格遵循了以下原则： 1. 专业术语准确对应："ComputerRL"译为"计算机强化学习"，"End-to-End"译为"端到端"，"Reinforcement Learning"译为"强化学习" 2. 技术概念完整保留："Scaling"体现为"规模化应用"，"Online"译为"在线" 3. 学术表述规范：采用"代理"而非"代理人"的计算机科学标准译法 4. 句式结构调整：将英语名词短语转换为符合中文表达习惯的动宾结构，同时保持技术准确性） | Hanyu Lai | PDF | 我们提出ComputerRL框架——一种实现自主桌面智能的系统，使智能体能够熟练操作复杂数字工作空间。该框架采用API-GUI融合范式，通过统一程序化API调用与直接图形界面交互，解决机器智能体与以人为中心的桌面环境之间的固有适配问题。扩展端到端强化学习训练对提升跨桌面任务的泛化能力至关重要，但由于环境低效性和长时训练不稳定性，这一目标仍具挑战。为支持可扩展的鲁棒训练，我们开发了分布式强化学习基础设施，可协调数千个并行虚拟桌面环境以加速大规模在线强化学习。此外，我们提出Entropulse训练策略，通过强化学习与监督微调的交替执行，有效缓解长时训练中的熵崩溃现象。我们在开源模型GLM-4-9B-0414和Qwen2.5-14B上部署ComputerRL，并在OSWorld基准测试中进行评估。基于GLM-4-9B-0414构建的AutoGLM-OS-9B模型取得了48.1%的最新准确率纪录，显著提升了通用智能体在桌面自动化任务中的性能。该算法与框架已应用于AutoGLM系统的构建（Liu等，2024a）。 | | 超越简单编辑：基于密集修改的组合视频检索

（注：译文采用学术论文标题的经典四段式结构，通过冒号分隔核心概念与方法论。"Beyond Simple Edits"译为"超越简单编辑"准确传达对基础方法的超越性；"Composed Video Retrieval"采用学界通用译法"组合视频检索"；"Dense Modifications"译为"密集修改"既保持计算机视觉领域的术语特征，又通过"密集"准确体现算法对多维度修改的聚合处理特性。） | Omkar Thawakar | PDF | 组合视频检索是一项具有挑战性的任务，其目标是通过查询视频和描述具体修改需求的文本说明来检索目标视频。标准检索框架通常难以处理细粒度组合查询的复杂性，且时序理解能力存在局限，这限制了其在细粒度场景下的检索性能。为解决这一问题，我们提出了一个新颖的数据集，该数据集捕捉了不同视频片段中细粒度的组合动作，使检索视频内容能够呈现更精细的组合变化。这个名为Dense-WebVid-CoVR的数据集包含160万个样本，其密集修改文本量达到现有数据集的约七倍。我们进一步开发了新模型，通过基于接地文本编码器的交叉注意力（CA）融合机制整合视觉与文本信息，实现密集查询修改与目标视频的精准对齐。该模型在所有评估指标上均超越现有方法，达到最先进的性能表现。值得注意的是，在视觉+文本设置下其Recall@1达到71.3%，较现有最优方法提升3.4%，凸显了其利用详细视频描述和密集修改文本的有效性。我们公开了数据集、代码和模型：https://github.com/OmkarThawakar/BSE-CoVR

（注：根据学术翻译规范，"grounded text encoder"译为"接地文本编码器"是计算机视觉领域的标准译法，指基于视觉基础信息的文本编码器；"Recall@1"保留原始术语形式符合机器学习领域的表述惯例；"state-of-the-art"统一译为"最先进的"保持术语一致性） | | 蒸馏式三维高斯溅射：精炼版三维高斯点云渲染技术

（注：翻译采用学术文献常见的"术语解释+技术特性"复合译法： 1. "Distilled"译为"蒸馏式"并补充"精炼版"以体现模型压缩特性 2. "3D Gaussian Splatting"完整译为"三维高斯点云渲染技术"，既保留"高斯"核心算法特征，又通过"点云渲染"准确表达计算机图形学技术内涵 3. 冒号后采用主副标题结构，符合中文论文标题规范） | Lintao Xiang | PDF | 三维高斯溅射（3DGS）在新视角合成（NVS）领域展现出卓越性能，但其存在显著缺陷：要实现高保真度渲染通常需要海量三维高斯分布，导致内存占用与存储需求急剧增长。针对这一挑战，我们首次提出面向3DGS的知识蒸馏框架，该框架集成多种教师模型——包括原始3DGS、噪声增强变体及丢弃正则化版本。通过聚合这些教师模型的输出，指导轻量化学生模型的优化过程。为提炼隐式几何结构，我们提出结构相似性损失函数，以增强学生模型与教师模型空间几何分布的一致性。经多数据集全面定量与定性验证，所提出的Distilled-3DGS框架以简洁高效的设计，在渲染质量与存储效率方面均优于现有先进方法，且无需复杂附加模块。项目主页：https://distilled3dgs.github.io 代码库：https://github.com/lt-xiang/Distilled-3DGS

（注：根据学术翻译规范，关键术语处理如下： 1. "novel view synthesis"译为"新视角合成"（计算机图形学标准译法） 2. "knowledge distillation"保留"知识蒸馏"（机器学习领域通用译名） 3. "dropout-regularized"译为"丢弃正则化"（深度学习标准术语） 4. "state-of-the-art"译为"先进方法"（符合中文论文表述习惯） 5. 技术术语如"3D Gaussian Splatting"首次出现时保留英文缩写"3DGS"并标注全称，符合中文科技文献引用规范） | | GeoSAM2：释放SAM2在三维部件分割中的强大潜力

（注：翻译说明： 1. "Unleashing the Power"采用"释放...强大潜力"的译法，既保留原文的动感又符合学术表述规范 2. "3D Part Segmentation"译为"三维部件分割"，其中"部件"比"零件"更适用于广义的几何分割场景 3. 保留SAM2作为专有名词不翻译，维持技术术语的一致性 4. 整体采用"主标题：副标题"的中文学术论文命名格式，冒号使用全角符号符合中文排版规范） | Ken Deng | PDF | 现代三维生成方法能够从稀疏或单视图快速创建形状，但由于计算限制，其输出常缺乏几何细节。我们提出DetailGen3D——一种专门用于增强这些生成三维形状的生成式方法。我们的核心创新在于通过潜在空间中数据依赖流的粗粒度到细粒度直接建模，规避大规模三维生成模型的计算开销。我们引入的令牌匹配策略能确保优化过程中实现精确的空间对应，在保持全局结构的同时实现局部细节合成。通过精心设计训练数据以匹配合成粗粒度形状的特征，本方法可有效增强各类三维生成与重建方法（从单视图到稀疏多视图输入）产生的形状。大量实验表明，DetailGen3D在保持训练效率的同时，实现了高保真度的几何细节合成。

（注：根据学术翻译规范，关键术语处理如下： - "coarse-to-fine transformation" 译为"粗粒度到细粒度转换"符合计算机视觉领域术语 - "data-dependent flows" 采用"数据依赖流"的学界通用译法 - "token matching strategy" 保留"令牌匹配"的技术概念 - "high-fidelity" 译为"高保真度"符合工程领域表述习惯译文在保持学术严谨性的同时，通过拆分长句、调整语序等方式符合中文表达习惯） | | 无限对话：稀疏帧视频配音的音频驱动视频生成

（注：译文采用学术翻译的严谨风格，在保持专业术语准确性的同时兼顾中文表达习惯： 1. "InfiniteTalk" 译为"无限对话"既保留原意又符合技术命名规范 2. "Sparse-Frame Video" 专业译为"稀疏帧视频"准确传达视频帧间隔采样的技术特征 3. "Audio-driven Video Generation" 采用"音频驱动视频生成"的标准学术译法 4. "Dubbing" 在多媒体生成语境下译为"配音"而非简单直译"配音"，更符合行业术语） | Shaoshu Yang | PDF | 视频AIGC领域的最新突破为音频驱动人体动画开启了革命性新纪元。然而传统视频配音技术仍局限于嘴部区域编辑，导致面部表情与身体姿态不协调，从而影响观众的沉浸体验。为突破这一局限，我们提出稀疏帧视频配音新范式——通过策略性保留参考关键帧以维持身份特征、标志性姿态和摄像机轨迹，同时实现音频同步的全身运动整体编辑。通过关键性分析，我们揭示了朴素图像-视频模型在此任务中的失效根源，特别是其难以实现自适应条件控制的问题。针对这一缺陷，我们提出 InfiniteTalk 流式音频驱动生成器，专为无限长度长序列配音设计。该架构利用时序上下文帧实现分块间无缝过渡，并采用简约而有效的采样策略，通过细粒度参考帧定位优化控制强度。在HDTF、CelebV-HQ和EMTD数据集上的综合评估证明了其业界领先的性能。量化指标证实了该方法在视觉真实感、情感连贯性和全身运动同步性方面的卓越表现。 | | 大型语言模型在数字健康领域的潜力：来自在线健康社区情感分析的证据

（注：翻译严格遵循学术规范，采用"大型语言模型"对应"Large Language Models"这一专业术语，"数字健康"对应"Digital Health"的标准化译法。副标题使用"证据"准确传达"Evidence"的实证研究内涵，并保持"在线健康社区"与"Online Health Communities"的术语一致性。整体句式结构符合中文科技论文标题的简洁特征，同时完整保留原标题的学术严谨性。） | Xiancheng Li | PDF | 当前数字健康分析面临关键挑战：患者生成的健康内容蕴含复杂情感与医疗语境，其精细化分析需要稀缺的领域专业知识，而传统机器学习方法在医疗场景中受限于数据匮乏和隐私约束。在线健康社区（OHCs）的典型场景——混合情感倾向的帖文、临床术语及隐含情绪表达——进一步凸显了精准情感分析（SA）对专业知识的特殊需求。为应对这些挑战，本研究探索如何通过上下文学习将专家知识注入大语言模型（LLMs），为复杂健康数据分析提供可扩展的解决方案。我们开发了系统化编码专家解读指南的结构化代码本，使LLMs能通过定向提示而非大规模训练即可应用领域知识。基于两个OHCs中400条专家标注帖文，六款GPT模型与DeepSeek、LLaMA 3.1的验证结果显示，其性能显著优于预训练语言模型（BioBERT变体）和基于词典的方法，且达到专家级一致性。这种与专家间评判一致性无统计学差异的高吻合度，表明模型实现了超越表层模式识别的知识整合。不同LLM模型在上下文学习支持下展现的稳定性能，为数字健康分析提供了可行路径。该方法有效解决了数字健康研究中专家知识短缺的核心难题，为患者监测、干预评估和循证健康策略提供了实时专家级分析能力。 | | 智能微调引发的意外错位：风险与缓解策略

（注：采用学术翻译的常见处理方式： 1. "Agentic Fine-Tuning"译为"智能微调"既保留技术特性又符合中文表达习惯 2. "Unintended Misalignment"译为"意外错位"准确传达非故意产生的对齐偏差含义 3. 冒号后采用四字结构"风险与缓解策略"，符合中文标题对仗工整的特点 4. 整体保持技术文档的严谨性，同时确保中文读者能准确理解概念内涵） | Dongyoon Hahm | PDF | Beyond simple text generation, Large Language Models (LLMs) have evolved into agentic systems capabl [翻译失败] | | 超越Pass@1基准：基于变分问题合成的自我博弈持续强化RLVR性能

（注：RLVR指Reinforcement Learning with Variational Reasoning，该术语采用学界通用译法"变分推理强化学习"。译文通过"持续强化"动态对应"sustains"的进行时态，采用"自我博弈"准确传达"Self-Play"的博弈论内涵，同时通过"基于"明确技术路径的从属关系，符合中文科技文献的表达规范。） | Xiao Liang | PDF | 带有可验证奖励的强化学习（RLVR）近期已成为大型语言模型（LLM）后训练的核心范式，尤其在复杂推理任务中表现突出。然而，传统RLVR训练被证明会以策略熵为代价提升Pass@1性能，导致生成多样性下降并限制Pass@k表现——后者通常代表LLM推理能力的上限。本文从训练问题的角度系统分析策略生成多样性，发现通过增强和更新训练问题有助于缓解训练过程中的熵崩溃现象。基于这些发现，我们提出一种用于RLVR训练的在线自博弈变分问题合成策略（SvS），该策略利用模型自身生成的正确解来合成变分问题，同时确保其参考答案与原始问题保持一致。这种自我提升策略有效维持了训练过程中的策略熵，相比标准RLVR显著提升了Pass@k性能：在竞赛级AIME24和AIME25基准测试中，Pass@32指标分别实现18.3%和22.8%的绝对提升。在涵盖3B到32B不同模型规模的12个推理基准测试中，实验结果表明SvS策略具有持续性的泛化能力和鲁棒性。 | | 在通用设置中从偏好与混合演示中学习

（注：此处采用学术翻译的常见处理方式： 1. 保留核心术语"Preferences"和"Demonstrations"的准确译法"偏好"与"演示" 2. "Mixed"译为"混合"以保持机器学习领域的术语一致性 3. "General Settings"译为"通用设置"符合计算机科学文献表述惯例 4. 使用"从...中学习"的句式结构保持原文的动宾关系 5. 通过"与"字连接并列成分，确保学术表达的严谨性） | Jason R Brown | PDF | 强化学习是序列化场景中的通用学习方法，但在处理复杂任务时往往难以设定合适的奖励函数。此类情况下，可采用偏好反馈或专家示范作为替代方案。然而现有同时利用这两种数据的方法通常存在临时性、依赖领域特定属性或可扩展性不足的问题。我们提出了一种从人类数据中学习的新框架——观测值的奖励理性偏序关系，该框架兼具灵活性与可扩展性。基于此，我们开发了实用算法LEOPARD：通过偏好与分级示范学习估计目标。该算法能够利用包括负面示范在内的多种数据，高效学习跨领域奖励函数。实验表明，在仅能获取有限偏好和示范反馈的情况下，LEOPARD显著优于现有基线方法。此外，我们通过LEOPARD对比研究了多类型反馈与单一反馈的学习效果，发现融合多类型反馈通常能带来更优性能。 |