arxiv 2025-08-12

标题	作者	PDF链接	摘要
基于图像的流体模拟中隐式物理模型的学习

（翻译说明： 1. "Implicit Physics Model"译为"隐式物理模型"，保留计算机图形学领域专业术语 2. "Image-based"采用"基于图像的"这一标准译法，符合计算机视觉领域术语规范 3. "Fluid Simulation"译为"流体模拟"，沿用计算流体力学(CFD)领域的通用译名 4. 整体采用"定语+中心词"的中文语序结构，符合学术论文标题的翻译规范 5. 添加"中"字以明确研究场景，使中文表达更完整准确 6. 使用"学习"而非"学习法/学习方法"，保持与原文"Learning"的动词属性一致） | Emily Yue-Ting Jia | PDF | 人类具有从单张静态图像中想象四维场景（包含运动与三维几何结构）的非凡能力，这种能力源于对相似场景的长期观察积累以及对物理规律的直觉理解。本文旨在神经网络中复现这种能力，并特别聚焦于自然流体图像。现有方法通常采用简化的二维运动估计器来实现图像动画化，其运动预测往往违背物理原理，导致生成动画缺乏真实感。我们提出了一种从单幅图像生成符合物理规律的四维场景动画的新方法：通过构建物理信息神经网络来预测每个表面点的运动轨迹，其训练过程受到源自纳维-斯托克斯方程等基础物理原理的损失函数约束。为捕捉外观特征，我们从输入图像及其估计深度中预测基于特征的三维高斯分布，随后利用预测运动进行动态化处理，并支持任意摄像机视角的渲染。实验结果表明，本方法在生成物理合理动画方面效果显著，较现有方法展现出明显的性能提升。项目主页详见https://physfluid.github.io/。

（注：根据学术翻译规范，对以下术语进行了标准化处理： 1. "4D scenes"译为"四维场景"（时间+三维空间） 2. "physics-informed neural network"采用学界通用译法"物理信息神经网络" 3. "Navier-Stokes equations"保留专业名称"纳维-斯托克斯方程" 4. "3D Gaussians"译为"三维高斯分布"以保持数学概念准确性 5. 被动语态转换为中文主动句式（如"are then animated"处理为"利用...进行动态化处理"） 6. 长难句拆分重组（如原文最后实验部分拆分为结果陈述+比较说明）） | | ReferSplat: 基于3D高斯泼溅的参考目标分割

（翻译说明： 1. 专业术语处理： - "3D Gaussian Splatting" 译为"3D高斯泼溅"，这是计算机图形学领域的标准译法，指代一种基于高斯核的三维渲染技术 - "Referring Segmentation" 译为"参考目标分割"，准确表达根据参考信息进行特定目标分割的技术内涵

技术名称保留：
"ReferSplat" 作为方法名称保留不译，符合学术惯例
冒号后的副标题采用中文破折号规范格式
整体结构：
保持原标题的简洁性和技术准确性
使用"基于..."的句式明确技术基础
通过专业术语的统一译法确保学术严谨性） | Shuting He | PDF | 我们提出"指涉性3D高斯泼溅分割"（Referring 3D Gaussian Splatting Segmentation，R3DGS）这一新任务，其目标是根据自然语言描述（通常包含空间关系或物体属性）在3D高斯场景中分割目标物体。该任务要求模型能够识别在新视角下可能被遮挡或不可见的新描述对象，这对3D多模态理解提出了重大挑战。发展这种能力对推进具身人工智能至关重要。为支持该领域研究，我们构建了首个R3DGS数据集Ref-LERF。分析表明，3D多模态理解和空间关系建模是R3DGS面临的核心难题。为此，我们提出ReferSplat框架，该框架在空间感知范式下显式建模3D高斯点与自然语言表达的关系。ReferSplat在新提出的R3DGS任务和3D开放词汇分割基准测试中均实现了最先进性能。数据集与代码已开源：https://github.com/heshuting555/ReferSplat。

（注：根据学术翻译规范： 1. 专业术语采用"指涉性"而非"参考性"更符合认知科学术语体系 2. "Splatting"译为"泼溅"是计算机图形学标准译法 3. 保持"3D Gaussian"原文形式符合中文计算机领域术语使用习惯 4. "open-vocabulary"译为"开放词汇"是自然语言处理领域通用译法 5. 技术框架名称ReferSplat保留原文不翻译符合惯例） | | StableAvatar：无限时长音频驱动虚拟人生成视频技术

（翻译说明： 1. 专业术语处理： - "StableAvatar" 保留品牌名不译，符合技术命名惯例 - "Audio-Driven" 译为"音频驱动"，准确传达技术原理 - "Avatar Video Generation" 译为"虚拟人生成视频"，其中： * "Avatar" 采用行业通用译法"虚拟人" * "Generation" 在计算机图形学领域规范译为"生成"

技术特性表达：
"Infinite-Length" 译为"无限时长"，突出技术突破点
增译"技术"二字，符合中文论文标题习惯
结构优化：
使用冒号替代原标题的间隔号，更符合中文标题规范
调整语序为"技术实现方式+技术效果"的逻辑结构
学术规范性：
保持与计算机图形学领域术语体系一致
译文与CVPR/ICCV等顶会论文的中文标题风格统一） | Shuyuan Tu | PDF | Current diffusion models for audio-driven avatar video generation struggle to synthesize long videos [翻译失败] | | Cut2Next：基于上下文调优的下一镜头生成技术

翻译说明： 1. "Cut2Next"作为专有技术名称采用音意结合译法，保留"Cut"（剪辑）的影视术语概念，同时音译"Next"体现技术连续性 2. "Generating Next Shot"译为"下一镜头生成"，准确传达影视制作领域的专业术语"shot"（镜头）的概念 3. "In-Context Tuning"译为"上下文调优"，符合计算机视觉领域对context一词的技术处理惯例，同时"调优"比直译"调整"更准确体现机器学习中的tuning过程 4. 整体采用"技术"作为中心词，比"方法/方案"更能体现该研究的工程实现特性 5. 冒号前后结构保持学术论文标题的严谨格式，冒号前突出技术名称，冒号后说明技术原理 | Jingwen He | PDF | 高效的多镜头生成需要具有目的性、电影化的转场效果以及严格的镜头连续性。然而现有方法往往仅关注基础视觉一致性，忽视了推动叙事流动的关键剪辑模式（如正反打镜头、插入镜头等），导致生成内容虽具视觉连贯性，却缺乏叙事深度与真正的电影艺术完整性。为此，我们提出"下一镜头生成"（NSG）框架：在严格遵循电影连续性的前提下，合成符合专业剪辑范式的高质量后续镜头。

我们的Cut2Next框架采用扩散变换器（DiT）架构，通过创新性的"分层多提示策略"进行上下文调优。该策略运用关系提示词定义整体语境与镜头间剪辑风格，配合独立提示词明确单镜头内容与摄影属性，共同引导模型生成符合电影叙事的后续镜头。框架还包含两项核心创新：无需新增参数的"上下文感知条件注入"（CACI）机制与"分层注意力掩码"（HAM）技术，有效整合多层次控制信号。

我们构建了包含分层提示词的大规模RawCuts数据集与精编版CuratedCuts数据集，并开发CutBench评估体系。实验表明Cut2Next在视觉一致性与文本保真度方面表现优异。关键性用户调研显示，该框架因精准遵循目标剪辑模式与整体镜头连续性而获得显著偏好，验证了其生成高质量、叙事性强且电影语言连贯的后续镜头的能力。 | | 《Jinx：用于探测对齐失效的无限大语言模型》

（翻译说明： 1. 保留专有名词"Jinx"不译，作为工具名称更符合技术文献惯例 2. "Unlimited LLMs"译为"无限大语言模型"，其中： - "Unlimited"采用语境化译法，突出其不受限制的特性 - "LLMs"使用学界通用译名"大语言模型" 3. "Probing Alignment Failures"译为"探测对齐失效"： - "Probing"译为"探测"符合机器学习领域术语 - "Alignment Failures"采用人工智能安全领域的标准译法"对齐失效" 4. 整体采用学术标题的简洁风格，使用冒号分隔主副标题结构 5. 通过书名号强调这是系统/工具名称，符合中文技术文献规范） | Jiahao Zhao | PDF | 无限型（或称纯辅助型）语言模型在训练过程中未施加安全对齐约束，因而从不拒绝用户查询。这类模型被顶尖AI公司广泛用作红队测试和对齐评估的内部工具。例如，当安全对齐模型产生与无限型模型类似的有害输出时，即表明存在需要重点关注的对齐失效现象。尽管此类模型在对齐评估中具有关键作用，但研究界至今无法获取相关资源。

我们推出Jinx——基于主流开源权重大语言模型构建的纯辅助型变体。该模型在保留基础模型推理与指令遵循能力的同时，对所有查询均不作拒绝或安全过滤处理。Jinx为研究人员提供了易用工具，可用于：探测对齐失效、评估安全边界、系统研究语言模型安全中的失效模式。 | | ODYSSEY：面向长时程任务的开源四足机器人开放世界探索与操控系统

（翻译说明：
1. "Open-World"译为"开放世界"，符合机器人学领域对未知动态环境的通用表述
2. "Quadrupeds"明确译为"四足机器人"，区别于生物学语境下的"四足动物"
3. "Exploration and Manipulation"采用"探索与操控"的标准化机器人学术语对译
4. "Long-Horizon Tasks"译为"长时程任务"，准确表达长期持续任务特性
5. 保留英文项目名"ODYSSEY"不翻译，遵循技术系统命名惯例
6. 整体采用"系统"作为隐性中心词，符合中文技术文献表述规范） | Kaijun Wang | PDF | Language-guided long-horizon mobile manipulation has long been a grand challenge in embodied semanti [翻译失败] | | VGGSounder：基础模型的视听评估系统

（翻译说明： 1. 保留原项目名称"VGGSounder"作为专有名词不译 2. "Audio-Visual Evaluations"译为"视听评估"，采用学术领域标准术语 3. "Foundation Models"译为"基础模型"，符合人工智能领域对大规模预训练模型的规范译法 4. 整体采用"系统"作为隐性补充，更符合中文技术文献命名习惯 5. 冒号使用保持原文格式，符合中文标点规范） | Daniil Zverev | PDF | 视听基础模型的兴起凸显了可靠评估其多模态理解能力的重要性。VGGSound数据集作为视听分类评估基准被广泛采用，但我们的分析发现其存在标注不全、类别部分重叠及模态未对齐等局限性，导致对听觉与视觉能力的评估存在偏差。为此，我们推出VGGSounder——一个基于VGGSound扩展的、经全面重新标注的多标签测试集，专门用于评估视听基础模型。该数据集具备精细的模态标注功能，可支持针对特定模态性能的精准分析。此外，我们通过新提出的模态混淆度量指标，揭示了模型在增加输入模态时性能下降的局限性。

（翻译说明： 1. 专业术语处理："foundation models"译为"基础模型"，"multi-modal"译为"多模态"，"benchmark"译为"基准"，均采用计算机视觉领域标准译法 2. 技术概念保留：保留"VGGSound"和"VGGSounder"原始命名，首次出现时标注英文原名 3. 句式重构：将英语长句拆分为符合中文表达习惯的短句，如将"including..."从句处理为独立分句 4. 被动语态转换："is commonly used"译为主动式"被广泛采用" 5. 学术表达规范："modality confusion metric"译为"模态混淆度量指标"，符合IEEE论文翻译惯例 6. 逻辑显化：通过破折号和括号实现原文隐含的逻辑关系显性化表达） | | 基于大语言模型评判的中文心理健康对话安全性评估研究

（说明：翻译要点解析： 1. "Exploring"译为"研究"更符合中文论文标题习惯 2. "Safety Alignment Evaluation"译为"安全性评估"并前置，突出研究重点 3. "LLM-as-Judge"创造性译为"大语言模型评判"，既保留技术特征又符合中文表达 4. 通过"基于...的"结构整合长定语，保持学术严谨性 5. "Mental Health Dialogues"专业译为"心理健康对话"，准确传递领域特征 6. 整体采用"研究对象+方法"的中文标题范式，字数控制在25字内） | Yunna Cai | PDF | Evaluating the safety alignment of LLM responses in high-risk mental health dialogues is particularl [翻译失败] | | LL3M：大型语言三维建模器

（翻译说明：
1. "Large Language" 译为"大型语言"，符合计算机领域对LLM（大语言模型）的既定译法
2. "3D Modelers" 采用"三维建模器"的学术规范译法，区别于非专业场景的"3D模型制作工具"等表述
3. 保留首字母缩写"LL3M"不译，维持技术术语的专有性
4. 冒号使用中文全角符号，符合中文排版规范） | Sining Lu | PDF | We present LL3M, a multi-agent system that leverages pretrained large language models (LLMs) to gene [翻译失败] | | OMGSR：真实世界图像超分辨率仅需单中间步引导

（翻译说明： 1. 保留英文缩写"OMGSR"作为技术名称，符合计算机视觉领域论文命名惯例 2. "mid-timestep guidance"译为"中间步引导"，准确表达扩散模型中时间步的核心概念 3. "real-world"译为"真实世界"而非"现实世界"，更符合计算机视觉领域对非合成数据的标准表述 4. 采用"仅需"的表述方式，突出论文方法的高效性特点 5. 整体句式结构保持原文的学术简洁性，同时符合中文技术论文标题的表述习惯） | Zhiqiang Wu | PDF | Denoising Diffusion Probabilistic Models (DDPM) and Flow Matching (FM) generative models show promis [翻译失败] |