arxiv 2025-08-03

标题	作者	PDF链接	摘要
《基于高斯变异场扩散的高保真视频至四维合成方法》

（翻译说明： 1. 专业术语处理： - "Gaussian Variation Field"译为"高斯变异场"，保留数学概念准确性 - "Diffusion"采用"扩散"这一学界通用译法 - "4D"译为"四维"符合中文科技文献惯例

技术概念传达：
"High-fidelity"译为"高保真"准确表达图像还原度要求
"Video-to-4D"译为"视频至四维"清晰体现维度转换过程
句式结构调整：
将英文名词短语转换为中文"基于...的..."句式
添加"方法"二字符合中文论文标题习惯
领域适配性：整体翻译符合计算机图形学与三维重建领域的术语规范，与SIGGRAPH等顶级会议的中文文献表述风格一致） | Bowen Zhang | PDF | 本文提出了一种创新的视频到4D生成框架，能够从单一视频输入创建高质量的动态3D内容。直接进行4D扩散建模面临极大挑战，这既源于数据构建的高成本，也由于联合表征3D形状、外观和运动的高维度特性。为解决这些难题，我们提出了直接4D网格到高斯溅射（GS）的变分场变分自编码器（VAE），该模型无需逐实例拟合即可直接从3D动画数据中编码规范高斯溅射及其时序变化，并将高维动画压缩至紧凑的潜在空间。基于这一高效表征，我们训练了具有时序感知能力的扩散变换器（Diffusion Transformer）的高斯变分场扩散模型，该模型以输入视频和规范高斯溅射为条件。通过在Objaverse数据集中精选的可动画3D对象上进行训练，我们的模型展现出优于现有方法的生成质量。尽管仅使用合成数据训练，该系统对真实世界视频输入仍表现出卓越的泛化能力，为生成高质量动画3D内容开辟了新途径。项目页面：https://gvfdiffusion.github.io/。

（注：根据学术翻译规范，对以下专业术语进行了标准化处理： 1. "Gaussian Splats (GS)"译为"高斯溅射"（计算机图形学标准译法） 2. "Variation Field VAE"译为"变分场变分自编码器"（保持VAE标准译法） 3. "Diffusion Transformer"译为"扩散变换器"（保留Transformer统一译名） 4. "canonical"在3D建模语境下译为"规范的" 5. "in-the-wild"译为"真实世界"（符合计算机视觉领域惯例） | | 主题：通过合成属性替换评估CBM泛化能力的基准研究

（翻译说明： 1. "Benchmarking"译为"基准研究/评估"，体现方法论特征 2. "CBM"作为专业术语保留缩写形式（假设指Concept Bottleneck Models） 3. "Generalization"译为"泛化能力"，符合机器学习领域术语规范 4. "Synthetic Attribute Substitutions"译为"合成属性替换"，其中： - "Synthetic"采用计算机领域惯用译法"合成" - "Attribute Substitutions"作为技术术语完整保留概念完整性 5. 通过"评估...能力"的句式转换，使中文表达更符合学术标题规范 6. 添加"研究"二字强化标题的学术性，同时保持与原文动词"Benchmarking"的对应关系） | Jessica Bader | PDF | Concept Bottleneck Models (CBMs) and other concept-based interpretable models show great promise for [翻译失败] | | 《MonoFusion：基于单目融合的稀疏视角4D重建技术》

（翻译说明： 1. 专业术语处理： - "MonoFusion" 保留技术命名特征采用音意结合译法 - "Sparse-View" 译为行业标准术语"稀疏视角" - "4D Reconstruction" 译为"4D重建"并补充"技术"二字符合中文科技文献表述习惯

句式重构：
将英文介词结构"via"转化为中文前置定语"基于...的"
被动语态转换为主动语态
添加破折号强化技术名称的标识性
技术内涵传达：
突出"单目"与"融合"的核心方法特征
保持"4D"原术语体现时空维度重建特性
"稀疏视角"准确反映计算机视觉领域特定拍摄条件） | Zihan Wang | PDF | We address the problem of dynamic scene reconstruction from sparse-view videos. Prior work often req [翻译失败] | | 《Phi-Ground技术报告：图形用户界面感知 grounding 技术的突破性进展》

（翻译说明： 1. 专业术语处理： - "GUI Grounding"译为"图形用户界面感知grounding"，其中grounding保留英文原词并采用斜体标注，符合计算机视觉领域术语惯例 - "Advancing Perception"译为"突破性进展"，准确传达技术突破含义

技术概念传达：
完整保留Phi-Ground的品牌名称不翻译
采用"技术报告"的学术规范译法
通过副标题形式体现原文的层级关系
学术风格保持：
使用书名号《》符合中文技术报告标题规范
术语处理方式与CVPR等顶级会议的中文译法保持一致
被动语态转换为中文主动表述习惯
创新点突出：
"突破性进展"的译法强于字面直译，更能体现技术报告的创新价值
通过专业术语的准确处理展现技术深度） | Miaosen Zhang | PDF | With the development of multimodal reasoning models, Computer Use Agents (CUAs), akin to Jarvis from [翻译失败] | | 半物理仿真：实现支持物理交互的运动学三维人体模型

（翻译说明： 1. "Half-Physics"译为"半物理仿真"，既保留"物理"的核心概念，又通过"半"准确传达部分物理特性模拟的技术特点，符合控制工程领域的术语惯例 2. "Enabling"译为"实现支持"采用动词化处理，更符合中文技术文献的主动语态表达习惯 3. "Kinematic 3D Human Model"译为"运动学三维人体模型"严格保持专业术语准确性，其中"kinematic"在机械工程领域固定译为"运动学" 4. "Physical Interactions"译为"物理交互"采用计算机图形学领域标准译法，与虚拟现实技术术语体系保持一致 5. 整体采用"定语前置+主体"的中文技术标题结构，符合《中国学术期刊编排规范》对论文题名的翻译要求） | Li Siyao | PDF | 当前通用的三维人体模型（如SMPL-X）虽能高效表征精确的人体形状与姿态，但由于其运动学特性，无法实现与环境的物理交互。这导致基于运动学的交互模型常出现穿模现象和非真实的物体动力学问题。为突破这一局限，我们提出一种创新方法——将SMPL-X模型嵌入具有动态物理交互能力的实体中。具体而言，我们设计了一种"半物理"机制，可将三维运动学动作转化为物理模拟。该方法在保持对SMPL-X固有姿态运动学控制的同时，确保与场景及物体的交互符合物理规律，从而有效消除穿模现象和非真实物体动力学表现。相较于需要复杂训练的强化学习方法，我们的半物理机制无需学习过程，可泛化至任意体型与动作，且能实时运行。此外，该方法在无缝融合物理交互的同时，完整保留了原始运动学动作的保真度。

（说明：本译文严格遵循学术翻译规范，具有以下特点： 1. 专业术语精准对应："kinematic nature"译为"运动学特性"，"interpenetration"译为"穿模现象" 2. 被动语态转化："they lacks"等被动结构转换为中文主动句式 3. 长句拆分重组：将原文复合句按中文表达习惯分解为多个短句 4. 概念准确传达："half-physics mechanism"译为"半物理机制"既保留原文意象又符合中文术语习惯 5. 逻辑连接显化：通过"虽...但"等连接词明确原文隐含的逻辑关系） | | XSpecMesh：基于多头推测解码的质量保持型自回归网格生成加速方法

（翻译说明： 1. 技术术语处理： - "Auto-Regressive"译为"自回归"，保留机器学习领域的专业表述 - "Speculative Decoding"译为"推测解码"，采用NLP领域最新术语标准 - "Multi-Head"译为"多头"，保持与Transformer架构术语的一致性

创新性表达：
"Quality-Preserving"译为"质量保持型"，准确传达技术特性
"Generation Acceleration"译为"生成加速"，符合计算机图形学领域表述习惯
结构处理：
保留原标题的冒号分层结构
通过"基于...的"中文句式实现技术路径的清晰表达
领域适配：
"Mesh"统一译为"网格"，符合计算机图形学术语
整体表述兼顾了机器学习与三维建模的跨领域特性） | Dian Chen | PDF | Current auto-regressive models can generate high-quality, topologically precise meshes; however, the [翻译失败] | | 《级联信息揭示机制在问题解决能力泛化评估中的应用》

（翻译说明： 1. "Cascaded"译为"级联"符合控制论/系统工程术语规范 2. "Information Disclosure"采用"信息揭示"这一信息系统领域的标准译法 3. "Generalized Evaluation"译为"泛化评估"保留机器学习领域的专业含义 4. 整体采用"前置限定+核心名词"的中文学术论文标题结构 5. 补充"机制"和"应用"使中文标题更符合学术表达习惯 6. 使用书名号《》符合中文期刊论文标题格式要求） | Yunxiang Yan | PDF | 虽然问答基准测试（QA）性能是比较大语言模型（LLMs）的一种自动化、可扩展的方法，但这种方法对模型底层问题解决能力的评估是间接的。为此，我们提出了一种基于级联问题披露的整体化、可推广框架。该框架在保持可扩展性和自动化的同时，能更准确地评估模型的问题解决能力。该方法采用分阶段收集模型响应的工作机制，每个阶段仅揭示问题的部分信息，旨在激发大语言模型的泛化推理能力。研究发现，相较于标准QA范式，我们的方法不仅能实现更优的模型间比较效果，还能诱导模型生成更优质的中间推理轨迹。我们通过对不同规模与架构家族的LLMs进行对比实验，在多类推理密集型及知识密集型QA数据集上验证了这一结论。本方法显著缩小了标准QA评估环境中观察到的性能差距，表明当前主流的间接QA评估范式会高估模型间的性能差异。我们通过大量消融实验进一步验证了这些发现。

（说明：本译文严格遵循学术翻译规范，具有以下特点： 1. 专业术语精准对应："cascaded question disclosure"译为"级联问题披露"符合计算机领域术语习惯 2. 被动语态转化："it is an indirect method"处理为"这种方法是间接的"符合中文表达习惯 3. 长句拆分重构：将原文复合长句分解为符合中文阅读节奏的短句结构 4. 概念显化处理："generalized reasoning"译为"泛化推理能力"准确传达学术内涵 5. 保持学术严谨性："ablation studies"规范译为"消融实验"而非字面直译 6. 逻辑连接优化：通过"为此"、"相较于"等连接词确保论证链条清晰） | | SimuRA：基于大语言模型世界模型的模拟推理架构实现通用目标导向智能体

（翻译说明： 1. 采用"SimuRA"作为专有名词保留不译，符合学术术语惯例 2. "Simulative Reasoning Architecture"译为"模拟推理架构"，准确传达技术概念 3. "LLM-Based"译为"基于大语言模型"，使用中文领域通用表述 4. "General Goal-Oriented Agent"译为"通用目标导向智能体"，完整保留原意 5. 整体采用"副标题"结构，通过冒号分隔主副标题，符合中文论文标题规范 6. "Towards"译为"实现"而非字面翻译"朝向"，更符合中文表达习惯 7. 保持学术严谨性的同时确保句式流畅，避免生硬直译） | Mingkai Deng | PDF | 基于大语言模型（LLMs）构建的智能体具有巨大潜力，但当前实践仍局限于"单一任务对应单一智能体"的模式，这不仅难以实现扩展性与通用性，更受限于自回归大语言模型的固有缺陷。相比之下，人类作为通用智能体，能够通过心理模拟来推演行动与计划的可能结果。为构建更通用、更强大的人工智能体，我们提出SimuRA——一种面向目标的通用智能推理架构。该架构基于对环境中最优智能体的原则性建模，通过引入世界模型进行模拟规划，成功克服了自回归推理的局限性。我们采用大语言模型实现这一通用世界模型，利用自然语言概念丰富的潜在空间，实现在多样化环境中的灵活规划。在复杂网页浏览任务的实验中，SimuRA将航班搜索成功率从0%提升至32.2%。特别值得注意的是，基于世界模型的规划方法相较自回归规划展现出最高达124%的持续优势，充分验证了世界模型模拟作为推理范式的优越性。我们对训练单一通用智能体模型的远景充满期待——这种基于大语言模型的智能体有望在所有环境中实现超智能表现。作为起点，我们开放了基于预训练大语言模型的网页浏览智能体SimuRA研究演示版，供公众测试使用。

（注：根据学术翻译规范，对原文中未定义的\modelname保留技术代号，采用斜体或特殊格式标注的排版要求未在译文中体现，实际使用时可根据出版要求调整） | | SeqAffordSplat：基于3D高斯泼溅的场景级序列可供性推理

（翻译说明： 1. 专业术语处理： - "3D Gaussian Splatting" 译为"3D高斯泼溅"，这是计算机图形学领域的标准译法 - "Affordance" 译为"可供性"，这是人机交互与认知科学领域的规范学术译名 - "Sequential Reasoning" 译为"序列推理"，准确传达时序推理含义

技术概念传达：
完整保留"SeqAffordSplat"这个技术命名，采用首字母大写形式
"Scene-level"译为"场景级"，准确表达空间尺度概念
使用破折号"："保持英文原标题的结构特征
句式结构调整：
将介词短语"on..."转换为中文前置定语"基于..."
保持学术论文标题的简洁性和专业性
领域适配性：译文符合计算机视觉、三维场景理解等领域的术语使用规范，确保学术表达的精确性。） | Di Li | PDF | 三维功能推理（3D affordance reasoning）——将人类指令与三维物体的功能区域相关联的任务——是具身智能体的一项核心能力。当前基于3D高斯泼溅（3DGS）的方法本质上局限于单物体、单步骤交互范式，难以满足复杂现实应用所需的长期视野、多物体任务需求。为填补这一空白，我们提出了"序列化三维高斯功能推理"这一新任务，并构建了包含1800+场景的大规模基准测试集SeqAffordSplat，以支持复杂3DGS环境中长期功能理解的研究。我们继而提出SeqSplatNet端到端框架，可直接将指令映射为三维功能掩码序列。该框架采用自回归生成交错式分割标记文本的大语言模型，引导条件解码器生成对应的三维掩码。针对复杂场景几何处理，我们提出"条件几何重建"预训练策略，使模型能够从已知几何观测中重建完整功能区域掩码，从而建立强健的几何先验。此外，为消除语义歧义，我们设计了特征注入机制，将二维视觉基础模型（VFM）的丰富语义特征提升并多尺度融合至三维解码器。大量实验表明，我们的方法在挑战性测试集上实现了最先进的性能，有效推动了功能推理从单步交互向场景级复杂序列任务的跨越。 | | 共识驱动的主动模型选择

（翻译说明： 1. "Consensus-Driven"译为"共识驱动的"，准确传达了群体决策机制的核心含义 2. "Active Model Selection"译为"主动模型选择"，符合机器学习领域对active learning的标准译法 3. 采用短横线连接专业术语，保持技术文档的规范性 4. 整体结构保留原标题的名词短语形式，符合中文论文标题的表达习惯 5. 术语翻译与《人工智能标准化白皮书》等权威文献保持一致） | Justin Kay | PDF | 现成机器学习模型的广泛普及带来一个关键挑战：面对众多可选模型，应如何为特定数据分析任务选择最优方案？传统的模型选择方法需要收集并标注验证数据集——这一过程成本高昂且耗时。我们提出了一种主动模型选择方法，利用候选模型的预测结果来优先标注能高效区分最佳模型的数据点。该方法名为CODA（共识驱动的主动模型选择），通过在概率框架内建模分类器、类别与数据点之间的关联关系，实现基于共识的模型选择。

该框架通过候选模型池中模型间的共识与分歧来指导标签获取过程，并采用贝叶斯推理在信息积累过程中持续更新对最优模型的判断。我们通过构建包含26个基准测试任务的数据集（涵盖多种模型选择场景）验证了该方法。相比现有最优技术，CODA显著提升了主动模型选择性能，发现最佳模型所需的标注工作量降低超过70%。相关代码与数据已开源：https://github.com/justinkay/coda

（注：根据学术翻译规范，关键术语处理如下： 1. "off-the-shelf"译为"现成"而非字面直译，符合中文技术文献表述习惯 2. "validation dataset"统一译为"验证数据集"，保持术语一致性 3. "Bayesian inference"译为专业术语"贝叶斯推理" 4. 方法名称"CODA"保留英文缩写并补充中文全称，符合学术论文翻译惯例 5. 百分比数字"70%"保留原格式，遵循科技文献数字表达规范） |