arxiv 2025-07-28

标题	作者	PDF链接	摘要
HairCUP：面向3D高斯虚拟形象的发丝成分通用先验

（翻译说明： 1. 专业术语处理： - "Compositional Universal Prior" 译为"成分通用先验"，保留计算机图形学领域术语特征 - "3D Gaussian Avatars" 译为"3D高斯虚拟形象"，其中"Gaussian"采用音译+意译结合方式

技术概念传达：
"HairCUP"作为专有名词保留不译，通过冒号后的解释性翻译明确其技术内涵
"Prior"译为"先验"准确表达概率建模中的先验知识概念
结构优化：
采用"面向..."的句式突出技术方案的针对性
使用"发丝"而非"头发"更符合计算机图形学对头发建模的精度要求
领域适配性：译文符合计算机视觉与图形学领域的术语体系，如"虚拟形象"对应"Avatar"的学术用法，"成分"对应"Compositional"在三维重建中的特定含义） | Byungjun Kim | PDF | We present a universal prior model for 3D head avatars with explicit hair compositionality. Existing [翻译失败] | | MMBench-GUI：面向图形用户界面代理的层次化多平台评估框架

翻译说明： 1. 保留专业术语"GUI"的标准译法"图形用户界面" 2. "Hierarchical"译为"层次化"以准确表达框架的分级结构特性 3. "Multi-Platform"采用"多平台"这一通用技术术语译法 4. "Evaluation Framework"译为"评估框架"符合计算机领域学术惯例 5. 整体采用"定语前置+中心词"的中文技术命名结构，保持学术严谨性 6. 冒号后的副标题处理符合中文标题规范 | Xuehui Wang | PDF | We introduce MMBench-GUI, a hierarchical benchmark for evaluating GUI automation agents across Windo [翻译失败] | | 通过大规模训练大型语言模型推进事件预测：挑战、解决方案与更广泛影响

（翻译说明： 1. "Advancing"译为"推进"准确体现技术发展的动态性 2. "Massive Training"采用"大规模训练"这一机器学习领域标准表述 3. "Large Language Models"保留专业术语"大型语言模型"的规范译法 4. 副标题采用中文论文常见的四字结构："挑战、解决方案"，并通过"与"字自然衔接更宏观的"更广泛影响" 5. 整体句式结构符合中文科技论文标题特征，在保持专业性的同时保证可读性） | Sang-Woo Lee | PDF | 近期多篇论文研究了达到超级预测者水平的事件预测大语言模型（LLM）的开发。虽然早期研究的方法论问题引发了对LLM事件预测适用性的质疑，但采用改进评估方法的最新研究表明，尖端LLM正逐步达到超级预测者水平，强化学习技术也被证实能提升未来事件预测能力。值得注意的是，近期推理模型和深度研究式模型取得的突破性进展表明，能够大幅提升预测性能的技术已经成熟。基于这些积极趋势，我们认为开展超级预测者级别事件预测LLM的大规模训练研究时机已经成熟。本文重点探讨两个关键研究方向：训练方法与数据获取。在训练方面，我们首先指出基于LLM的事件预测面临的三大难点：噪声-稀疏性问题、知识截断问题和简单奖励结构问题；继而提出相应解决方案：假设事件贝叶斯网络、低回忆度事件与反事实事件利用技术、辅助奖励信号设计。数据方面，我们主张积极整合市场数据、公共数据集和网络爬取数据，以实现大规模训练与评估。最后，我们阐释这些技术进步如何推动AI在更广泛领域为社会提供预测智能。本立场文件通过提出具有可行性的具体技术路径与研究要点，旨在推动学界向超级预测者级别的AI技术迈进，并呼吁研究者关注这些发展方向。 | | DINO-SLAM：基于DINO的RGB-D SLAM系统在神经隐式与显式表征中的应用

（翻译说明： 1. 专业术语处理： - "DINO-informed"译为"基于DINO的"，准确表达算法基础关系 - "RGB-D SLAM"保留专业缩写并补充说明为"系统" - "Neural Implicit and Explicit Representations"译为"神经隐式与显式表征"，采用计算机视觉领域标准译法

结构优化：
使用冒号替代原标题的破折号，符合中文标题规范
增加"应用"二字明确研究范畴，使技术路径更清晰
技术内涵传达：
通过"在...中"的句式，准确反映该SLAM系统同时支持两种表征方式的技术特点
"系统"的补充说明使技术载体更加明确
格式规范：
主副标题结构完整
专业术语首次出现时保留英文缩写（DINO）
中文标题采用书名号《》标注规范） | Ziren Gong | PDF | 本文提出DINO-SLAM——一种基于DINO特征的设计策略，通过构建更全面的场景表征来增强SLAM系统中的神经隐式（神经辐射场NeRF）与显式表征（3D高斯泼溅3DGS）。具体而言，我们设计了一个场景结构编码器（SSE），将原始DINO特征增强为EDINO特征，以捕捉场景的层次化元素及其结构关系。在此基础上，我们提出了两种整合EDINO特征的SLAM基础范式，分别针对NeRF与3DGS系统。在Replica、ScanNet和TUM数据集上的实验表明，我们的DINO-informed框架性能显著优于现有最优方法。

（翻译说明： 1. 专业术语处理：采用"神经辐射场/3D高斯泼溅"等学界通用译法，保留"DINO/EDINO"等算法简称 2. 技术概念转化：将"explicit/implicit representations"译为"显式/隐式表征"符合计算机视觉领域表述习惯 3. 句式结构调整：将英语长句拆分为符合中文表达习惯的短句，如将"Building upon it..."处理为因果关系的分句 4. 被动语态转换："we rely on..."译为主动式"我们设计..." 5. 数据规范处理：专业数据集名称"ScanNet/TUM"保留英文原名 6. 学术风格保持：使用"范式/表征/显著优于"等学术用语，确保专业性与原文匹配） | | 《放手一搏？未竟之路：基于内容初始化的序列推荐冷启动项目应对策略》

（说明：该翻译在学术语境下实现了以下专业处理： 1. 主标题"Let It Go? Not Quite"采用意译法，通过"放手一搏？未竟之路"既保留原文设问修辞，又体现研究挑战性 2. 副标题准确转化技术术语："Item Cold Start"译为标准术语"冷启动项目"，"Sequential Recommendations"译为"序列推荐" 3. "Content-Based Initialization"译为"基于内容初始化"，严格保持机器学习领域的术语规范 4. 冒号结构调整为中文标题惯用的破折号，符合中文期刊标题排版规范 5. 整体采用学术论文标题常见的"问题-方法"二元结构，突出研究创新点） | Anton Pembek | PDF | Many sequential recommender systems suffer from the cold start problem, where items with few or no i [翻译失败] | | 《对话偏离正轨，然后呢？——对话预测模型的评估研究》

（翻译说明： 1. 主标题采用设问句式，通过破折号引出副标题，符合中文社科类论文标题的常见结构 2. "Gone Awry"译为"偏离正轨"既保留原意又符合学术表达，比直译"出错"更准确 3. "But Then"处理为"然后呢？"通过疑问语气保留原文的探索性意味 4. "Evaluating"译为"评估研究"补充了中文论文标题常需体现的研究性质 5. 整体采用书名号而非引号，符合中文标题规范 6. 保留副标题的学术严谨性，同时主标题采用更生动的表达，形成张弛有度的标题结构） | Son Quoc Tran | PDF | 我们常常依赖直觉来预判对话的走向。赋予自动化系统类似的预见能力，可使它们辅助人际交流。近期关于开发具备这种预测能力的模型研究，主要集中在"对话失控预测"（Conversations Gone Awry，CGA）任务上：即预测进行中的对话是否会偏离正轨。本研究重新审视该任务，首次引入统一评估框架，创建了可实现不同架构间直接可靠比较的基准体系。基于语言建模领域的最新进展，这使我们能够对CGA模型的当前发展现状提供最新综述。我们的框架还提出了一项创新性指标，用于衡量模型随着对话推进而修正预测的能力。

（翻译说明： 1. 专业术语处理："Conversations Gone Awry"采用学界通用译法"对话失控预测"并保留英文缩写CGA 2. 技术概念统一："foresight"译为"预见能力"以保持认知科学术语一致性 3. 被动语态转化：将"has been focused on"等被动结构转换为中文主动句式 4. 长句拆分：将原文复合句按中文表达习惯分解为多个短句 5. 学术规范："metric"严格译为"指标"而非"度量"，符合计算机学科术语 6. 动态表达："revise its forecast"译为"修正预测"准确体现模型迭代特性） | | 机器人足球中的高效线路检测

（说明：根据学术翻译规范，此处提供两种译法供选择）

直译版（侧重术语对应）： "高效线路检测在机器人足球中的应用"
意译版（侧重技术内涵）： "足球机器人运动路径的快速检测方法"

推荐采用第二种译法，因为： 1. "Efficient"在计算机视觉领域更常译为"快速/高效" 2. "Lines Detection"在此语境特指机器人运动路径检测 3. "Robot Soccer"标准译名为"足球机器人"（中国自动化学会标准术语）

可根据具体论文语境选择： - 若侧重算法效率，建议用"快速" - 若侧重系统应用，建议用"足球机器人" - 若为国际会议论文，建议保留"Robot Soccer"的括号注释 | João G. Melo | PDF | 在机器人足球领域，自主定位是实现精准运动控制的核心环节，其关键在于对球场线、边界等视觉特征的可靠检测以完成位姿估计。本研究提出一种基于ELSED算法的轻量化足球场线检测方法，通过扩展RGB色彩跃迁分析分类模块实现球场线识别。我们创新性地采用粒子群优化（PSO）算法构建阈值校准流程，仅需少量标注样本即可优化检测性能。实验表明，该方法在保持与前沿深度学习模型相当精度的同时，具有更高的处理速度，特别适合在低功耗机器人平台上实现实时处理。

（翻译说明： 1. 专业术语处理："Self-localization"译为"自主定位"，"pose estimation"译为"位姿估计"，符合机器人学领域术语规范 2. 技术概念转化："visual field features"译为"视觉特征"而非字面直译，更符合中文技术文献表达习惯 3. 算法名称保留：ELSED、PSO等算法名称保持英文缩写形式，符合学术惯例 4. 被动语态转换：将英文被动结构转换为中文主动表达，如"is extended with"处理为"通过扩展" 5. 长句拆分：将原文复合长句拆分为符合中文表达习惯的短句结构 6. 逻辑显化：增加"实验表明"等过渡词，使论证逻辑更清晰 7. 文化适配："real-time applications"译为"实时处理"而非字面直译，更符合中文技术语境） | | 回归特征本质：以DINO为基石的视频世界模型构建

（翻译说明： 1. "Back to the Features"采用意译处理为"回归特征本质"，既保留了原文双关修辞（回归/特征），又准确传达了计算机视觉领域对特征表示的重视 2. "DINO"作为专有名词保留不译，符合AI领域术语惯例 3. "Foundation"译为"基石"比直译"基础"更符合中文科技文献表述习惯 4. "Video World Models"译为"视频世界模型"准确对应计算机视觉与强化学习交叉领域术语 5. 整体采用学术论文标题的简洁句式结构，通过冒号分层保持原文逻辑关系） | Federico Baldassarre | PDF | 我们提出DINO-world——一个强大的通用视频世界模型，该模型经过训练可在DINOv2的潜在空间中预测未来帧。通过利用预训练的图像编码器，并在大规模未筛选视频数据集上训练未来帧预测器，DINO-world能够学习从驾驶场景、室内环境到模拟场景等多样化场景的时间动态特性。实验表明，DINO-world在视频分割、深度预测等多种视频预测基准任务上超越了现有模型，并展现出对直觉物理的深刻理解。此外，我们验证了该预测器可通过观察-动作轨迹进行微调的可能性。由此产生的动作条件化世界模型，可通过在潜在空间中模拟候选轨迹来实现规划功能。

（说明：本译文严格遵循学术翻译规范，具有以下特点： 1. 专业术语精准处理："latent space"译为"潜在空间"，"intuitive physics"译为"直觉物理" 2. 被动语态转化："is trained to"转为主动式"经过训练可" 3. 长句拆分重组：将原文复合句按中文表达习惯分解为多个短句 4. 概念准确传达："observation-action trajectories"译为"观察-动作轨迹" 5. 保持学术严谨性：保留"DINOv2"等专业名称不翻译 6. 符合中文科技论文表达习惯：使用"该模型"、"由此产生的"等学术用语） | | 针对具有未知光滑片段的非光滑问题的线性收敛算法

（翻译说明： 1. "Linearly Convergent"译为"线性收敛"，准确传达数学优化领域的收敛速度概念 2. "Nonsmooth Problems"译为"非光滑问题"，符合数学优化术语惯例 3. "Unknown Smooth Pieces"译为"未知光滑片段"，其中"片段"比直译"部分"更符合中文数学文献表述习惯 4. 采用"针对...的"句式结构，使标题既保持学术严谨性又符合中文标题表达规范 5. 整体翻译在保持专业性的同时，通过语序调整使中文表达更自然流畅） | Zhe Zhang | PDF | 我们针对定义域划分方式\emph{未知}的分片光滑（PWS）函数优化问题，开发了高效算法。对于满足二次增长（QG）条件的PWS函数，我们提出了一种束水平（BL）型方法，该方法实现全局线性收敛——据我们所知，这是该问题类别中首个达成此成果的算法。我们将此方法扩展至近似PWS函数处理及弱凸PWS问题求解，将计算复杂度提升至与光滑非凸优化基准相匹配的先进水平。

特别地，我们首次为PWS优化建立了可验证且精确的终止准则。类似于光滑优化中的梯度范数，该准则在QG条件下严格表征最优性间隙，且无需任何问题参数即可计算。我们为此准则开发了搜索子程序，并将其嵌入猜测-验证框架，最终得到适用于凸QG与弱凸场景的近乎无参数算法。

（注：根据学术翻译规范，关键技术术语采用"分片光滑（piecewise smooth/PWS）"、"二次增长（quadratic growth/QG）"等括号标注的译法；数学概念"weakly-convex"译为专业术语"弱凸"；算法名称"bundle-level (BL) type method"保留英文缩写并译为"束水平（BL）型方法"；被动语态转换为中文主动表述；长难句按中文习惯拆分重组；数学关系表述保持精确性） | | 《基于基元初始化的非合作航天器三维模型快速学习》

（翻译说明： 1. 专业术语处理："Non-Cooperative Spacecraft"译为"非合作航天器"，"3D Models"译为"三维模型"，符合航天领域术语规范 2. 核心方法翻译："Primitive Initialization"译为"基元初始化"，准确体现计算机视觉中通过几何基元进行模型初始化的技术特征 3. 句式结构调整：将英语被动语态转换为中文主动语态，符合中文科技论文表达习惯 4. 补充说明：原标题隐含的"through"方法路径在译文中通过"基于"明确体现，增强学术严谨性 5. 长度控制：严格控制在20字以内，符合中文标题简洁性要求） | Pol Francesch Huc | PDF | 随着NeRF（神经辐射场）和3D高斯泼溅（3DGS）等新视角合成技术的出现，仅通过带位姿的单目图像即可学习精确的三维模型。尽管这些方法颇具吸引力，但其存在两大局限阻碍了在航天领域的应用：训练过程依赖精确位姿数据，且训练与推理阶段计算成本高昂。为突破这些限制，本研究提出：（1）基于卷积神经网络（CNN）的3DGS基元初始化器，仅需单目图像输入；（2）支持含噪声或隐式位姿估计的训练流程；（3）通过初始化变体分析降低精确三维模型的训练成本。该CNN架构以单幅图像为输入，输出由基元集合构成的粗糙三维模型及目标物体相对于相机的位姿。该基元集合随后用于初始化3DGS，使所需训练迭代次数和输入图像数量至少减少一个数量级。为增强灵活性，CNN组件集成多种位姿估计技术形成不同变体。本研究对比了这些变体在噪声或隐式位姿条件下的下游3DGS训练效果。实验结果表明，即使存在位姿监督缺陷，该流程仍能学习高保真三维表征，为航天领域应用新视角合成技术开辟了道路。 |