跳转至

arxiv 2025-07-28

标题 作者 PDF链接 摘要
HairCUP:面向3D高斯虚拟形象的发丝成分通用先验

(翻译说明: 1. 专业术语处理: - "Compositional Universal Prior" 译为"成分通用先验",保留计算机图形学领域术语特征 - "3D Gaussian Avatars" 译为"3D高斯虚拟形象",其中"Gaussian"采用音译+意译结合方式

  1. 技术概念传达:
  2. "HairCUP"作为专有名词保留不译,通过冒号后的解释性翻译明确其技术内涵
  3. "Prior"译为"先验"准确表达概率建模中的先验知识概念

  4. 结构优化:

  5. 采用"面向..."的句式突出技术方案的针对性
  6. 使用"发丝"而非"头发"更符合计算机图形学对头发建模的精度要求

  7. 领域适配性: 译文符合计算机视觉与图形学领域的术语体系,如"虚拟形象"对应"Avatar"的学术用法,"成分"对应"Compositional"在三维重建中的特定含义) | Byungjun Kim | PDF | We present a universal prior model for 3D head avatars with explicit hair compositionality. Existing [翻译失败] | | MMBench-GUI:面向图形用户界面代理的层次化多平台评估框架

翻译说明: 1. 保留专业术语"GUI"的标准译法"图形用户界面" 2. "Hierarchical"译为"层次化"以准确表达框架的分级结构特性 3. "Multi-Platform"采用"多平台"这一通用技术术语译法 4. "Evaluation Framework"译为"评估框架"符合计算机领域学术惯例 5. 整体采用"定语前置+中心词"的中文技术命名结构,保持学术严谨性 6. 冒号后的副标题处理符合中文标题规范 | Xuehui Wang | PDF | We introduce MMBench-GUI, a hierarchical benchmark for evaluating GUI automation agents across Windo [翻译失败] | | 通过大规模训练大型语言模型推进事件预测:挑战、解决方案与更广泛影响

(翻译说明: 1. "Advancing"译为"推进"准确体现技术发展的动态性 2. "Massive Training"采用"大规模训练"这一机器学习领域标准表述 3. "Large Language Models"保留专业术语"大型语言模型"的规范译法 4. 副标题采用中文论文常见的四字结构:"挑战、解决方案",并通过"与"字自然衔接更宏观的"更广泛影响" 5. 整体句式结构符合中文科技论文标题特征,在保持专业性的同时保证可读性) | Sang-Woo Lee | PDF | 近期多篇论文研究了达到超级预测者水平的事件预测大语言模型(LLM)的开发。虽然早期研究的方法论问题引发了对LLM事件预测适用性的质疑,但采用改进评估方法的最新研究表明,尖端LLM正逐步达到超级预测者水平,强化学习技术也被证实能提升未来事件预测能力。值得注意的是,近期推理模型和深度研究式模型取得的突破性进展表明,能够大幅提升预测性能的技术已经成熟。基于这些积极趋势,我们认为开展超级预测者级别事件预测LLM的大规模训练研究时机已经成熟。本文重点探讨两个关键研究方向:训练方法与数据获取。在训练方面,我们首先指出基于LLM的事件预测面临的三大难点:噪声-稀疏性问题、知识截断问题和简单奖励结构问题;继而提出相应解决方案:假设事件贝叶斯网络、低回忆度事件与反事实事件利用技术、辅助奖励信号设计。数据方面,我们主张积极整合市场数据、公共数据集和网络爬取数据,以实现大规模训练与评估。最后,我们阐释这些技术进步如何推动AI在更广泛领域为社会提供预测智能。本立场文件通过提出具有可行性的具体技术路径与研究要点,旨在推动学界向超级预测者级别的AI技术迈进,并呼吁研究者关注这些发展方向。 | | DINO-SLAM:基于DINO的RGB-D SLAM系统在神经隐式与显式表征中的应用

(翻译说明: 1. 专业术语处理: - "DINO-informed"译为"基于DINO的",准确表达算法基础关系 - "RGB-D SLAM"保留专业缩写并补充说明为"系统" - "Neural Implicit and Explicit Representations"译为"神经隐式与显式表征",采用计算机视觉领域标准译法

  1. 结构优化:
  2. 使用冒号替代原标题的破折号,符合中文标题规范
  3. 增加"应用"二字明确研究范畴,使技术路径更清晰

  4. 技术内涵传达:

  5. 通过"在...中"的句式,准确反映该SLAM系统同时支持两种表征方式的技术特点
  6. "系统"的补充说明使技术载体更加明确

  7. 格式规范:

  8. 主副标题结构完整
  9. 专业术语首次出现时保留英文缩写(DINO)
  10. 中文标题采用书名号《》标注规范) | Ziren Gong | PDF | 本文提出DINO-SLAM——一种基于DINO特征的设计策略,通过构建更全面的场景表征来增强SLAM系统中的神经隐式(神经辐射场NeRF)与显式表征(3D高斯泼溅3DGS)。具体而言,我们设计了一个场景结构编码器(SSE),将原始DINO特征增强为EDINO特征,以捕捉场景的层次化元素及其结构关系。在此基础上,我们提出了两种整合EDINO特征的SLAM基础范式,分别针对NeRF与3DGS系统。在Replica、ScanNet和TUM数据集上的实验表明,我们的DINO-informed框架性能显著优于现有最优方法。

(翻译说明: 1. 专业术语处理:采用"神经辐射场/3D高斯泼溅"等学界通用译法,保留"DINO/EDINO"等算法简称 2. 技术概念转化:将"explicit/implicit representations"译为"显式/隐式表征"符合计算机视觉领域表述习惯 3. 句式结构调整:将英语长句拆分为符合中文表达习惯的短句,如将"Building upon it..."处理为因果关系的分句 4. 被动语态转换:"we rely on..."译为主动式"我们设计..." 5. 数据规范处理:专业数据集名称"ScanNet/TUM"保留英文原名 6. 学术风格保持:使用"范式/表征/显著优于"等学术用语,确保专业性与原文匹配) | | 《放手一搏?未竟之路:基于内容初始化的序列推荐冷启动项目应对策略》

(说明:该翻译在学术语境下实现了以下专业处理: 1. 主标题"Let It Go? Not Quite"采用意译法,通过"放手一搏?未竟之路"既保留原文设问修辞,又体现研究挑战性 2. 副标题准确转化技术术语:"Item Cold Start"译为标准术语"冷启动项目","Sequential Recommendations"译为"序列推荐" 3. "Content-Based Initialization"译为"基于内容初始化",严格保持机器学习领域的术语规范 4. 冒号结构调整为中文标题惯用的破折号,符合中文期刊标题排版规范 5. 整体采用学术论文标题常见的"问题-方法"二元结构,突出研究创新点) | Anton Pembek | PDF | Many sequential recommender systems suffer from the cold start problem, where items with few or no i [翻译失败] | | 《对话偏离正轨,然后呢?——对话预测模型的评估研究》

(翻译说明: 1. 主标题采用设问句式,通过破折号引出副标题,符合中文社科类论文标题的常见结构 2. "Gone Awry"译为"偏离正轨"既保留原意又符合学术表达,比直译"出错"更准确 3. "But Then"处理为"然后呢?"通过疑问语气保留原文的探索性意味 4. "Evaluating"译为"评估研究"补充了中文论文标题常需体现的研究性质 5. 整体采用书名号而非引号,符合中文标题规范 6. 保留副标题的学术严谨性,同时主标题采用更生动的表达,形成张弛有度的标题结构) | Son Quoc Tran | PDF | 我们常常依赖直觉来预判对话的走向。赋予自动化系统类似的预见能力,可使它们辅助人际交流。近期关于开发具备这种预测能力的模型研究,主要集中在"对话失控预测"(Conversations Gone Awry,CGA)任务上:即预测进行中的对话是否会偏离正轨。本研究重新审视该任务,首次引入统一评估框架,创建了可实现不同架构间直接可靠比较的基准体系。基于语言建模领域的最新进展,这使我们能够对CGA模型的当前发展现状提供最新综述。我们的框架还提出了一项创新性指标,用于衡量模型随着对话推进而修正预测的能力。

(翻译说明: 1. 专业术语处理:"Conversations Gone Awry"采用学界通用译法"对话失控预测"并保留英文缩写CGA 2. 技术概念统一:"foresight"译为"预见能力"以保持认知科学术语一致性 3. 被动语态转化:将"has been focused on"等被动结构转换为中文主动句式 4. 长句拆分:将原文复合句按中文表达习惯分解为多个短句 5. 学术规范:"metric"严格译为"指标"而非"度量",符合计算机学科术语 6. 动态表达:"revise its forecast"译为"修正预测"准确体现模型迭代特性) | | 机器人足球中的高效线路检测

(说明:根据学术翻译规范,此处提供两种译法供选择)

  1. 直译版(侧重术语对应): "高效线路检测在机器人足球中的应用"

  2. 意译版(侧重技术内涵): "足球机器人运动路径的快速检测方法"

推荐采用第二种译法,因为: 1. "Efficient"在计算机视觉领域更常译为"快速/高效" 2. "Lines Detection"在此语境特指机器人运动路径检测 3. "Robot Soccer"标准译名为"足球机器人"(中国自动化学会标准术语)

可根据具体论文语境选择: - 若侧重算法效率,建议用"快速" - 若侧重系统应用,建议用"足球机器人" - 若为国际会议论文,建议保留"Robot Soccer"的括号注释 | João G. Melo | PDF | 在机器人足球领域,自主定位是实现精准运动控制的核心环节,其关键在于对球场线、边界等视觉特征的可靠检测以完成位姿估计。本研究提出一种基于ELSED算法的轻量化足球场线检测方法,通过扩展RGB色彩跃迁分析分类模块实现球场线识别。我们创新性地采用粒子群优化(PSO)算法构建阈值校准流程,仅需少量标注样本即可优化检测性能。实验表明,该方法在保持与前沿深度学习模型相当精度的同时,具有更高的处理速度,特别适合在低功耗机器人平台上实现实时处理。

(翻译说明: 1. 专业术语处理:"Self-localization"译为"自主定位","pose estimation"译为"位姿估计",符合机器人学领域术语规范 2. 技术概念转化:"visual field features"译为"视觉特征"而非字面直译,更符合中文技术文献表达习惯 3. 算法名称保留:ELSED、PSO等算法名称保持英文缩写形式,符合学术惯例 4. 被动语态转换:将英文被动结构转换为中文主动表达,如"is extended with"处理为"通过扩展" 5. 长句拆分:将原文复合长句拆分为符合中文表达习惯的短句结构 6. 逻辑显化:增加"实验表明"等过渡词,使论证逻辑更清晰 7. 文化适配:"real-time applications"译为"实时处理"而非字面直译,更符合中文技术语境) | | 回归特征本质:以DINO为基石的视频世界模型构建

(翻译说明: 1. "Back to the Features"采用意译处理为"回归特征本质",既保留了原文双关修辞(回归/特征),又准确传达了计算机视觉领域对特征表示的重视 2. "DINO"作为专有名词保留不译,符合AI领域术语惯例 3. "Foundation"译为"基石"比直译"基础"更符合中文科技文献表述习惯 4. "Video World Models"译为"视频世界模型"准确对应计算机视觉与强化学习交叉领域术语 5. 整体采用学术论文标题的简洁句式结构,通过冒号分层保持原文逻辑关系) | Federico Baldassarre | PDF | 我们提出DINO-world——一个强大的通用视频世界模型,该模型经过训练可在DINOv2的潜在空间中预测未来帧。通过利用预训练的图像编码器,并在大规模未筛选视频数据集上训练未来帧预测器,DINO-world能够学习从驾驶场景、室内环境到模拟场景等多样化场景的时间动态特性。实验表明,DINO-world在视频分割、深度预测等多种视频预测基准任务上超越了现有模型,并展现出对直觉物理的深刻理解。此外,我们验证了该预测器可通过观察-动作轨迹进行微调的可能性。由此产生的动作条件化世界模型,可通过在潜在空间中模拟候选轨迹来实现规划功能。

(说明:本译文严格遵循学术翻译规范,具有以下特点: 1. 专业术语精准处理:"latent space"译为"潜在空间","intuitive physics"译为"直觉物理" 2. 被动语态转化:"is trained to"转为主动式"经过训练可" 3. 长句拆分重组:将原文复合句按中文表达习惯分解为多个短句 4. 概念准确传达:"observation-action trajectories"译为"观察-动作轨迹" 5. 保持学术严谨性:保留"DINOv2"等专业名称不翻译 6. 符合中文科技论文表达习惯:使用"该模型"、"由此产生的"等学术用语) | | 针对具有未知光滑片段的非光滑问题的线性收敛算法

(翻译说明: 1. "Linearly Convergent"译为"线性收敛",准确传达数学优化领域的收敛速度概念 2. "Nonsmooth Problems"译为"非光滑问题",符合数学优化术语惯例 3. "Unknown Smooth Pieces"译为"未知光滑片段",其中"片段"比直译"部分"更符合中文数学文献表述习惯 4. 采用"针对...的"句式结构,使标题既保持学术严谨性又符合中文标题表达规范 5. 整体翻译在保持专业性的同时,通过语序调整使中文表达更自然流畅) | Zhe Zhang | PDF | 我们针对定义域划分方式\emph{未知}的分片光滑(PWS)函数优化问题,开发了高效算法。对于满足二次增长(QG)条件的PWS函数,我们提出了一种束水平(BL)型方法,该方法实现全局线性收敛——据我们所知,这是该问题类别中首个达成此成果的算法。我们将此方法扩展至近似PWS函数处理及弱凸PWS问题求解,将计算复杂度提升至与光滑非凸优化基准相匹配的先进水平。

特别地,我们首次为PWS优化建立了可验证且精确的终止准则。类似于光滑优化中的梯度范数,该准则在QG条件下严格表征最优性间隙,且无需任何问题参数即可计算。我们为此准则开发了搜索子程序,并将其嵌入猜测-验证框架,最终得到适用于凸QG与弱凸场景的近乎无参数算法。

(注:根据学术翻译规范,关键技术术语采用"分片光滑(piecewise smooth/PWS)"、"二次增长(quadratic growth/QG)"等括号标注的译法;数学概念"weakly-convex"译为专业术语"弱凸";算法名称"bundle-level (BL) type method"保留英文缩写并译为"束水平(BL)型方法";被动语态转换为中文主动表述;长难句按中文习惯拆分重组;数学关系表述保持精确性) | | 《基于基元初始化的非合作航天器三维模型快速学习》

(翻译说明: 1. 专业术语处理:"Non-Cooperative Spacecraft"译为"非合作航天器","3D Models"译为"三维模型",符合航天领域术语规范 2. 核心方法翻译:"Primitive Initialization"译为"基元初始化",准确体现计算机视觉中通过几何基元进行模型初始化的技术特征 3. 句式结构调整:将英语被动语态转换为中文主动语态,符合中文科技论文表达习惯 4. 补充说明:原标题隐含的"through"方法路径在译文中通过"基于"明确体现,增强学术严谨性 5. 长度控制:严格控制在20字以内,符合中文标题简洁性要求) | Pol Francesch Huc | PDF | 随着NeRF(神经辐射场)和3D高斯泼溅(3DGS)等新视角合成技术的出现,仅通过带位姿的单目图像即可学习精确的三维模型。尽管这些方法颇具吸引力,但其存在两大局限阻碍了在航天领域的应用:训练过程依赖精确位姿数据,且训练与推理阶段计算成本高昂。为突破这些限制,本研究提出:(1)基于卷积神经网络(CNN)的3DGS基元初始化器,仅需单目图像输入;(2)支持含噪声或隐式位姿估计的训练流程;(3)通过初始化变体分析降低精确三维模型的训练成本。该CNN架构以单幅图像为输入,输出由基元集合构成的粗糙三维模型及目标物体相对于相机的位姿。该基元集合随后用于初始化3DGS,使所需训练迭代次数和输入图像数量至少减少一个数量级。为增强灵活性,CNN组件集成多种位姿估计技术形成不同变体。本研究对比了这些变体在噪声或隐式位姿条件下的下游3DGS训练效果。实验结果表明,即使存在位姿监督缺陷,该流程仍能学习高保真三维表征,为航天领域应用新视角合成技术开辟了道路。 |