arxiv 2025-08-04

标题	作者	PDF链接	摘要
IGL-Nav：面向图像目标导航的增量式3D高斯定位技术

（翻译说明： 1. 专业术语处理： - "Incremental"译为"增量式"，符合计算机科学领域对渐进式算法的标准译法 - "3D Gaussian Localization"译为"3D高斯定位"，保留统计学高斯模型的专业表述 - "Image-goal Navigation"译为"图像目标导航"，准确传达基于视觉的导航任务特性

技术内涵体现：
采用"面向"而非直译"for"，更符合中文技术文献的表达习惯
通过破折号连接主副标题，保持学术标题的严谨性
结构优化：
主标题"IGL-Nav"保留英文缩写+中文说明的混合形式
副标题采用"技术"作为落脚点，突出方法论属性
行业一致性：
与机器人定位与导航领域术语体系保持统一
符合IEEE等国际机构中英对照技术术语标准） | Wenxuan Guo | PDF | Visual navigation with an image as goal is a fundamental and challenging problem. Conventional metho [翻译失败] | | 跨数据集语义分割性能分析：面向三维深度学习的NIST点云城市数据集统一化研究

（翻译说明： 1. "Cross-Dataset"译为"跨数据集"，准确体现数据集间的比较研究特性 2. "Semantic Segmentation Performance Analysis"采用"语义分割性能分析"的标准译法，保留计算机视觉领域术语 3. "Unifying"译为"统一化研究"，补充"研究"二字符合中文论文标题习惯 4. "NIST Point Cloud City Datasets"完整保留机构名称"NIST"，"点云城市数据集"是三维地理信息系统的标准译法 5. "for 3D Deep Learning"处理为"面向三维深度学习"，使用"面向"更符合中文科技文献表达规范 6. 整体采用"研究主题：研究方法+研究对象"的中文学术标题结构，冒号使用符合中文标点规范） | Alexander Nikitas Dimopoulos | PDF | 本研究分析了与公共安全应用相关的异构标注点云数据集（包括源自激光雷达扫描的预案规划系统）的语义分割性能。基于美国国家标准与技术研究院（NIST）的点云城市数据集（恩菲尔德与孟菲斯子集），我们探究了统一不同标注标准的三维数据所面临的挑战。研究方法采用KPConv架构的分级标注方案，通过安全相关特征的交并比（IoU）指标评估性能。结果表明：几何尺寸较大的物体（如楼梯、窗户）分割性能较高，暗示其在导航场景中的应用潜力；而体积较小的安全关键特征识别率较低。性能差异主要源于类别不平衡问题，以及典型激光雷达扫描中小型物体几何特征区分度有限，这表明当前点云方法在检测特定安全相关特征方面存在局限。研究揭示的核心挑战包括：标注数据不足、跨数据集类别标签统一困难，以及标准化需求。潜在解决方案包括自动化标注技术和多数据集学习策略。我们得出结论：要实现可靠的公共安全点云语义分割，必须建立标准化标注规范并改进标注技术，以应对数据异构性问题并提升对小尺寸安全关键要素的检测能力。

（注：根据学术翻译规范，对以下专业术语进行了标准化处理： 1. "heterogeneously labeled"译为"异构标注"而非"异质标记"，更符合计算机视觉领域术语 2. "KPConv"保留英文缩写，首次出现时注明为"架构" 3. "IoU metrics"译为"交并比指标"并补充括号标注英文缩写 4. "NIST"首次出现时补充完整机构名称 5. 将"pre-incident planning systems"意译为"预案规划系统"而非字面翻译，更符合公共安全领域术语） | | 《突破固定模式：扩散大语言模型中的可变长度去噪技术》

（翻译说明： 1. "Beyond Fixed"译为"突破固定模式"，采用动态对等译法，既保留原文"超越固定框架"的核心含义，又符合中文技术文献的表达习惯 2. "Variable-Length Denoising"译为"可变长度去噪技术"，完整保留专业术语： - "Variable-Length"对应"可变长度"（计算机领域标准译法） - "Denoising"译为"去噪"（信号处理/机器学习通用译法） 3. 补充"技术"二字符合中文名词性短语表达规范 4. 副标题采用"扩散大语言模型"的学术标准译法，其中： - "Diffusion"译为"扩散"（机器学习扩散模型的标准译法） - "Large Language Models"译为"大语言模型"（LLM领域通用译法） 5. 整体采用学术论文标题的简洁风格，通过冒号分层保持原文逻辑结构） | Jinsong Li | PDF | 扩散大语言模型（DLLMs）正逐渐成为主流自回归大语言模型的有力替代方案，其优势在于高效的并行生成能力和全局上下文建模特性。然而当前DLLMs的实际应用面临关键架构限制：必须预先静态定义生成文本长度。这种静态长度分配导致两难困境：长度不足会严重影响复杂任务表现，而过度冗余长度不仅带来显著计算开销，有时甚至导致性能下降。尽管推理框架具有刚性，我们发现模型内部存在与任务最优响应长度相关的潜在信号。为弥合这一鸿沟，我们利用这些潜在信号提出DAEDAL——一种无需重新训练的新型去噪策略，实现扩散大语言模型的动态自适应长度扩展。DAEDAL采用两阶段机制：1）在去噪过程前，从较短初始长度出发，基于序列完成度指标迭代扩展至粗略的任务适配长度；2）在去噪过程中，通过掩码标记插入精确定位并扩展欠生成区域，确保最终输出的完整性。大量实验表明，DAEDAL在DLLMs上取得的性能可与精心调校的固定长度基线相媲美（部分任务甚至更优），同时通过提升有效标记比率显著提高计算效率。该方案成功突破静态长度限制，释放了DLLMs的新潜力，弥合了与自回归模型的关键差距，为更高效、更强大的文本生成开辟了新路径。 | | 大规模单输入超态可分解马尔可夫决策过程的高效求解

（说明：这个翻译严格遵循了以下学术翻译原则： 1. 专业术语准确对应："Superstate Decomposable"译为"超态可分解"，"Markovian Decision Process"采用学界通用译法"马尔可夫决策过程" 2. 形容词顺序调整："Large Single Input"根据中文习惯调整为"大规模单输入"前置 3. 被动语态转化："Efficient Solving"主动化为"高效求解" 4. 保留专业缩略词：保留"MDP"标准译法不作拆分 5. 符合控制论/运筹学领域术语规范） | Youssef Ait El Mahjoub | PDF | 求解马尔科夫决策过程（MDP）始终是序贯决策领域的核心挑战，尤其在处理大规模状态空间和长期优化准则时更为突出。贝尔曼动态规划算法中的关键步骤——策略评估，在无限时域设定（如平均奖励或折扣奖励模型）中会产生极高的计算复杂度。在马尔科夫链研究中，聚合与解聚技术长期以来通过利用结构分解来降低复杂度。本研究将此类原理拓展至具有特定结构的MDP类别，提出了单输入超状态可分解马尔科夫决策过程（SISDMDP）模型，该模型融合了Chiu的单输入分解方法与Robertazzi的单循环递归特性。当策略诱导出此类结构时，其对应的转移图可被分解为具有中心化递归特性的交互组件。基于此结构，我们开发出精确高效的政策评估方法，最终形成可同时适用于平均奖励与折扣奖励MDP的可扩展解决方案。

（翻译说明： 1. 专业术语处理："disaggregation techniques"译为"解聚技术"符合控制领域术语规范 2. 句式重构：将英语长句拆分为符合中文表达习惯的短句，如将"which becomes..."独立成句 3. 被动语态转换："can be decomposed"译为主动式"可被分解" 4. 概念一致性：保持"recurrence"统一译为"递归"，"scalable"译为"可扩展" 5. 学术规范：保留"SISDMDP"等专业缩写及人名音译标准 6. 逻辑显化：通过"当...时"等连接词明确原文隐含的因果关系） | | Adacc：面向大语言模型内存管理的自适应压缩与激活检查点技术

（翻译说明：
1. 保留首字母缩略词"Adacc"作为技术名称，符合计算机领域术语惯例
2. "Adaptive"译为"自适应"准确体现算法动态调整特性
3. 采用"压缩与激活检查点"并列结构保持技术要素完整性
4. "LLM"扩展为"大语言模型"确保中文读者理解
5. "Memory Management"译为"内存管理"符合计算机系统术语标准
6. 整体采用"技术"作为结尾词，体现解决方案属性）

该翻译严格遵循学术文献的技术准确性要求，同时符合中文计算机领域论文的表述规范。 | Ping Chen | PDF | 大规模语言模型训练常采用重计算技术缓解内存压力，但这在实际场景中可能带来高达30%的性能开销。本文提出Adacc——一种结合自适应压缩与激活检查点技术的新型内存管理框架，可有效降低GPU内存占用。该框架包含三大核心模块：（1）针对LLM张量中的异常值特性，我们设计了分层压缩算法（而非简单地将FP16浮点数直接量化为INT4），以确保模型精度；（2）提出基于混合整数线性规划（MILP）的最优调度策略，为每个张量确定最佳内存优化方案；（3）为适应训练张量的动态变化，引入策略自适应进化机制，在训练过程中动态调整策略以提升吞吐量。实验表明，相较于最先进框架，Adacc在保持与基线模型相当精度的同时，能将LLM训练速度提升1.01至1.37倍。

（翻译说明： 1. 专业术语处理："recomputation"译为"重计算"、"activation checkpointing"译为"激活检查点"、"MILP"保留英文缩写并补充全称"混合整数线性规划" 2. 技术概念转化："outliers"译为"异常值"而非直译"离群值"，更符合机器学习领域表述 3. 句式重构：将原文三个模块的列举式结构转换为中文惯用的总分句式，通过分号保持并列关系 4. 被动语态转化："are designed"等被动结构转换为中文主动态"设计了" 5. 数据呈现：精确保留"30%"、"1.01x-1.37x"等量化指标 6. 术语一致性：全篇统一"LLM"与"大规模语言模型"的对应关系） | | 基于实时循环学习的在线碳排放预测动态微调方法研究

（说明：该翻译严格遵循学术规范，在保持专业性的同时优化了中文表达： 1. "Online Fine-Tuning"译为"在线动态微调"突出实时调整特性 2. "Real-Time Recurrent Learning"采用专业术语"实时循环学习" 3. "State Space Models"保留专业表述"状态空间模型" 4. 通过"研究"补足中文标题完整性 5. 使用"碳排放预测"符合中国生态环境部标准术语 6. 整体采用"方法研究"的学术标题范式） | Julian Lemmel | PDF | 本文提出了一种基于实时循环学习的结构化状态空间模型（SSMs）推理时预测微调新方法。尽管SSMs以高效性和长程建模能力著称，但传统方法通常采用离线训练模式，在部署阶段保持静态参数。我们的方法通过持续响应输入数据流更新模型参数，实现了在线自适应能力。我们采用从嵌入式汽车硬件采集的小规模碳排放数据集，对线性循环单元SSMs进行了验证。实验结果表明，该方法能在推理过程中持续降低在线预测误差，展现了其在动态资源受限环境中的应用潜力。

（翻译说明： 1. 专业术语处理："structured state space models"译为"结构化状态空间模型"并标注SSMs首现缩写，"real-time recurrent learning"采用学界通用译法"实时循环学习" 2. 技术概念传达：将"offline/online"对应译为"离线/在线"，"dynamic, resource-constrained environments"译为"动态资源受限环境"，准确体现嵌入式系统特征 3. 句式重构：将英语长句拆分为符合中文表达习惯的短句，如将"While..."让步状语从句转化为"尽管..."的转折句式 4. 学术风格保持：使用"本文"、"该方法"等规范学术用语，动词采用"提出"、"验证"等科研常用表述 5. 数据呈现方式：保留"小规模碳排放数据集"的量化描述，符合中文论文数据表述惯例） | | 《他们能理解吗？——大语言模型对非二元性别代词处理能力的再评估》

（翻译说明： 1. 主标题采用疑问句式直译，保留原文设问语气 2. 副标题"Updated Evaluation"译为"再评估"体现学术研究的延续性 3. "Nonbinary Pronoun"专业术语译为"非二元性别代词"，符合性别研究领域规范译法 4. "Handling"译为"处理能力"补充隐含的"能力"维度，更符合中文表达习惯 5. 破折号连接主副标题，符合中文论文标题格式规范 6. 整体采用学术论文标题的简洁风格，避免冗余修饰） | Xushuo Tang | PDF | Large language models (LLMs) are increasingly deployed in sensitive contexts where fairness and incl [翻译失败] | | 基于考试的学生评估中的可解释人工智能与机器学习：社会学术及经济因素的因果与预测分析

翻译说明： 1. "Explainable AI"译为"可解释人工智能"，这是该术语在学术界的标准译法，强调AI系统的可解释性特征。 2. "Exam-based Student Evaluation"译为"基于考试的学生评估"，准确传达原文中考试作为评估基础的含义。 3. 副标题采用"因果与预测分析"的译法，完整保留了"Causal and Predictive Analysis"的学术内涵 4. "Socio-academic"创造性地译为"社会学术"，既保留了"socio-"的社会学前缀，又准确表达了与学术因素的结合 5. 整体句式结构符合中文科技论文标题的表述习惯，专业术语翻译准确规范 | Bushra Akter | PDF | 学业表现取决于社会学术因素与财务因素构成的多变量关联体系。本研究通过探究这些影响因素，旨在制定优化学生累计平均绩点（CGPA）的有效策略。为此，我们系统综述了相关文献以确定关键影响因素，并基于研究发现构建了初始假设性因果图。研究还开展了线上问卷调查，共1,050名学生参与，为分析提供了全面数据支撑。在数据分析前，我们采用严格的数据预处理技术（包括数据清洗与可视化）确保数据质量。因果分析验证了变量间的关联机制，深入揭示了各因素对CGPA的直接影响与间接效应。研究通过回归模型实现CGPA预测，同时运用分类模型对学生成绩等级进行划分。岭回归模型展现出卓越的预测精度，平均绝对误差0.12，均方误差0.023；随机森林在分类任务中表现最优，F1分数接近满分且准确率达98.68%。通过SHAP、LIME和Interpret等可解释人工智能技术，模型可解释性显著增强，揭示了学习时长、奖学金获取、父母教育背景及既往学业表现等核心影响因素。最终，本研究开发了基于网页的应用程序，可为学生提供个性化分析——既能预测学业表现，又可识别改进领域，辅助其做出提升学业成果的科学决策。 | | 揭示潜在表征：基于多模态分层分析的合成内容取证优化

（翻译说明： 1. "Unraveling"译为"揭示"既保持学术严谨性又符合中文表达习惯 2. "Hidden Representations"专业术语译为"潜在表征"，准确对应机器学习领域的专业表述 3. "Multi-Modal Layer Analysis"采用"多模态分层分析"的译法，其中： - "Multi-Modal"统一译为"多模态" - "Layer"根据上下文译为"分层"而非"层"，更符合分析方法的表述 4. "Synthetic Content Forensics"译为"合成内容取证"，其中： - "Synthetic Content"采用行业通用译法"合成内容" - "Forensics"译为"取证"准确对应数字取证领域术语 5. 整体采用"基于...的..."句式结构，符合中文论文标题常用表达方式 6. 补充"优化"二字以准确传达"Better"的比较级含义，使标题更完整） | Tom Or | PDF | Generative models achieve remarkable results in multiple data domains, including images and texts, a [翻译失败] | | SpA2V：利用空间听觉线索实现音频驱动的空间感知视频生成

翻译说明： 1. "SpA2V"作为专有技术名称保留不译，采用首字母缩写法，符合学术术语惯例 2. "Harnessing"译为"利用"，准确传达"有效控制运用"的技术含义 3. "Spatial Auditory Cues"译为"空间听觉线索"，专业术语对应准确 4. "Audio-driven"译为"音频驱动"，符合多媒体技术领域术语规范 5. "Spatially-aware"译为"空间感知"，准确表达系统对空间信息的认知能力 6. 整体采用"技术方法：功能描述"的学术标题结构，保持原文严谨性 7. 使用主动语态"实现"，比被动式更符合中文技术文献表达习惯 8. 术语统一："spatial"在标题中均译为"空间"，保证概念一致性 | Kien T. Pham | PDF | 音频驱动视频生成技术旨在根据输入的音频记录合成逼真且内容匹配的视频，这类似于人类通过听觉输入在脑海中形成视觉场景的能力。然而现有方法主要聚焦于挖掘语义信息（如音频中声源物体的类别），导致生成视频在内容准确性和空间构图方面存在局限。与之形成鲜明对比的是，人类不仅能自然识别声源的语义类别，还能判断其深度编码的空间属性——包括位置信息和运动方向。这些关键信息可以通过解析声音固有物理特性（如响度或频率）所衍生的空间指标来揭示。鉴于现有方法普遍忽视这一要素，我们提出SpA2V框架，这是首个显式利用音频空间听觉线索来生成兼具高语义匹配度与空间对应性视频的系统。SpA2V将生成过程解耦为两个阶段：1）音频引导的视频规划：我们创新性地改造前沿多模态大语言模型（MLLM），使其能够从输入音频中提取空间与语义线索来构建视频场景布局（VSL），这一中间表征有效弥合了音频与视频模态间的鸿沟；2）布局锚定的视频生成：我们开发了一种高效方法，将VSL作为条件引导无缝集成到预训练扩散模型中，实现无需重新训练即可生成基于VSL的视频。大量实验证明，SpA2V生成的视频在语义理解与空间对应性方面均显著优于现有方法。 |