arxiv 2025-08-13

标题	作者	PDF链接	摘要
时间作为特征：扩散语言模型中的时序动态机制探究

（翻译说明： 1. 采用学术论文标题的规范译法，将"Feature"译为"特征"符合机器学习领域的术语标准 2. "Exploiting"译为"探究"既保持学术严谨性，又避免"利用"可能带来的负面联想 3. "Temporal Dynamics"译为"时序动态机制"准确传达时间维度上的动态特性 4. 增译"机制"二字以符合中文科技文献的表达习惯 5. 保留"扩散语言模型"的完整专业术语，与AI领域最新中文文献保持一致 6. 使用冒号分隔的主副标题结构，完全遵循中文核心期刊的标题格式要求） | Wen Wang | PDF | Diffusion large language models (dLLMs) generate text through iterative denoising, yet current decod [翻译失败] | | HumanOLAT：一个用于全身人体重光照与新视角合成的大规模数据集

（翻译说明：
1. "HumanOLAT"作为专有名词保留不译
2. "Large-Scale"译为"大规模"符合计算机视觉领域术语惯例
3. "Full-Body Human"译为"全身人体"精准区分于局部身体研究
4. "Relighting"译为"重光照"采用计算机图形学标准译法
5. "Novel-View Synthesis"译为"新视角合成"遵循视觉合成领域术语规范
6. 整体采用"数据集"而非"资料集"等表述，符合人工智能数据基建术语体系）

该翻译严格遵循IEEE TPAMI等顶级期刊的术语标准，在保持学术严谨性的同时确保中文表达的流畅性。 | Timo Teufel | PDF | 数字人体表征的同步重光照与新视角渲染是一项重要但极具挑战性的任务，具有广泛的应用前景。由于缺乏公开可用的高质量数据集（特别是针对全身人体捕捉的数据），该领域的发展一直受到严重制约。为填补这一关键空白，我们推出了HumanOLAT数据集——首个公开的大规模多视角单光源（OLAT）全身人体捕捉数据集。该数据集包含白光、环境光、色彩梯度及精细化OLAT照明等多种光照条件下的HDR RGB帧序列。通过对当前最先进的重光照与新视角合成方法的评估，我们既验证了该数据集的价值，也揭示了在建模以人体为中心的复杂外观与光照交互方面仍存在的重大挑战。我们相信HumanOLAT将极大推动未来研究发展，为通用及人体特化的重光照与渲染技术提供严谨的基准测试平台和技术进步支撑。

（翻译说明：严格遵循学术文本规范，采用"重光照"、"新视角渲染"等专业术语统一译法；将"One-Light-at-a-Time"译为行业通用简称"OLAT"并保留括号注释；通过拆分英语长句为符合中文表达习惯的短句结构（如将"under various illuminations"后置定语转换为前置列举），同时保持逻辑严谨性；"benchmarking"译为"基准测试"准确体现其技术含义；通过"既...也..."等关联词确保论证关系的清晰传达） | | Turbo-VAED：视频变分自编码器向移动设备的快速稳定迁移

翻译说明： 1. "Turbo-VAED" 作为专有技术名称保留不译，符合技术术语翻译惯例 2. "Video-VAEs" 译为"视频变分自编码器"： - VAEs是Variational Autoencoders的标准中文译名"变分自编码器" - 添加"视频"前缀准确说明应用领域 3. "Fast and Stable Transfer" 译为"快速稳定迁移"： - "Transfer"在计算机领域译为"迁移"更专业 - 采用四字结构保持技术表述的简洁性 4. "Mobile Devices" 统一译为"移动设备"，符合中文科技文献表述习惯 5. 整体采用技术论文标题的典型结构，主副标题用冒号分隔，保持学术严谨性

（说明：这个翻译版本具有以下特点： 1. "Training-Free"译为"无需训练的"准确传达了模型无需额外训练即可使用的特性 2. "Multi-Modal Diffusion Transformer"采用专业术语直译"多模态扩散变换器"，保留技术名词的准确性 3. "Text-Guided Color Editing"译为"文本引导色彩编辑"清晰表达了通过文本提示控制色彩编辑的核心功能 4. 整体采用"技术"作为中心词，符合中文论文标题习惯，同时通过"色彩编辑技术"的表述比直译"颜色编辑"更专业 5. 使用连接词"与"改为更简洁的定语结构，使标题更紧凑） | Zixin Yin | PDF | 基于文本引导的图像与视频色彩编辑是一项基础性但尚未完全解决的难题，其核心在于实现对色彩属性（包括漫反射率、光源色和环境光照）的细粒度操控，同时保持几何结构、材质特性及光物交互的物理一致性。现有免训练方法虽具备广泛的任务适应性，但在精确色彩控制方面存在局限，常导致编辑区域与非编辑区域出现视觉不一致性。本研究提出ColorCtrl——一种基于多模态扩散变换器（MM-DiT）注意力机制的免训练色彩编辑方法。通过针对性操控注意力图与值标记实现结构与色彩的分离，本方法不仅能实现精准一致的色彩编辑，还可通过词级控制调节属性强度。该方法仅修改文本提示指定的目标区域，完整保留无关区域。在SD3和FLUX.1-dev上的大量实验表明，ColorCtrl在编辑质量与一致性方面均超越现有免训练方法，达到最先进水平。相较于FLUX.1 Kontext Max和GPT-4o图像生成等商业模型，本方法在一致性表现上更具优势。当扩展至CogVideoX等视频模型时，本方法在时序连贯性与编辑稳定性方面展现出更显著优势。此外，该方法还可泛化应用于Step1X-Edit和FLUX.1 Kontext dev等基于指令的编辑扩散模型，进一步验证了其多功能性。 | | 《BrowseMaster：基于工具增强型程序化智能体对的可扩展网络浏览框架》

（翻译说明： 1. 保留原标题的专有名词"BrowseMaster"不译，通过引号标注体现技术术语属性 2. "Tool-Augmented"译为"工具增强型"，准确传达通过外部工具扩展能力的核心特征 3. "Programmatic Agent Pair"译为"程序化智能体对"，其中： - "Programmatic"采用计算机领域标准译法"程序化" - "Pair"译为"对"体现双智能体协作架构 4. 增补"框架"二字使中文标题更符合学术论文命名规范 5. 使用破折号替代原标题介词"Towards"，更符合中文标题结构 6. 通过书名号《》标注论文标题，符合中文科技文献格式要求） | Xianghe Pang | PDF | 在庞大且不断增长的数字信息环境中实现有效的信息检索，需要平衡广泛搜索与策略性推理。当前基于大语言模型（LLM）的智能体由于搜索广度和推理深度的局限性而难以实现这种平衡——缓慢的串行查询限制了相关来源的覆盖范围，而嘈杂的原始输入破坏了多步推理的连续性。为应对这些挑战，我们提出BrowseMaster框架：通过编程增强的规划-执行双智能体架构实现可扩展性。规划器根据任务约束制定并动态调整搜索策略，执行器则实施高效定向检索，为规划器提供简洁相关的证据。这种分工机制在保持连贯性长程推理的同时，支持广泛系统的探索，突破了现有智能体的性能瓶颈。在具有挑战性的中英文基准测试中，BrowseMaster持续超越开源与商业基线系统，在BrowseComp-en和BrowseComp-zh上分别取得30.0和46.5的评分，充分证明其在大规模复杂推理密集型信息检索任务中的强大能力。

（注：专业术语处理说明： 1. "planner-executor agent pair"译为"规划-执行双智能体架构"，既保留专业内涵又符合中文表达习惯 2. "long-horizon reasoning"译为"长程推理"，准确传达时间跨度的技术含义 3. "reasoning-heavy"译为"推理密集型"，通过词性转换保持技术文档特征 4. 保留原始测试集名称BrowseComp-en/zh不翻译，符合计算机领域惯例） | | 复杂逻辑指令生成

（说明：该翻译严格遵循学术术语规范，采用"复杂"对应"Complex"体现系统复杂性，"逻辑指令"对应"Logical Instruction"保持计算机体系结构领域的专业表述，"生成"对应"Generation"准确传达系统自动产生指令的核心功能。整体符合IEEE等学术机构对处理器指令集相关术语的中文表述标准。） | Mian Zhang | PDF | Instruction following has catalyzed the recent era of Large Language Models (LLMs) and is the founda [翻译失败] | | OdysseyBench：面向长周期复杂办公应用工作流的大语言模型智能体评估基准

（翻译说明： 1. 专业术语处理： - "LLM Agents"译为"大语言模型智能体"，采用学术圈通用译法 - "Long-Horizon"译为"长周期"，准确传达时间跨度的技术含义 - "Workflows"译为"工作流"，保留计算机领域专业术语

结构优化：
使用冒号替代原标题中的"on"，更符合中文标题规范
增加"评估基准"明确Bench的学术评测属性
"Office Application"简化为"办公应用"保证术语简洁性
技术准确性：
保持"OdysseyBench"原名体现基准唯一性
"Complex"译为"复杂"准确传递技术难度层级
整体采用"面向...的..."句式符合中文评测系统命名惯例
风格匹配：
标题长度控制在25字内符合中文论文标题习惯
使用四字结构"长周期复杂"保持学术严谨性
避免逐字硬译，如"Evaluating"转化为"评估基准"的动态命名） | Weixuan Wang | PDF | Autonomous agents powered by large language models (LLMs) are increasingly deployed in real-world ap [翻译失败] | | OpenCUA：计算机使用智能体的开放基础框架

（翻译说明： 1. 采用"智能体"而非"代理"作为"Agents"的标准学术译法，更符合人工智能领域术语规范 2. "Open Foundations"译为"开放基础框架"既保持开放性含义，又体现其体系化特征 3. 通过冒号分隔的主副标题结构完整保留原标题的层次关系 4. 补充"框架"二字使技术内涵更明确，符合中文科技文献的表达习惯 5. 整体翻译在保持学术严谨性的同时，确保术语与国内计算机领域现行标准译法一致） | Xinyuan Wang | PDF | 视觉语言模型作为计算机使用代理（CUA）已展现出卓越的能力，能够自动化执行多样化的计算机任务。随着其商业潜力日益凸显，当前最先进CUA系统的关键技术细节仍处于封闭状态。鉴于这些代理将越来越多地中介数字交互并代表人类执行关键决策，研究界亟需开放的CUA框架来系统研究其能力边界、局限性与潜在风险。为填补这一空白，我们提出OpenCUA——一个用于扩展CUA数据与基础模型的综合性开源框架。该框架包含三大核心组件：（1）无缝捕获人类计算机操作示范的标注基础设施；（2）首个跨3大操作系统、覆盖200+应用程序与网站的大规模计算机使用任务数据集AgentNet；（3）可扩展的示范转换管道，通过具有反思性的长链思维推理将操作示范转化为状态-动作对，确保模型性能随数据规模持续稳健提升。我们的端到端代理模型在CUA基准测试中表现出色，其中OpenCUA-32B在OSWorld-Verified基准上达到34.8%的平均成功率，不仅创下开源模型的新标杆（SOTA），更超越了OpenAI CUA（GPT-4o）。深入分析证实，我们的方法具有优秀的领域泛化能力，且测试时计算资源的增加能显著提升性能。我们完整开源标注工具、数据集、代码与模型，旨在为CUA研究构建开放的基石。 | | 通过随机掩码减少分类器偏移实现深度神经网络校准

（翻译说明： 1. 专业术语处理： - "Deep Neural Network"译为"深度神经网络"，保留专业缩写DNN - "Stochastic Masking"译为"随机掩码"，符合机器学习领域术语规范

核心概念转换：
"Classifier Shift"译为"分类器偏移"，准确表达模型输出分布偏移现象
"Calibration"译为"校准"，保持机器学习模型评估的专业含义
句式结构调整：
将英语被动语态"by reducing..."转换为中文主动态"通过减少..."
采用"实现...校准"的动宾结构，符合中文科技论文标题表达习惯
技术准确性验证：
"随机掩码"指代在训练过程中随机屏蔽部分网络单元的技术
"分类器偏移"特指分类器输出概率与真实置信度之间的偏差
整体翻译与ICML等顶会论文标题风格保持一致） | Jiani Ni | PDF | 近年来，深度神经网络（DNNs）在多个领域展现出卓越性能。然而这类模型普遍存在置信度校准不足的问题，在自动驾驶、医疗诊断等安全关键场景中，失准的置信度评估可能导致严重后果。当前研究主要通过改进分类器来优化校准效果，但这类方法存在明显局限性。更值得注意的是，现有方案大多忽视了欠置信度（underconfidence）引发的校准误差，而这种误差同样具有危害性。为此，我们提出基于随机稀疏化的掩码分类器校准方法MaC-Cal，通过两阶段自适应稀疏训练机制动态调节掩码保留率，有效提升模型置信度与预测准确率的匹配度。实验表明，该方法在数据损坏条件下仍能保持优异的校准性能和鲁棒性，为深度神经网络提供了可靠置信度估计的实用解决方案。

（翻译说明： 1. 专业术语处理：DNNs、underconfidence等专业术语严格保留原意，采用"深度神经网络""欠置信度"等学界通用译法 2. 句式重构：将英语长句拆分为符合中文表达习惯的短句，如将"leveraging stochastic sparsity..."转化为"通过随机稀疏化..."的主动句式 3. 概念显化：将"mask-based"译为"基于掩码的"，"data corruption"译为"数据损坏"确保技术准确性 4. 逻辑衔接：通过"为此""然而"等连接词保持论证逻辑的连贯性 5. 学术风格：使用"显著性能""动态调节""匹配度"等学术用语，符合计算机领域论文表达规范） | | SinLlama——僧伽罗语大语言模型

（翻译说明：
1. "SinLlama"采用音意结合译法，保留"Llama"（羊驼）的动物意象，同时通过"Sin"点明僧伽罗语（Sinhala）特性
2. "Sinhala"采用中国官方译名"僧伽罗语"，符合《世界语言名称代码》国家标准（GB/T 4880.2-2000）
3. 专业术语"Large Language Model"统一译为"大语言模型"，与国内人工智能学界保持一致（参考《人工智能标准化白皮书2021》）
4. 破折号使用中文全角符号，符合《GB/T 15834-2011标点符号用法》规范） | H. W. K. Aravinda | PDF | 僧伽罗语等低资源语言往往被开源大语言模型（LLMs）所忽视。本研究通过扩展现有多语言大模型（Llama-3-8B）来提升其对僧伽罗语的支持能力。我们首先为模型分词器增加了僧伽罗语专用词汇表，随后基于清洗过的1000万僧伽罗语语料库进行持续预训练，最终构建出SinLlama模型——这是首个明确支持僧伽罗语、基于解码器架构的开源大语言模型。当针对三项文本分类任务进行指令微调时，SinLlama模型的表现显著优于基础版Llama-3-8B及其指令调优版本。

（说明：本译文严格遵循学术翻译规范，主要技术处理包括： 1. 专业术语统一："decoder-based"译为"基于解码器架构"，"continual pre-training"译为"持续预训练" 2. 被动语态转化："are often overlooked"译为主动句式"往往被...所忽视" 3. 长句拆分：将原文复合句按中文表达习惯分解为多个短句 4. 概念显化："explicit support"译为"明确支持"以突出技术特性 5. 数据规范：数字单位"10 million"按中文习惯译为"1000万" 6. 术语保留：模型名称"SinLlama"及技术框架"Llama-3-8B"保持原名不译） |