arxiv 2025-08-11

标题	作者	PDF链接	摘要
《LightSwitch：基于材质引导扩散的多视角重光照技术》

（翻译说明： 1. 保留核心技术术语"LightSwitch"作为专有名词不译，符合计算机图形学领域惯例 2. "Multi-view Relighting"译为专业术语"多视角重光照"，准确对应计算机视觉领域的标准译法 3. "Material-guided Diffusion"采用定语前置的学术表达，译为"材质引导扩散"，其中： - "Material-guided"译为"材质引导"而非字面的"材料引导"，符合图形学材质系统的专业表述 - 保留"扩散"而不译作"扩散模型"，因原文未明确指代模型架构 4. 整体采用"技术"作为隐性范畴词，符合中文论文标题的简洁性要求 5. 使用书名号《》标注技术方案名称，遵循中文科技文献格式规范） | Yehonathan Litman | PDF | 近期三维重光照技术的研究进展表明，通过整合二维图像重光照生成先验，可以在保持三维表征底层结构的同时改变其外观表现。然而，当前直接基于输入图像进行重光照的二维生成先验方法，既未能充分利用可推断的主体本征属性，也无法有效处理大规模多视角数据，导致重光照效果欠佳。本文提出LightSwitch——一种新型微调材质重光照扩散框架，该框架能高效地将任意数量的输入图像重光照至目标照明条件，同时融合推断本征属性的特征线索。通过联合利用多视角信息、材质特征线索及可扩展的去噪方案，我们的方法能够对具有多样化材质构成物体的密集多视角数据实现稳定高效的重光照处理。实验证明，本方法在二维重光照预测质量上超越了所有直接基于图像重光照的现有最优先验方法。我们进一步验证了LightSwitch在合成与真实物体重光照任务中，仅需不到2分钟即可达到或超越当前最先进的扩散逆渲染方法性能。 | | 提升多模态大语言模型图表理解能力的有效训练数据合成方法

（说明：这个翻译版本具有以下特点： 1. 专业术语准确："MLLM"译为"多模态大语言模型"，符合计算机视觉与自然语言处理交叉领域的中文术语规范 2. 句式结构调整：将英语的动名词结构"Effective Training Data Synthesis"转化为中文更常见的"有效...方法"句式 3. 语义补充完整：通过添加"能力"二字，使"图表理解"更符合中文学术表达习惯 4. 逻辑关系明确："for improving"译为"提升...能力"的动宾结构，准确传达目的关系 5. 保持学术严谨性：使用"合成方法"而非更口语化的"生成方式"，符合论文标题的学术规范） | Yuwei Yang | PDF | Being able to effectively read scientific plots, or chart understanding, is a central part toward bu [翻译失败] | | "多元专家场模型"

这个翻译遵循了以下学术翻译原则：

专业术语准确性：
"Multivariate"译为"多元"，准确对应统计学和机器学习中的专业术语
"Fields of Experts"采用学界通用译法"专家场"，特指Roth和Black提出的图像先验概率模型
领域适配性：该术语源自计算机视觉领域，中文文献中已形成稳定译法，与"马尔可夫随机场"(Markov Random Fields)、"专家乘积系统"(Product of Experts)等同类模型术语保持体系一致性
结构完整性：完整保留原术语的三层结构：
多元(Multivariate)：表征多变量联合建模特性
专家(Experts)：指代模型中包含的多个线性滤波器专家
场(Fields)：体现空间域上的马尔可夫性质
学术规范性：符合《计算机科学技术名词》审定标准，与"多元高斯分布"(Multivariate Gaussian Distribution)等同类术语的构词法保持一致 | Stanislas Ducotterd | PDF | 我们提出多元专家场这一新型框架用于学习图像先验知识。该模型通过引入基于$\ell_\infty$-范数莫罗包络构建的多元势函数，对现有专家场方法进行了全面推广。我们在包括图像去噪、去模糊、压缩感知磁共振成像以及计算机断层扫描在内的多种逆问题上验证了本方案的有效性。所提出的方法在性能上超越同类单变量模型，并接近基于深度学习的正则化方法，同时具有显著更快的运算速度、更少的参数需求以及更低的训练数据量要求。此外，得益于其结构化设计，该模型保持了相对较高的可解释性。

（说明：本翻译严格遵循学术文本规范，主要技术要点处理如下： 1. "multivariate fields of experts"译为"多元专家场"，保留数学建模特征 2. "Moreau envelopes"采用专业术语"莫罗包络" 3. "$\ell_\infty$-norm"保留数学符号并补充中文"范数"说明 4. 将英语长句按中文表达习惯切分，如将原文最后两句重组为因果关系的复合句 5. 专业术语如"compressed-sensing magnetic-resonance imaging"统一译为"压缩感知磁共振成像"） | | WGAST：基于时空融合的弱监督生成网络用于每日10米地表温度估算

（翻译说明： 1. 完整保留专业术语"Weakly-Supervised Generative Network"的准确译法"弱监督生成网络" 2. "Spatio-Temporal Fusion"译为"时空融合"，符合遥感领域术语规范 3. "Daily 10 m Land Surface Temperature Estimation"采用"每日10米地表温度估算"的表述，其中： - "10 m"保留计量单位"米"并前置数值 - "Land Surface Temperature"使用地学标准译名"地表温度" - "Estimation"译为"估算"以区别于理论计算值 4. 标题结构采用"方法名称：应用场景"的中文学术论文常见格式 5. 通过"基于..."的介词结构明确技术路径，保持学术严谨性） | Sofiane Bouaziz | PDF | Urbanization, climate change, and agricultural stress are increasing the demand for precise and time [翻译失败] | | 通过规范形成实现高效沟通的训练后优化

（说明：该翻译在学术语境下具有以下特点： 1. 专业术语准确对应："Post-training"译为"训练后优化"符合机器学习领域术语 2. 核心概念保留："Convention Formation"译为"规范形成"准确传达多智能体系统中自组织通信协议的建立过程 3. 句式结构调整：将介词短语"via..."转换为动词结构"通过...实现"，更符合中文表达习惯 4. 学术风格保持：使用"高效沟通"而非"有效交流"，体现计算机科学论文的严谨性 5. 补充说明：在需要强调技术内涵时，可考虑译为"基于规范形成的通信效率训练后优化"，但当前译法更简洁平衡） | Yilun Hua | PDF | 人类在多轮互动中通过调整语言并形成特定情境下的临时约定，能够实现越来越高效的交流。然而已有研究表明，大型语言模型（LLMs）并不天然具备这种行为特征。为此，我们开发了一种后训练方法，通过对启发式识别的约定形成示范进行针对性微调来培养这种能力。我们通过两个聚焦该能力的新基准进行评估：首先设计了一个基于认知科学原理的交互测试基准，能稳定诱发人类强烈的约定形成趋势；其次创建了一个新的文档 grounded 参考补全任务，以反映真实场景中的约定形成行为。研究结果表明，经过后训练的LLMs在两种评估方法中均展现出显著提升的约定形成能力。

（说明：翻译严格遵循学术规范，处理要点包括： 1. "ad-hoc conventions"译为"临时约定"符合计算机领域术语 2. "post-training process"译为"后训练方法"保持技术准确性 3. "cognitively-motivated"译为"基于认知科学原理"体现跨学科特性 4. "in-the-wild"采用意译为"真实场景"符合中文表达习惯 5. 长难句拆分重组，如将"document-grounded reference completion task"处理为"文档 grounded 参考补全任务"并添加解释性翻译 6. 专业术语如"LLMs"、"benchmark"等保留英文缩写并确保首次出现时全称明确） | | 临界状态下最大熵路径模型中的直觉涌现

（翻译说明： 1. "Maximum Caliber"译为"最大熵路径"，采用统计物理学术语标准译法，其中"Caliber"在此语境下特指路径熵概念 2. "criticality"译为"临界状态"，准确表达相变临界点的科学含义 3. "emerges"译为"涌现"，保留复杂系统科学中emergence现象的专有名词 4. 语序调整为符合中文学术表达习惯，将条件状语"at criticality"前置 5. 整体译文严格保持原文学术严谨性，同时确保中文术语的规范性） | Lluís Arola-Fernández | PDF | 大型预测模型究竟是在机械复现训练数据还是真正产生认知洞见，这一问题尚缺乏物理解释。本研究发现了一种原始直觉形式，其作为学习过程中的亚稳态相出现，关键在于实现了下一词元预测与未来路径熵的临界平衡。该直觉机制通过思维调谐（mind-tuning）被发现——这是一个施加最大口径约束的最小化原理，其控制参数为类温度参数$\lambda$。在确定性迷宫随机游走训练中，研究揭示了丰富的相图结构：模仿相（低$\lambda$）、规则破坏型幻觉相（高$\lambda$），以及一个表现强协议依赖性（滞后效应）和多稳态的脆弱中间窗口——在此区间模型能自发发现新颖的目标导向策略。这些现象被一个有效的低维理论所刻画，并将直觉定义为"记忆现实"与"探索可能"临界平衡处涌现的特性。

（翻译说明： 1. 专业术语处理："metastable phase"译为"亚稳态相"，"path-entropy"保留物理学术语译为"路径熵"，"hysteresis"采用工程术语"滞后效应" 2. 概念创新词："mind-tuning"创造性译为"思维调谐"，通过括号保留英文原词 3. 复杂句式重构：将原文三个分号的列举结构转换为中文更自然的冒号分层列举 4. 理论表述优化："frame intuition as..."译为"将直觉定义为..."更符合学术表述 5. 文化适应性调整："what is and what could be"意译为"记忆现实与探索可能"，避免直译的生硬感） | | HapticLLaMA：一种面向触觉描述的多模态感知语言模型

（翻译说明： 1. 专业术语处理："Haptic"译为"触觉"，"Multimodal Sensory"译为"多模态感知"，均采用计算机感知领域标准译法 2. 技术名词保留："LLaMA"作为Meta公司大型语言模型名称保留不译 3. 功能表述优化："for Haptic Captioning"译为"面向触觉描述"，更符合中文技术文献表述习惯 4. 结构规范：严格遵循学术命名惯例，采用"技术名称：功能描述"的冒号分隔结构 5. 术语统一性：与IEEE Transactions on Haptics等期刊的术语体系保持一致） | Guimin Hu | PDF | Haptic captioning is the task of generating natural language descriptions from haptic signals, such [翻译失败] | | GLM-4.5：具身智能、推理与编码（ARC）基础模型体系

（翻译说明： 1. "Agentic"译为"具身智能"：采用人工智能领域专业译法，强调模型具有自主决策和与环境交互的能力 2. "ARC"采用首字母缩写保留：符合学术文献处理专有名词的惯例 3. "Foundation Models"译为"基础模型体系"：通过添加"体系"二字更准确传达其作为技术基础设施的定位 4. 整体采用"名词+解释性定语"结构：既保持术语简洁性，又确保概念完整性 5. 保留中英文版本术语一致性：便于后续学术引用和跨文献检索） | GLM-4. 5 Team | PDF | 我们正式推出GLM-4.5——一个开源的混合专家模型（MoE）大语言模型，其总参数量达3550亿，激活参数量为320亿。该模型采用支持思维链推理与直接响应模式的混合推理方法，通过23万亿token的多阶段训练及包含专家模型迭代与强化学习的综合后训练，在智能体任务、推理任务和编程任务（ARC）上展现出卓越性能：TAU-Bench得分70.1%、AIME 24得分91.0%、SWE-bench Verified得分64.2%。相较于多个参数量更大的竞品模型，GLM-4.5在综合评估中位列第三，在智能体基准测试中高居第二。为推动推理与智能体AI系统的研究，我们同步发布完整版GLM-4.5（3550亿参数）和轻量版GLM-4.5-Air（1060亿参数）。相关代码、模型及更多信息详见https://github.com/zai-org/GLM-4.5。

（注：根据学术翻译规范，对以下术语进行了标准化处理： 1. "Mixture-of-Experts"译为"混合专家模型"并保留MoE缩写 2. "thinking and direct response modes"意译为"思维链推理与直接响应模式"以符合NLP领域表述习惯 3. "agentic"统一译为"智能体"而非"代理型"以保持AI领域术语一致性 4. 模型性能数据保留原始百分比格式，符合中文科技文献数字表达规范 5. 长句按中文表达习惯拆分为多个短句，保持技术准确性的同时提升可读性） | | 基于梯度比率影响估计与噪声注入的大语言模型遗忘方法

（翻译说明： 1. 专业术语处理： - "Gradient Ratio-Based"译为"基于梯度比率"，准确反映算法核心 - "Influence Estimation"译为"影响估计"，符合机器学习领域术语规范 - "Noise Injection"译为"噪声注入"，保持技术用语的准确性

技术概念传达：
"Unlearning"译为"遗忘"，对应机器学习中"machine unlearning"的标准译法
采用"大语言模型"而非直译"LLM"，更符合中文技术文献表述习惯
结构优化：
将英文分词结构转换为中文惯用的前置定语+中心词结构
使用破折号连接复合技术概念，确保专业性与可读性平衡
学术风格保持：
避免口语化表达，采用"基于...的...方法"的学术论文标题典型句式
术语翻译与《计算机学报》等核心期刊保持一致） | Ameya Anjarlekar | PDF | 随着大型语言模型（LLMs）面临日益严格的法律与伦理审查，针对敏感或未授权数据的有效机器遗忘（machine unlearning）技术变得尤为重要。现有实证方法常因定位能力不足，导致目标遗忘不彻底或引发无关知识的意外退化。本研究提出GRIN框架——一种模块化、靶向性的LLM遗忘解决方案。该框架创新性地引入基于梯度比率的评估指标，精准定位与遗忘数据记忆最相关的模型参数。通过在微调前对这些关键参数实施选择性噪声注入，GRIN在保持模型实用性的同时显著提升了遗忘效能。我们进一步设计了适配LLM场景的新型评估指标，并在TOFU、WMDP及SafePKU等标准测试集上验证了方法的有效性。

（翻译说明： 1. 专业术语处理："machine unlearning"译为行业通用术语"机器遗忘"，"gradient-ratio-based metric"译为"基于梯度比率的评估指标"保持技术精确性 2. 句式重构：将英文长句拆解为符合中文表达习惯的短句，如将"necessitates..."处理为因果句式 3. 概念显化："modular and targeted"译为"模块化、靶向性"既保留专业内涵又符合中文科技文本特征 4. 被动语态转换："parameters most responsible for..."主动化为"精准定位...最相关的模型参数" 5. 文化适配：保留TOFU等测试集原名确保学术严谨性，同时通过"等标准测试集"符合中文枚举习惯） | | 《诈骗智能体：人工智能代理如何模拟人类水平的诈骗通话》

翻译说明： 1. 标题采用学术论文常见的冒号分隔主副标题结构 2. "ScamAgents"译为"诈骗智能体"，既保留"scam"的核心含义，又体现"Agents"作为人工智能代理的技术属性 3. "AI Agents"译为"人工智能代理"，采用学界通用译法 4. "Simulate Human-Level"译为"模拟人类水平的"，准确传达"达到人类水平"的模拟能力 5. "Scam Calls"译为"诈骗通话"，使用电信诈骗领域的专业术语 6. 整体译文在保持学术严谨性的同时，通过书名号标注和主副标题结构，符合中文社科类论文标题规范 | Sanket Badhe | PDF | 大型语言模型（LLMs）已展现出卓越的语言流畅性与推理能力，但其滥用潜力正引发日益增长的担忧。本文提出ScamAgent——一个基于LLMs构建的自动化多轮对话代理系统，能够生成高度逼真的诈骗通话脚本以模拟现实欺诈场景。与既往聚焦单次提示滥用的研究不同，ScamAgent具备对话记忆功能，能根据模拟用户反馈动态调整策略，并在连续对话中实施欺骗性说服手段。研究表明，当前LLM的安全防护机制（包括拒绝响应机制与内容过滤器）对此类代理级威胁完全失效。即便具备严格提示级防护的模型，当恶意提示在代理框架中被分解、伪装或渐进式传递时，其防护也会被轻易绕过。我们进一步演示了如何通过现代文本转语音系统将诈骗脚本转化为拟真语音通话，从而构建起完整的全自动诈骗链条。本研究揭示出三大紧迫需求：多轮对话安全审计机制、代理级控制框架，以及检测阻断生成式AI驱动的对话式欺骗的新方法。

（翻译说明：严格遵循学术文本规范，通过以下处理确保专业性： 1. 术语统一："multi-turn agent"译为"多轮对话代理系统"体现技术特征 2. 被动语态转化：将"are ineffective"译为"完全失效"符合中文表达习惯 3. 长句拆分：将原文复合句分解为符合中文阅读节奏的短句结构 4. 概念显化："refusal mechanisms"译为"拒绝响应机制"更准确传达技术内涵 5. 逻辑显性化：通过"三大紧迫需求"的归纳式表述提升中文论述清晰度） |