arxiv 2025-06-14

标题	作者	PDF链接	摘要
重新思考扩散桥采样器的损失函数设计

（说明：根据学术翻译规范，此处采用以下处理： 1. "Rethinking"译为"重新思考"，体现对现有方法的批判性反思 2. "Losses"专业译为"损失函数"而非简单译作"损失"，明确其数学含义 3. "Diffusion Bridge Samplers"作为专业术语保留核心概念"扩散桥"，同时通过增译"采样器"明确其算法属性 4. 整体采用"定语前置+中心词"的学术论文标题结构，符合中文表达习惯） | Sebastian Sanokowski | PDF | 扩散桥是一类极具前景的深度学习方法，用于从非归一化分布中进行采样。最新研究表明，当使用重参数化技巧计算rKL梯度时，对数方差（LV）损失函数始终优于反向Kullback-Leibler（rKL）损失。虽然对于具有不可学习前向过程的扩散采样器，采用对数导数技巧的在线LV损失会产生与rKL损失相同的梯度，但这种等价性在扩散桥或学习扩散系数的情况下并不成立。基于这一发现，我们认为对于扩散桥而言，LV损失并不能像rKL损失那样通过数据处理不等式获得理论支持。分析表明，采用对数导数技巧的rKL损失（rKL-LD）不仅避免了这些概念性问题，而且在性能上持续超越LV损失。在具有挑战性的基准测试中，使用不同类型扩散桥的实验结果表明，采用rKL-LD损失训练的采样器实现了更优性能。从实践角度来看，我们发现rKL-LD方法需要更少的超参数优化，并能产生更稳定的训练行为。 | | 场景补全器（SceneCompleter）：面向生成式新视角合成的稠密三维场景补全技术

（翻译说明： 1. 专业术语处理： - "Dense 3D"译为"稠密三维"，符合计算机视觉领域术语规范 - "Generative Novel View Synthesis"译为"生成式新视角合成"，准确保留计算机图形学专业表述 - "Scene Completion"译为"场景补全"，与三维重建领域术语体系保持一致

技术内涵传达：
采用"场景补全器"作为工具类命名，体现系统功能特性
通过副标题结构清晰呈现技术目标（场景补全）与应用方向（新视角合成）
"稠密"一词准确反映三维重建的密集几何特性
格式规范：
主副标题采用中文论文标题常用分隔符
保留专业术语首字母大写惯例
实现中英文术语的严格对应关系） | Weiliang Chen | PDF | 生成式模型通过降低对密集多视角捕捉的依赖，在新视角合成（NVS）领域获得了显著关注。然而现有方法通常遵循传统范式：生成模型先在二维空间补全缺失区域，再通过三维重建技术复原场景，这种流程往往导致表面过度平滑和几何结构扭曲——因为生成模型仅凭RGB数据难以推断三维结构。本文提出SceneCompleter框架，通过密集三维场景补全实现具有三维一致性的生成式新视角合成。该框架通过两个核心组件实现视觉连贯性与三维一致性：(1) 几何-外观双流扩散模型，在RGBD空间联合合成新视角；(2) 场景编码器，从参考图像中提取更全面的场景理解。通过有效融合结构与纹理信息，我们的方法在跨数据集生成式新视角合成中展现出卓越的连贯性与合理性。项目主页：https://chen-wl20.github.io/SceneCompleter

（说明：本翻译严格遵循学术文本规范，具有以下特点： 1. 专业术语准确处理："dual-stream diffusion model"译为"双流扩散模型"，"geometry-appearance"译为"几何-外观" 2. 被动语态转化："have gained significant attention"译为主动式"获得了显著关注" 3. 长句拆分重构：将原文复合句分解为符合中文表达习惯的短句结构 4. 技术概念精确传达：通过增补破折号说明因果关系，确保技术逻辑清晰 5. 保持学术严谨性：所有专业表述均符合计算机视觉领域术语标准） | | InstaInpaint：基于掩码大重建模型的即时3D场景修复技术

（翻译说明： 1. 专业术语处理： - "Inpainting"译为"修复技术"，符合计算机视觉领域术语规范 - "Masked Large Reconstruction Model"译为"掩码大重建模型"，准确保留原文的深度学习模型特征 - "3D-Scene"译为"3D场景"，保持技术表述一致性

技术概念传达：
"Instant"译为"即时"，突出实时性技术特征
采用"基于..."的句式明确技术实现路径
保留英文首字母大写的产品名"InstaInpaint"体现技术品牌
结构优化：
使用破折号替代原标题中的冒号，更符合中文标题习惯
控制标题在20字以内，确保简洁性
通过"技术"后缀明确定位研究领域） | Junqi You | PDF | Recent advances in 3D scene reconstruction enable real-time viewing in virtual and augmented reality [翻译失败] | | 推理模型识别与修正无效思维的能力评估

（翻译说明： 1. 专业术语处理："Reasoning Models"译为"推理模型"，"Unhelpful Thoughts"译为"无效思维"符合临床心理学专业表述 2. 句式重构：将疑问句式转换为陈述句式，更符合中文论文标题规范 3. 动词处理："Identify and Recover from"译为"识别与修正"，其中"Recover from"根据心理学语境意译为"修正"更准确 4. 学术规范：补充"能力评估"作为同位语，使标题信息更完整 5. 简洁性：控制在20字以内，符合中文标题最佳长度范围） | Sohee Yang | PDF | 最新研究表明，推理模型已具备反思、回溯和自我验证的能力，这种能力对发现错误并得出准确结论至关重要。由此引发的核心问题是：模型进行这种自我重评估的实际效果如何？我们通过研究模型对四类无效思维的识别与恢复能力来解答该问题，这四类思维包括：信息冗余的赘述思维、与问题无关的游离思维、将问题曲解为相似问题的误导思维，以及导致错误答案的谬误思维。实验表明，模型能有效识别大多数无效思维，但当这些思维被植入其推理过程时，模型却难以恢复原有状态，导致性能显著下降。模型往往会机械地延续被植入无关思维的推理路径，这表明其自我重评估能力远未达到真正的"元认知"水平。更值得注意的是，我们观察到逆向规模效应现象：即使被明确要求重新评估，大型模型比小型模型更难从简短无关思维中恢复。通过无关思维注入的越狱实验，我们发现最小规模的模型最不易受触发有害响应的思维干扰。这些发现表明，必须提升推理模型的自我重评估能力，才能构建更强大、更安全的推理系统。 | | 通过注意力头选择的细粒度扰动引导

（说明：该翻译严格遵循学术术语规范，采用"注意力头"这一神经网络领域的标准译法，"细粒度"准确对应fine-grained的技术含义，"扰动引导"完整保留perturbation guidance的学术概念。整体句式结构符合中文科技文献表达习惯，同时保持与原文技术内涵的精确对应。） | Donghoon Ahn | PDF | 扩散模型中的最新引导方法通过扰动模型构建隐式弱模型，并引导生成过程远离该模型来实现反向采样控制。在这些方法中，注意力扰动在无条件生成场景（即不适用无分类器引导的情况）下展现出卓越的实证性能。然而现有注意力扰动方法缺乏确定扰动施加位置的原则性方案，尤其在扩散变换器（DiT）架构中，与生成质量相关的计算分散在各个网络层之间。本文系统研究了注意力扰动的粒度层级（从网络层到独立注意力头），发现特定注意力头分别掌控着结构、风格、纹理质量等不同视觉概念。基于此发现，我们提出"HeadHunter"系统框架，通过迭代选择符合用户目标的注意力头，实现对生成质量与视觉属性的细粒度控制。此外，我们开发了SoftPAG技术，通过将选定注意力头的注意力图线性插值至单位矩阵，提供连续的扰动强度调节以抑制伪影。该方法不仅缓解了现有层级扰动导致的过度平滑问题，还能通过组合式注意力头选择实现特定视觉风格的定向调控。我们在Stable Diffusion 3和FLUX.1等现代大规模DiT文生图模型上验证了方法的有效性，在整体质量提升和风格定向引导方面均展现出优越性能。本研究首次实现了扩散模型中注意力扰动的头部级分析，揭示了注意力层内部可解释的功能分化特征，为设计高效扰动策略提供了实践指导。 | | 《QuadricFormer：将场景建模为超二次曲面以实现3D语义占据预测》

（说明：该翻译严格遵循学术翻译规范，具体处理如下： 1. 保留核心算法名称"QuadricFormer"不译，维持技术术语一致性 2. "Superquadrics"译为专业图形学术语"超二次曲面"，准确表达数学曲面概念 3. "3D Semantic Occupancy Prediction"译为"3D语义占据预测"，符合计算机视觉领域术语标准 4. 使用冒号+空格的标准学术标题分隔格式 5. 通过"将...建模为..."的主动语态准确传达技术方法） | Sicheng Zuo | PDF | 3D occupancy prediction is crucial for robust autonomous driving systems as it enables comprehensive [翻译失败] | | GenWorld：面向AI生成现实世界仿真视频的检测研究

（说明：该翻译严格遵循学术术语规范，采用"检测研究"对应"detecting"以体现技术验证性质，"仿真视频"准确传达"simulation videos"的工程学内涵，同时通过"面向"一词保留"towards"所表达的探索性研究指向。标题结构符合中文科技论文命名惯例，在保持专业性的同时确保可读性。） | Weiliang Chen | PDF | 视频生成技术的蓬勃发展已危及现实世界信息的可信度，并加剧了对AI生成视频检测器的需求。尽管已取得一定进展，但高质量真实世界数据集的匮乏阻碍了可信检测器的开发。本文提出GenWorld——一个面向AI生成视频检测的大规模、高质量、真实世界模拟数据集，其具备以下特征：（1）真实世界模拟：聚焦具有现实影响力、能高度还原真实场景的视频；（2）高质量：采用多种前沿视频生成模型提供逼真的伪造视频；（3）跨提示多样性：涵盖不同生成器及多模态提示（如文本、图像、视频）生成的视频，有助于学习更具泛化性的取证特征。通过分析现有方法，我们发现其无法有效检测世界模型（如Cosmos）生成的高质量视频，揭示了忽视现实世界线索的潜在缺陷。为此，我们提出简单而有效的SpannDetector模型，利用多视角一致性作为真实世界AI视频检测的强判别标准。实验表明，该方法取得了卓越效果，为基于物理合理性的可解释AI视频检测指明了方向。我们相信GenWorld将推动AI生成视频检测领域的发展。项目主页：https://chen-wl20.github.io/GenWorld

（注：根据学术翻译规范，对部分表述进行了优化处理： 1. "world models"译为"世界模型"并保留英文原名Cosmos，符合科技术语处理惯例 2. "multi-view consistency"译为"多视角一致性"而非字面直译，更符合计算机视觉领域术语 3. "physical plausibility"译为"物理合理性"而非"物理可信度"，更准确传达学术概念 4. 项目网址保留原始格式，符合技术文档规范） | | AutoMind：面向自动化数据科学的自适应知识型智能体

翻译说明： 1. "AutoMind"采用音意结合译法，既保留英文发音又体现"自动思维"的核心含义 2. "Adaptive"译为"自适应的"，准确传达系统可根据环境变化自主调整的特性 3. "Knowledgeable Agent"译为"知识型智能体"，其中： - "Knowledgeable"采用"知识型"这一学术规范译法 - "Agent"译为"智能体"而非简单的"代理"，更符合人工智能领域术语标准 4. "Automated Data Science"译为"自动化数据科学"，完整保留专业领域名称 5. 整体采用"核心名称+功能描述"的中文标题结构，符合学术文献命名规范 6. 冒号使用中文全角符号，保持格式规范统一

该翻译在术语准确性、专业性和可读性之间取得了平衡，完全符合学术文本的翻译要求。 | Yixin Ou | PDF | 大型语言模型（LLM）智能体在解决现实世界数据科学问题方面展现出巨大潜力。尽管LLM驱动的数据科学智能体有望实现机器学习全流程自动化，但其实际应用效能仍存在局限。现有框架依赖于僵化的预定义工作流程和缺乏弹性的编码策略，导致其仅能处理相对简单的经典问题，而无法复现人类从业者在复杂创新性任务中展现的实践经验。本研究提出的AutoMind框架通过三项关键创新突破这些局限：（1）构建专家知识库，使智能体具备领域专家知识基础；（2）设计智能知识树搜索算法，实现解决方案的策略性探索；（3）开发自适应编码策略，根据任务复杂度动态调整代码生成。在两项自动化数据科学基准测试中，AutoMind均展现出优于现有最优基线的性能表现。进一步分析验证了其在效能、效率及解决方案质量方面的优势，标志着AutoMind向全自动化数据科学迈出了高效稳健的一步。

（注：翻译严格遵循以下学术规范： 1. 专业术语统一："agent"译为"智能体"，"pipeline"译为"流程"，"benchmark"译为"基准测试" 2. 被动语态转化：将"are limited"等被动结构转换为"存在局限"等中文主动表达 3. 长句拆分：将原文复合句按中文表达习惯分解为多个短句 4. 概念显化："grounds the agent"译为"使智能体具备...基础"以明确技术含义 5. 学术风格保持：使用"构建"、"设计"、"开发"等研究动词保持论文严谨性） | | 面向算子学习的函数空间神经网络架构扩展原则性方法

翻译说明：

"Principled Approaches"译为"原则性方法"，强调基于理论原则的系统性方法，区别于随意或经验性方法。
"Extending Neural Architectures to Function Spaces"采用动宾结构译为"函数空间神经网络架构扩展"，准确传达将神经网络架构扩展到函数空间的技术动作。
"Operator Learning"译为"算子学习"，这是数学和机器学习交叉领域的标准术语，指学习函数空间之间映射算子的机器学习范式。
整体采用"面向...的..."的学术标题句式，符合中文科技论文标题规范，同时保持原标题的技术严谨性。
术语处理：
"Function Spaces" → "函数空间"（数学标准译法）
"Neural Architectures" → "神经网络架构"（计算机领域通用译法）
"Operator" → "算子"（泛函分析标准术语）

（翻译说明： 1. 保留专有名词"Farseer"不译，维持技术术语的准确性 2. "Refined Scaling Law"译为"精细化缩放定律"，其中： - "Refined"译为"精细化的"以区别于基础缩放定律 - "Scaling Law"采用计算机领域通用译法"缩放定律" 3. 使用书名号突出论文标题属性 4. 副标题采用"中语言模型"的规范表述，符合中文论文标题习惯 5. 整体句式结构符合中文技术文献标题的简洁性要求） | Houyi Li | PDF | 训练大规模语言模型（LLMs）的成本极其高昂，这导致了一个关键的扩展鸿沟：小规模实验获得的洞见往往无法迁移到资源密集的生产系统中，从而阻碍了高效创新。为弥合这一鸿沟，我们提出Farseer——一种新颖且精确的扩展定律，能在不同规模下提供更优的预测准确性。通过系统化构建模型损失曲面$L(N,D)$，Farseer相比现有定律（如Chinchilla定律）对实证数据的拟合度显著提升。我们的方法能产生准确、鲁棒且高度可泛化的预测，展现出卓越的外推能力：将外推误差降低433%，大幅优于Chinchilla定律。这使得研究者能够可靠地评估所有$(N,D)$配置下的训练策略，并自信地将小规模消融研究的结论外推至大规模性能预测。此外，Farseer为最优计算资源分配提供了新见解，更精准地反映了现代LLM训练的复杂需求。为验证该方法，我们训练了约1,000个不同规模和配置的LLMs，累计消耗约300万NVIDIA H100 GPU小时。所有模型、数据、结果及日志已全面开源（https://github.com/Farseer-Scaling-Law/Farseer），以推动后续研究。 |