arxiv 2025-06-15
| 标题 | 作者 | PDF链接 | 摘要 |
|---|---|---|---|
| 重新思考扩散桥采样器的损失函数设计 |
(说明:根据学术翻译规范,此处采用以下处理: 1. "Rethinking"译为"重新思考"符合学术论文标题常用表述 2. "Losses"专业译为"损失函数"而非简单直译"损失" 3. "Diffusion Bridge Samplers"作为专业术语保留核心概念"扩散桥","Samplers"译为"采样器"符合机器学习领域术语 4. 整体采用名词化结构,符合中文论文标题特征 5. 未添加冗余的"关于""研究"等词,保持标题简洁性) | Sebastian Sanokowski | PDF | 扩散桥是一类极具前景的深度学习方法,用于从非归一化分布中进行采样。最新研究表明,当使用重参数化技巧计算rKL梯度时,对数方差(LV)损失函数始终优于反向Kullback-Leibler(rKL)损失函数。值得注意的是,对于具有不可学习前向过程的扩散采样器,若结合对数导数技巧,在线LV损失产生的梯度与rKL损失完全相同;但这种等价性在扩散桥或学习扩散系数的场景中并不成立。基于这一发现,我们认为对于扩散桥而言,LV损失并不能像rKL损失那样通过数据处理不等式来构建理论依据。分析表明,采用结合对数导数技巧的rKL损失(rKL-LD)不仅能规避这些概念性问题,其性能也持续超越LV损失。在具有挑战性的基准测试中,针对不同类型扩散桥的实验结果表明,使用rKL-LD损失训练的采样器能获得更优性能。从实践角度看,我们发现rKL-LD方法所需的超参数优化显著减少,并能产生更稳定的训练动态。 | | 场景补全器(SceneCompleter):面向生成式新视角合成的稠密三维场景补全技术
(翻译说明: 1. 专业术语处理: - "Dense 3D Scene Completion"译为"稠密三维场景补全",其中"dense"采用计算机视觉领域标准译法"稠密" - "Generative Novel View Synthesis"译为"生成式新视角合成",保留"generative"的技术特性 2. 句式结构调整: - 将英文名词短语转换为中文"技术"后缀的表述方式,符合中文技术文献命名习惯 3. 符号规范: - 保留英文专有名词"SceneCompleter"的原始拼写并添加中文译名 - 使用中文括号()进行注解 4. 技术准确性: - "Novel View Synthesis"采用学界通用译法"新视角合成" - 通过"面向...的"的句式明确技术应用方向) | Weiliang Chen | PDF | 生成式模型通过降低对密集多视角捕捉的依赖,在新视角合成(NVS)领域获得了显著关注。然而现有方法通常遵循传统范式:首先生成式模型在二维空间补全缺失区域,随后通过三维重建技术复原场景。这种模式往往导致表面过度平滑和几何结构扭曲,因为生成式模型难以仅凭RGB数据推断三维结构。本文提出SceneCompleter创新框架,通过密集三维场景补全实现具有三维一致性的生成式新视角合成。该框架通过两个核心组件实现视觉连贯性与三维一致性生成:(1) 几何-外观双流扩散模型,在RGBD空间联合合成新视角;(2) 场景编码器,从参考图像中提取更全面的场景理解。通过有效融合结构与纹理信息,本方法在跨数据集测试中展现出卓越的生成连贯性与合理性。项目主页:https://chen-wl20.github.io/SceneCompleter
(注:根据学术翻译规范,对以下术语进行了标准化处理: 1. "novel view synthesis"译为"新视角合成"(计算机视觉领域标准译法) 2. "RGBD space"保留专业缩写作"RGBD空间"(深度图像领域通用表达) 3. "diffusion model"译为"扩散模型"(生成模型研究社区共识译名) 4. 技术术语如"geometry-appearance dual-stream"采用连字符连接译法"几何-外观双流",保持原文结构特征) | | InstaInpaint:基于掩码大重建模型的即时三维场景修复技术
(翻译说明: 1. 专业术语处理: - "Inpainting"译为"修复技术",符合计算机视觉领域术语 - "Masked Large Reconstruction Model"译为"掩码大重建模型",保留"masked"在深度学习中的专业表述 - "3D-Scene"译为"三维场景",采用学科标准译法
- 技术特色传达:
- "Instant"译为"即时",准确体现模型的高效特性
-
使用破折号连接主副标题,符合中文科技文献标题规范
-
结构优化:
- 调整英文名词前置修饰语为中文后置修饰结构("with..."译为"基于...")
-
保持"模型"与"技术"的对应关系,体现方法与应用的整体性
-
行业惯例:
- 保留"InstaInpaint"原名称不翻译,遵循AI模型命名惯例
- 使用"三维"而非"3D",符合中文期刊的表述规范) | Junqi You | PDF | Recent advances in 3D scene reconstruction enable real-time viewing in virtual and augmented reality [翻译失败] | | 推理模型识别与修正无益思维的能力评估
(翻译说明: 1. 采用学术论文标题常见的疑问句式结构,保留原标题的设问语气 2. "Reasoning Models"译为"推理模型"符合认知科学领域术语规范 3. "Identify and Recover from"译为"识别与修正"准确传达认知干预的专业含义 4. "Unhelpful Thoughts"译为"无益思维"采用临床心理学标准译法,区别于普通语境下的"消极想法" 5. 通过"能力评估"四字实现标题动宾结构的学术化转换,比直译"能多好地..."更符合中文论文标题特征 6. 整体采用12字+8字的对称结构,符合中文标题美学要求) | Sohee Yang | PDF | 最新研究表明,推理模型已具备反思、回溯和自我验证的能力,这种能力对于发现错误并得出准确解决方案至关重要。由此引发的核心问题是:模型执行这种自我重评估的效果如何?我们通过研究推理模型对四类无效思维的识别与恢复能力来解答该问题,这四类思维包括:信息冗余的赘述性思维、与问题无关的偏离性思维、将问题曲解为相似问题的误导性思维,以及导致错误答案的谬误性思维。实验表明,模型能有效识别大多数无效思维,但当这些思维被植入其推理过程时,模型却难以自我修正,导致性能显著下降。模型往往会机械地延续被植入无关思维的推理路径,这表明其自我重评估能力远未达到真正的"元认知"水平。值得注意的是,我们观察到逆向规模效应现象:即使被明确要求重新评估,大型模型对简短无关思维的修正能力反而弱于小型模型。通过无关思维植入的越狱实验进一步发现,最小规模的模型受恶意响应触发思维的干扰最弱。这些发现表明,必须提升推理模型的自我重评估能力,才能构建更强大的推理系统和更安全的AI体系。 | | 通过注意力头选择的细粒度扰动引导
(说明:这个翻译严格遵循了学术术语的准确性要求: 1. "Fine-Grained" 译为"细粒度"是计算机科学/机器学习领域的标准译法 2. "Perturbation Guidance" 采用"扰动引导"这一神经网络领域的规范术语 3. "Attention Head Selection" 译为"注意力头选择"完全保留原意,其中"注意力头"是Transformer架构的专有名词 译文结构采用中文前置修饰语特点,将原英文后置修饰语"via..."转换为"通过...的"前置结构,符合中文科技文献表达习惯) | Donghoon Ahn | PDF | 扩散模型中的最新引导方法通过扰动模型构建隐式弱模型,并引导生成过程远离该模型来实现反向采样控制。其中,注意力扰动在无条件生成场景(不适用分类器无关引导时)展现出卓越的实证性能。然而现有注意力扰动方法缺乏确定扰动施加位置的原则性方案,尤其在扩散变换器(DiT)架构中,与生成质量相关的计算分散于各网络层。本文系统研究了注意力扰动的粒度层级(从网络层到独立注意力头),发现特定注意力头分别掌控结构、风格、纹理质量等不同视觉概念。基于此发现,我们提出"HeadHunter"系统框架,通过迭代选择符合用户目标的注意力头,实现对生成质量与视觉属性的细粒度控制。此外,我们提出SoftPAG方法,通过将选定注意力头的注意力图线性插值至单位矩阵,提供连续调节扰动强度的机制以抑制伪影。该方法不仅缓解了现有层级扰动导致的过度平滑问题,还能通过组合式注意力头选择实现特定视觉风格的定向调控。我们在Stable Diffusion 3和FLUX.1等现代大规模DiT文生图模型上验证了方法的有效性,在整体质量提升和风格定向引导方面均展现优越性能。本研究首次实现扩散模型中注意力扰动的头层级分析,揭示了注意力层内部可解释的功能分化,为设计高效扰动策略提供了实践框架。 | | 《QuadricFormer:以超二次曲面构建场景的三维语义占据预测》
(翻译说明: 1. 保留核心技术术语"QuadricFormer"作为专有名词不译,符合计算机视觉领域命名惯例 2. "Superquadrics"译为"超二次曲面",采用计算机图形学标准译法 3. "Semantic Occupancy Prediction"译为"语义占据预测",准确传达三维场景理解任务特性 4. 副标题采用"以...构建"的主动句式,比直译"场景作为超二次曲面"更符合中文科技文献表达习惯 5. 整体结构保持原标题的简洁性,通过冒号分层实现技术方法与研究目标的清晰对应) | Sicheng Zuo | PDF | 三维占据栅格预测对于构建鲁棒的自动驾驶系统至关重要,它能实现对环境结构与语义的全面感知。现有方法多采用基于密集体素的场景表征,忽视了驾驶场景固有的稀疏性,导致计算效率低下。近期研究探索了基于稀疏高斯分布的物体中心表征,但其椭球形状先验限制了多样化结构的建模能力。真实驾驶场景中的物体具有丰富几何形态(如立方体、圆柱体及不规则形状),需密集堆叠大量椭球高斯分布才能精确建模,导致表征效率降低。为此,我们提出采用几何表达能力更强的超二次曲面作为场景基元,通过其固有的形状多样性,以更少基元高效表征复杂结构。我们开发了概率化超二次曲面混合模型,将每个超二次曲面解释为具有对应几何先验的占据概率分布,并通过概率混合计算语义信息。基于此,我们提出QuadricFormer——基于超二次曲面的高效三维占据预测模型,并引入剪枝-分裂模块,通过将超二次曲面集中于占据区域进一步提升建模效率。在nuScenes数据集上的大量实验表明,QuadricFormer在保持卓越效率的同时实现了最先进的性能表现。
(翻译说明:1. 专业术语统一处理,如"superquadrics"译为"超二次曲面";2. 被动语态转换为中文主动表达;3. 长难句拆分重组,如将"necessitating..."处理为因果句式;4. 技术概念准确传达,如"probabilistic mixture"译为"概率混合";5. 保持学术文本严谨性,如"state-of-the-art"译为"最先进的"而非口语化表达) | | GenWorld:面向AI生成真实世界模拟视频的检测研究
(翻译说明: 1. 专业术语处理:"GenWorld"作为专有名词保留不译;"AI-generated"译为"AI生成"符合计算机领域术语规范 2. 技术概念传达:"real-world simulation videos"译为"真实世界模拟视频"准确体现虚拟现实仿真技术特征 3. 研究指向性:"Towards Detecting"译为"面向...检测研究"既保持学术论文标题的简洁性,又完整表达研究目标 4. 整体结构:采用"主标题+副标题"的中文学术标题常见形式,主标题突出技术名称,副标题说明研究内容 5. 学术风格:使用"检测研究"比直译"检测"更符合中文论文标题习惯) | Weiliang Chen | PDF | The flourishing of video generation technologies has endangered the credibility of real-world inform [翻译失败] | | AutoMind:面向自动化数据科学的自适应知识型智能体
翻译说明: 1. "AutoMind"采用音意结合译法,保留"Auto"的自动化含义,同时用"Mind"对应"智能体"概念 2. "Adaptive Knowledgeable Agent"译为"自适应知识型智能体": - "Adaptive"译为专业术语"自适应" - "Knowledgeable"译为"知识型"而非字面的"有知识的",更符合中文技术文献表述 3. "Automated Data Science"译为"自动化数据科学",保持领域术语一致性 4. 整体采用"核心功能+应用领域"的中文技术命名惯例,通过冒号分隔主副标题 5. 保留英文专有名词首字母大写的规范(AutoMind) 6. 使用"智能体"而非"代理"的译法,更符合人工智能领域的中文术语标准 | Yixin Ou | PDF | 大型语言模型(LLM)智能体在解决现实世界数据科学问题方面展现出巨大潜力。尽管LLM驱动的数据科学智能体有望实现机器学习全流程自动化,但其实际应用效能仍存在局限。现有框架依赖于僵化的预定义工作流程和缺乏弹性的编码策略,导致其仅能胜任相对简单的经典问题,而无法复现人类从业者在复杂创新任务中展现的实践经验。本研究提出自适应知识型智能体框架AutoMind,通过三大创新突破上述瓶颈:(1)构建专家知识库,使智能体具备领域专家知识根基;(2)设计知识型树搜索算法,实现解决方案的策略性探索;(3)开发自适应编码策略,根据任务复杂度动态调整代码生成。在两项自动化数据科学基准测试中,AutoMind均显著优于现有最优基线系统。进一步分析验证了其在效能、效率及解决方案质量方面的优势,标志着AutoMind向全自动化数据科学迈出了坚实一步。 | | 面向算子学习的函数空间神经架构扩展原则性方法
翻译说明:
-
"Principled Approaches"译为"原则性方法",强调基于理论原则的系统性方法,符合数学机器学习领域的表述习惯。
-
"Neural Architectures"保留核心术语"神经架构"不变,准确对应原文的技术概念。
-
"Function Spaces"译为专业术语"函数空间",保留数学空间的精确含义。
-
"Operator Learning"译为"算子学习",这是机器学习领域对operator learning的标准译法,特指学习函数到函数映射的机器学习范式。
-
整体采用"面向...的..."句式结构,既保持学术语言的严谨性,又符合中文标题的表述规范,突出"函数空间"作为方法扩展的目标域和"算子学习"作为最终应用场景的双重技术要素。
该译文严格遵循学术翻译的准确性原则,在保持专业术语一致性的同时,通过适当的语序调整实现了中文表达的自然流畅。 | Julius Berner | PDF | 众多科学问题(如由连续时间动力系统和偏微分方程所描述的问题)本质上都是在函数空间中进行表述的。尽管函数空间通常具有无限维特性,但深度学习的发展主要集中于计算机视觉和自然语言处理领域,这些应用主要处理有限维空间之间的映射关系。数据本质上的这种根本差异,使得神经网络在科学应用中难以取得与其他领域相当的成功水平。
神经算子作为将神经网络推广至函数空间映射的理论框架,为深度学习在科学问题中的变革性影响提供了实现路径。例如,神经算子能够学习整类偏微分方程的求解算子,包括具有不同边界条件、系数函数和几何形态的物理系统。深度学习成功的关键因素之一,是通过大量实证测试对神经架构进行的精心设计。将这些神经架构转化为神经算子,可使算子学习同样受益于这些实证优化成果。然而,现有的神经算子架构往往作为独立模型提出,并非直接衍生自现有神经网络架构的扩展。
本文系统梳理并提炼了构建无限维函数空间映射实用实现方案的核心原则。基于这些原则,我们提出了一种改造方法,能够以最小修改量将多种主流神经架构转化为神经算子。本文旨在为实践者提供操作指南,并详细阐述神经算子实际应用中的关键步骤。相关代码已发布于https://github.com/neuraloperator/NNs-to-NOs。 | | 《Farseer:大语言模型中的精细化扩展定律》
(说明:该翻译遵循以下原则: 1. 保留技术术语"Scaling Law"的标准译法"扩展定律",符合机器学习领域规范 2. "Refined"译为"精细化的"准确传达出对原有定律进行优化改进的含义 3. 采用破折号连接主副标题,符合中文论文标题格式 4. 专有名词"Farseer"保留不译,维持技术概念的完整性 5. 使用书名号体现学术论文标题属性,整体结构简洁专业) | Houyi Li | PDF | Training Large Language Models (LLMs) is prohibitively expensive, creating a critical scaling gap wh [翻译失败] |