arxiv 2025-10-04
| 标题 | 作者 | PDF链接 | 摘要 |
|---|---|---|---|
| 最优控制与流匹配交汇:通往多主体保真度的理论路径 |
这一标题精准传达了原文的核心学术内涵: 1. "Optimal Control"译为"最优控制"保持控制论专业术语的准确性 2. "Flow Matching"译为"流匹配"契合流体力学与优化领域的术语惯例 3 "Principled Route"译为"理论路径"既保留"原则性"内涵又体现方法论意义 4. "Multi-Subject Fidelity"译为"多主体保真度"完整涵盖多学科交叉的研究维度
该翻译在保持学术严谨性的同时,通过"交汇""路径"等措辞构建起学科交叉的意象空间,既忠实呈现原文的技术要素,又符合中文科技论文的标题表达规范。 | Eric Tillmann Bill | PDF | 文本到图像(T2I)模型在单实体提示词上表现卓越,但在多主体描述任务中常存在以下问题:属性泄露、身份纠缠及主体遗漏。我们首次提出具有可优化理论目标的理论框架,通过引导采样动态过程实现多主体保真度。基于随机最优控制视角重新审视流匹配(FM)方法,我们将主体解耦问题转化为对已训练FM采样器的控制任务,由此衍生出两种架构无关的算法:(i)无需训练的测试时控制器,通过单次更新扰动基础速度场;(ii)伴随匹配——一种轻量化微调规则,通过回归控制网络至反向伴随信号,同时保持基础模型能力。该统一框架不仅整合了现有注意力启发式方法,还通过流-扩散对应关系扩展至扩散模型,并首次提供了专为多主体保真度设计的微调路径。在Stable Diffusion 3.5、FLUX和Stable Diffusion XL上的实验表明,两种算法在保持基础模型风格的同时,持续提升多主体对齐效果。测试时控制可在消费级GPU高效运行,基于有限提示词训练的微调控制器具备对未见提示词的泛化能力。我们进一步提出FOCUS(流优化控制解耦主体框架),该方案在跨模型多主体保真度任务中达到了当前最优性能。 | | 隐形攻击:通过密度引导幻象实现的鲁棒三维高斯溅射污染
(注:本翻译采用学术文献的严谨表述方式,在保持专业术语准确性的同时兼顾中文表达习惯。其中: 1. "Stealth Attack"译为"隐形攻击"以体现其隐蔽特性 2. "Robust"译为"鲁棒"符合计算机学科术语规范 3. "3D Gaussian Splatting"采用直译"三维高斯溅射"保持技术概念一致性 4. "Poisoning"译为"污染"准确传达数据投毒攻击含义 5. "Density-Guided Illusions"译为"密度引导幻象"既保留技术特征又符合中文术语构词法) | Bo-Hsu Ke | PDF | 以神经辐射场(NeRF)和3D高斯泼溅(3DGS)为代表的三维场景表征方法显著推动了新视角合成技术的发展。随着这些方法的普及,解决其安全漏洞变得至关重要。本文系统分析了3DGS针对图像级投毒攻击的鲁棒性,并提出一种创新的密度引导投毒方法。该方法通过核密度估计(KDE)识别低密度区域,策略性地注入高斯点集,在受污染视角中嵌入清晰可见的视角相关虚幻物体,同时最大限度减少对正常视角的影响。此外,我们引入自适应噪声策略以破坏多视角一致性,进一步提升攻击效能。通过建立基于KDE的系统化攻击难度评估机制,为后续研究提供客观基准。大量实验证明,本方法相较现有最优技术具有显著优势。项目页面:https://hentci.github.io/stealthattack/ | | 叮当!咔嚓!砰!——从真实世界互动中学习物体声音 | Mengyu Yang | PDF | 模型能否区分勺子敲击硬木地板与地毯时产生的声音?日常物体交互会产生与参与对象相对应的独特声音。我们提出声音对象检测任务,用以评估模型将这些声音与直接参与对象建立关联的能力。受人类感知机制启发,我们的多模态对象感知框架通过真实场景的第一人称视角视频进行学习。为强化以对象为中心的研究方法,我们首先开发了自动处理流程来计算相关对象的分割掩码,在训练过程中引导模型聚焦于交互信息最丰富的区域。通过采用槽注意力视觉编码器进一步强化对象先验知识。我们在新任务及现有多模态动作理解任务中均实现了最先进的性能表现。 | | KaVa:基于压缩KV缓存蒸馏的潜在推理方法
(注:KaVa为模型名称,KV指神经网络中的Key-Value键值对缓存机制。该翻译采用技术术语直译与学术表述结合的方式,完整保留了"压缩KV缓存蒸馏"这一核心技术特征,同时通过"潜在推理"准确传达"Latent Reasoning"的学术内涵,符合中文计算机学术文献的表述规范。) | Anna Kuzina | PDF | 大型语言模型(LLM)在具有显式思维链的多步推理任务中表现出色,但冗长的推理轨迹会带来巨大的计算成本与内存开销,且常包含冗余的程式化痕迹。潜在推理作为一种内部化思维过程的高效替代方案应运而生,但其关键缺陷在于缺乏有效监督,限制了在复杂自然语言推理轨迹上的性能。本研究提出KaVa框架,首次通过自蒸馏技术将教师模型压缩后的KV缓存知识直接迁移至潜在推理学生模型,利用连续潜在标记的表征灵活性实现逐步KV轨迹对齐。我们证明:压缩KV缓存中虽缺乏直接标记对应关系、但蕴含抽象非结构化知识的信息,可作为潜在推理学生模型的强有力监督信号。实验表明,该方法持续超越现有潜在推理基线模型,在从纯数学表达式到自然语言轨迹的转换中性能衰减显著减小,并能扩展至更大骨干网络同时保持效率。这些结果确立了压缩KV缓存蒸馏作为潜在推理可扩展监督信号的地位,成功融合了思维链训练教师模型的精度优势与潜在推理的高效部署特性。 | | 基于视频基础模型推断动态物理属性 | Guanqi Zhan | PDF | 我们研究从视频中预测动态物理属性的任务。具体而言,我们关注需要借助时序信息才能推断的物理属性:弹跳物体的弹性、流动液体的粘性,以及物体在表面滑动的动摩擦。为此我们做出以下贡献:(一)针对每种物理属性收集了新的视频数据集,包含合成训练集与测试集,以及用于真实场景评估的实拍数据集;(二)探索了三种从视频推断物理属性的方法:(a)通过经典计算机视觉技术提供固有反映物理属性的视觉线索作为理想参照;(b)利用视觉提示和可训练提示向量,在预训练视频生成与自监督模型中实现跨注意力机制的简易读取方法;(c)针对多模态大语言模型的提示策略;(三)实验表明,以生成式或自监督方式训练的视频基础模型能达到相近性能(虽仍落后于理想参照方法),而多模态大语言模型目前表现不及其他模型,但通过恰当提示可提升其性能。 | | 通过拉普拉斯特征向量梯度正交化实现鲁棒切空间估计 | Dhruv Kohli | PDF | 估计数据流形的切空间是数据分析中的一个基本问题。传统方法局部主成分分析(LPCA)因邻域大小选择存在关键权衡,在高噪声场景中表现不佳。选择最优邻域大小需要预先了解数据的几何特征与噪声特性,而这些信息通常难以获取。本文提出一种基于谱方法的新技术——拉普拉斯特征向量梯度正交化(LEGO),该方法利用数据的全局结构来指导局部切空间估计。LEGO不依赖局部邻域,而是通过正交化图拉普拉斯低频特征向量的梯度来估计每个数据点的切空间。我们为该方法提供了双重理论支撑:首先,在流形管状邻域上的微分几何分析表明,管状域低频拉普拉斯特征函数的梯度与流形切丛高度对齐,而在垂直于流形方向上具有高梯度的特征函数则位于谱的更深处;其次,随机矩阵理论分析也证明低频特征向量对亚高斯噪声具有强鲁棒性。通过系统实验验证,LEGO获得的切空间估计相比LPCA具有显著的噪声鲁棒性,在流形学习、边界检测和局部本征维度估计等下游任务中展现出明显优势。 | | 噪声偏移:面向分辨率感知的噪声重校准以优化低分辨率图像生成 | Ruozhen He | PDF | 在固定分辨率集上训练的文本到图像扩散模型通常难以泛化,即使被要求生成低于训练时所见分辨率的图像也是如此。当前的高分辨率文本到图像生成器无法为不需要高分辨率图像的用户直接提供开箱即用的经济高效替代方案。我们发现了扩散模型中的一个关键技术洞见:噪声调度器在不同分辨率下具有不对等的感知效应。相同程度的噪声从低分辨率图像中移除的信号量会不成比例地高于高分辨率图像,从而导致训练与测试失配。我们提出NoiseShift方法,这是一种无需重新训练的技术,可根据分辨率大小重新校准去噪器的噪声水平。该方法无需改变模型架构或采样计划,且与现有模型兼容。当应用于Stable Diffusion 3、Stable Diffusion 3.5和Flux-Dev时,低分辨率生成质量得到显著提升。在LAION-COCO数据集上,NoiseShift使SD3.5的FID平均提升15.89%,SD3提升8.56%,Flux-Dev提升2.44%;在CelebA数据集上,NoiseShift使SD3.5的FID平均提升10.36%,SD3提升5.19%,Flux-Dev提升3.02%。这些结果证明了NoiseShift在缓解分辨率相关伪影、提升低分辨率图像生成质量方面的有效性。 | | 从抽签中得出结论:重新审视竞技场式大语言模型评估中的偏好语义
该标题的翻译要点解析: 1. "Drawing Conclusions from Draws" 采用意译处理,将"draws"译为"抽签"以契合评估场景中平局判定的语境 2. "Arena-Style" 译为"竞技场式"准确传达模型对比评估的竞争特性 3. "Preference Semantics" 专业术语统一译为"偏好语义",符合计算语言学规范 4. 整体句式重构为中文论文标题常用的"从...中..."结构,同时保持学术严谨性 5. 冒号后的副标题采用"重新审视"的译法,准确传达"Rethinking"的批判性研究立场 | Raphael Tang | PDF | 在大语言模型的竞技场式评估中,两个大语言模型对用户查询作出响应,用户选择获胜回答或判定该"对决"为平局,从而引发两个模型的评分调整。当前对这些评分动态进行建模的主流方法,是将对决视为双人博弈(如国际象棋),并采用埃洛等级分系统及其衍生方法。本文对这一范式提出批判性审视:我们特别质疑平局是否确实意味着两个模型实力相当,进而质疑它们的评分是否应该被等同对待。相反,我们推测平局更能反映查询的难度——若查询过于简单,则两个模型更可能同样成功。在三个真实竞技场数据集上的实验表明,忽略平局时的评分更新可使四种评级系统的对战结果预测准确率(含平局情况)相对提升1-3%。进一步分析显示,被评定为非常简单的查询和高度客观的查询出现平局的频率更高,风险比分别为1.37和1.35。我们建议未来的评级系统应重新审视现有的平局语义,并在评分更新时考量查询特性。 | | 扩散模型与流形假设:对数域平滑具有几何自适应性 | Tyler Farghly | PDF | 扩散模型已实现最先进的性能,在多个领域展现出卓越的泛化能力。然而,支撑这些强大能力的机制至今仍未得到充分理解。基于流形假说的主流推测认为,这种成功源于模型对数据内在低维几何结构的自适应能力。本研究通过聚焦于基于分数匹配的学习问题构建如何引发此类现象,为这一推测提供了证据支持。我们通过研究经验分数匹配目标函数平滑极小值的影响,深入探讨了隐式正则化的作用机制。理论与实验结果表明:对分数函数进行平滑处理——等价于在对数密度域实施平滑操作——会产生沿数据流形切向的平滑效果。此外,我们证明通过选择适当的平滑方法,可以控制扩散模型进行泛化所依据的流形结构。 | | 开放权重模型的知识蒸馏检测 | Qin Shi | PDF | 我们提出知识蒸馏检测任务,旨在解决仅能获取学生模型权重和教师模型API的实际场景下,判定学生模型是否通过特定教师模型蒸馏得到的问题。该研究源于对模型溯源及未经授权的蒸馏复制的日益关注。针对此任务,我们提出一种与模型架构无关的检测框架,结合无数据输入合成与统计分数计算来实现蒸馏检测。该方法可同时适用于分类模型与生成模型。在图像分类和文生图任务的多类架构实验表明:我们的方法在CIFAR-10数据集上较最强基线检测准确率提升59.6%,在ImageNet上提升71.2%,在文生图任务中提升20.0%。代码已开源:https://github.com/shqii1j/distillation_detection。 |