arxiv 2025-10-03
| 标题 | 作者 | PDF链接 | 摘要 |
|---|---|---|---|
| 最优控制与流匹配交汇:通往多主体保真度的理论路径 |
这一翻译保留了原文的学术严谨性,通过以下处理确保专业性与准确性: 1. "Optimal Control"译为"最优控制"——沿用控制论标准译法 2. "Flow Matching"译为"流匹配"——保持流体力学领域术语一致性 3. "Principled Route"译为"理论路径"——准确传达基于理论原则的方法论含义 4. "Multi-Subject Fidelity"译为"多主体保真度"——精准对应跨学科研究中的多重主体概念 5. 冒号结构完整保留原文的递进逻辑关系 6. 整体句式符合中文科技论文标题的简洁规范 | Eric Tillmann Bill | PDF | 文本到图像(T2I)模型在单实体提示词上表现卓越,但在多主体描述任务中常面临挑战,普遍存在属性泄露、身份纠缠和主体缺失等问题。我们首次提出具有可优化理论目标的理论框架,通过引导采样动态过程实现多主体保真度。基于随机最优控制视角重新审视流匹配(FM)方法,我们将主体解纠缠问题转化为对已训练FM采样器的控制任务,由此衍生出两种架构无关的算法:(i)无需训练的测试时控制器,通过单次更新扰动基础速度场;(ii)伴随匹配——一种轻量级微调规则,通过回归控制网络拟合反向伴随信号,同时保持基础模型能力。该统一框架不仅整合了现有注意力启发式方法,还通过流-扩散对应关系扩展至扩散模型,并开创了首个明确针对多主体保真度优化的微调路径。实证研究表明,在Stable Diffusion 3.5、FLUX和Stable Diffusion XL三大模型上,两种算法均能持续提升多主体对齐能力,同时保持基础模型风格特征。测试时控制可在消费级GPU高效运行,基于有限提示词训练的微调控制器具备对未见提示词的泛化能力。我们进一步提出FOCUS(流最优控制解纠缠系统),该方案在跨模型多主体保真度任务中达到了当前最优性能。 | | 隐形攻击:基于密度引导幻象的鲁棒三维高斯泼溅投毒
(注:该翻译在保持学术专业性的基础上实现了以下处理: 1. StealthAttack译为"隐形攻击"准确体现攻击的隐蔽特性 2. Robust译为"鲁棒"符合计算机安全领域的术语规范 3. 3D Gaussian Splatting保留专业表述"三维高斯泼溅" 4. Poisoning译为"投毒"契合对抗机器学习术语体系 5. Density-Guided Illusions译为"密度引导幻象"准确传达通过密度参数生成对抗样本的技术内涵 6. 整体采用"手段+目标"的中文学术标题惯用结构) | Bo-Hsu Ke | PDF | 以神经辐射场(NeRF)和三维高斯泼溅(3DGS)为代表的三维场景表征方法显著推动了新视角合成技术的发展。随着这些方法的普及,解决其安全漏洞变得至关重要。本文系统分析了3DGS针对图像级投毒攻击的鲁棒性,并提出了一种创新的密度引导投毒方法。该方法通过核密度估计(KDE)识别低密度区域,策略性地注入高斯点集,在受攻击视角中嵌入清晰可见的视点相关虚幻物体,同时最大限度减少对正常视角的影响。此外,我们引入自适应噪声策略以破坏多视角一致性,进一步提升攻击效能。通过建立基于KDE的系统化评估协议,实现了对攻击难度的量化分析,为后续研究提供客观基准。大量实验证明,本方法在攻击效果上显著优于现有先进技术。项目页面:https://hentci.github.io/stealthattack/ | | 叮当!咔嚓!砰!——从真实世界互动中学习物体声音 | Mengyu Yang | PDF | 模型能否区分勺子敲击硬木地板与地毯的声音?日常物体交互会产生特定于相关物体的独特声音。我们提出发声物体检测任务,用于评估模型将这些声音与直接参与物体建立联系的能力。受人类感知启发,我们的多模态物体感知框架通过真实场景的第一人称视角视频进行学习。为强化以物体为中心的研究方法,我们首先开发了自动处理流程来计算相关物体的分割掩码,在训练过程中引导模型聚焦于交互中最具信息量的区域。采用槽注意力视觉编码器进一步强化物体先验知识。我们在新任务及现有多模态动作理解任务中均展示了最先进的性能表现。 | | KaVa:基于压缩KV缓存蒸馏的潜在推理方法
(注:KaVa为音译,保留原缩写形式;"Compressed KV-Cache Distillation"译为"压缩KV缓存蒸馏",此为深度学习领域标准译法,其中KV指键值对(key-value);"Latent Reasoning"译为"潜在推理",体现模型在隐空间进行推理的特性) | Anna Kuzina | PDF | 大型语言模型(LLM)在具有显式思维链的多步推理任务中表现出色,但冗长的推理轨迹会导致显著的计算成本与内存开销,且常包含冗余的程式化痕迹。潜在推理作为一种高效替代方案,通过内部化思维过程实现推理,但其关键缺陷在于缺乏有效监督,限制了在复杂自然语言推理轨迹上的性能。本研究提出KaVa框架,首次通过自蒸馏方法将教师模型压缩后的KV缓存知识直接迁移至潜在推理学生模型,利用连续潜在标记的表征灵活性实现逐步KV轨迹对齐。研究表明,压缩KV缓存中虽缺乏直接标记对应关系,但其抽象的非结构化知识可为潜在推理学生模型提供丰富的监督信号。实验表明,该方法持续优于现有潜在推理基线模型,在从纯数学表达式到自然语言轨迹的转换中性能衰减显著减小,并能扩展至更大骨干网络同时保持效率。这些结果证实了压缩KV缓存蒸馏可作为潜在推理的可扩展监督信号,兼具思维链训练教师的精度优势与潜在推理的高效部署特性。 | | 基于视频基础模型推断动态物理属性 | Guanqi Zhan | PDF | 我们研究从视频中预测动态物理属性的任务。具体而言,我们关注那些需要借助时序信息才能推断的物理属性:弹跳物体的弹性系数、流动液体的粘滞系数,以及物体在表面滑动时的动摩擦系数。为此我们做出以下贡献:(一)针对每种物理属性收集了新的视频数据集,包含合成数据的训练集与测试集,以及用于现实场景评估的真实数据子集;(二)探索了三种从视频推断物理属性的方法:(a)通过传统计算机视觉技术提供本质反映物理属性的视觉线索作为理想参照方法;(b)利用视觉提示和可训练提示向量,在预训练视频生成与自监督模型中实现交叉注意力的简易读取机制;(c)针对多模态大语言模型的提示策略;(三)实验表明,以生成式或自监督方式训练的视频基础模型能达到相近性能(虽仍落后于理想参照方法),而多模态大语言模型目前逊色于其他模型,但通过恰当提示可提升其表现。 | | 通过拉普拉斯特征向量梯度正交化实现鲁棒切空间估计 | Dhruv Kohli | PDF | 估计数据流形的切空间是数据分析中的一个基本问题。传统方法局部主成分分析(LPCA)因邻域大小选择存在关键权衡,在高噪声场景中表现不佳。选择最优邻域大小需要预先了解数据的几何特征与噪声特性,而这类信息通常难以获取。本文提出一种基于谱方法的新技术——拉普拉斯特征向量梯度正交化(LEGO),该方法利用数据的全局结构指导局部切空间估计。LEGO不依赖局部邻域,而是通过正交化图拉普拉斯低频特征向量的梯度来估计每个数据点的切空间。我们为该方法提供了双重理论支撑:首先,在流形管状邻域上的微分几何分析表明,管状域低频拉普拉斯特征函数的梯度与流形切丛高度对齐,而在垂直于流形方向上具有高梯度的特征函数则位于谱的更深处;其次,随机矩阵理论分析也证明低频特征向量对亚高斯噪声具有强鲁棒性。通过系统实验验证,LEGO获得的切空间估计相比LPCA具有显著的噪声鲁棒性,在流形学习、边界检测和局部本征维度估计等下游任务中展现出明显优势。 | | 噪声偏移:面向分辨率感知的噪声重校准以优化低分辨率图像生成 | Ruozhen He | PDF | 在固定分辨率集上训练的文本到图像扩散模型通常难以泛化,即使被要求生成低于训练时所见分辨率的图像也是如此。当前的高分辨率文本到图像生成器无法为那些可能不需要高分辨率图像的用户直接提供开箱即用的经济高效替代方案。我们发现了扩散模型中的一个关键技术洞见:噪声调度器在不同分辨率下具有不对等的感知效应。相同程度的噪声从低分辨率图像中移除的信号量会不成比例地高于高分辨率图像,从而导致训练与测试的不匹配。为此我们提出NoiseShift——一种无需重新训练的方法,可根据分辨率大小重新校准去噪器的噪声水平。该方法无需改变模型架构或采样计划,且与现有模型兼容。当应用于Stable Diffusion 3、Stable Diffusion 3.5和Flux-Dev时,低分辨率图像生成质量得到显著提升。在LAION-COCO数据集上,NoiseShift使SD3.5的FID平均提升15.89%,SD3提升8.56%,Flux-Dev提升2.44%;在CelebA数据集上,NoiseShift使SD3.5的FID平均提升10.36%,SD3提升5.19%,Flux-Dev提升3.02%。这些结果证明了NoiseShift在缓解分辨率相关伪影、提升低分辨率图像生成质量方面的有效性。 | | 从抽签中得出结论:重新审视竞技场式大语言模型评估中的偏好语义
该标题的翻译要点在于: 1. "Drawing Conclusions from Draws"采用双关修辞,既指从平局结果中得出结论,又呼应"抽签"的随机性特征,译为"从抽签中得出结论"保留原文修辞张力 2. "Arena-Style"译为"竞技场式"准确传达多模型对抗评估的核心理念 3. "Preference Semantics"作为专业术语译为"偏好语义",符合计算语言学规范 4. 整体采用学术标题常见的"冒号分隔"结构,主标题体现研究切入点,副标题说明研究范畴 | Raphael Tang | PDF | 在大语言模型(LLM)的竞技场式评估中,两个LLM对用户查询作出响应,用户选择优胜回复或判定“对战”为平局,从而导致两个模型的评分调整。目前对这种评分动态的主流建模方法是将对战视为双人博弈(如国际象棋),并采用埃洛等级分系统及其衍生方法。本文对这一范式提出批判性审视:我们特别质疑平局是否真正意味着两个模型实力相当因而应获得相同评分。相反,我们推测平局更能反映查询的难度——若查询过于简单,则两个模型更可能同样成功。在三个真实竞技场数据集上的实验表明,忽略平局时的评分更新可使四种评级系统的对战结果预测准确率(含平局情况)相对提升1-3%。进一步分析表明,平局更常出现在被评定为极简单和高度客观的查询中,风险比分别为1.37和1.35。我们建议未来的评级系统应重新考量现有平局语义,并在评分更新时纳入查询特性参数。 | | 扩散模型与流形假设:对数域平滑具有几何自适应性 | Tyler Farghly | PDF | 扩散模型已实现最先进的性能,在多个领域展现出卓越的泛化能力。然而支撑这些强大能力的机制至今仍未得到完整阐释。基于流形假说的主流推论认为,这种成功源于模型对数据内在低维几何结构的自适应能力。本研究通过分析基于分数匹配的学习问题构建机制,为这一推论提供了证据支撑。我们通过考察经验分数匹配目标函数平滑极小值的作用效应,深入探究了隐式正则化的功能。理论与实验结果表明:对分数函数进行平滑处理(等效于在对数密度域实施平滑操作)会产生沿数据流形切向的平滑效果。此外,我们证明通过选择适当的平滑方式,可以有效控制扩散模型实现泛化的流形维度。 | | 开放权重模型的知识蒸馏检测 | Qin Shi | PDF | 我们提出知识蒸馏检测任务,旨在解决仅能获取学生模型权重和教师模型API的实际场景下,判定学生模型是否通过特定教师模型蒸馏得到的问题。该研究源于对模型溯源及未经授权的蒸馏复现日益增长的关注。针对此任务,我们提出一种与模型架构无关的检测框架,通过结合无数据输入合成与统计分数计算来实现蒸馏检测。该方法可同时适用于分类模型与生成模型。在图像分类和文生图等多种架构上的实验表明:在CIFAR-10数据集上检测准确率较最强基线提升59.6%,在ImageNet上提升71.2%,在文生图任务上提升20.0%。代码已开源:https://github.com/shqii1j/distillation_detection。 |