2025-10-05 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
最优控制邂逅流匹配：通往多主体保真度的理论路径

这一翻译保留了原文的学术严谨性，通过以下处理实现专业表达： 1. "Optimal Control"译为"最优控制"——沿用控制论标准术语 2. "Flow Matching"译为"流匹配"——符合流体力学与计算数学术语惯例 3. "Principled Route"译为"理论路径"——准确传达基于理论原则的方法论含义 4. "Multi-Subject Fidelity"译为"多主体保真度"——兼顾控制系统的多主体特性与精度要求

译文采用四六骈体结构，既保持学术翻译的准确性，又符合中文科技文献的凝练特征，通过"邂逅"的拟人化表述体现学科交叉的研究特色。 | Eric Tillmann Bill | PDF | 文生图模型在单实体提示词上表现卓越，但在多主体描述中往往存在属性泄露、身份纠缠和主体遗漏等问题。我们首次提出具有可优化理论目标的理论框架，通过引导采样动态实现多主体保真度。基于随机最优控制视角重新审视流匹配方法，我们将主体解耦问题转化为对已训练流匹配采样器的控制任务，由此衍生出两种架构无关的算法：（1）无需训练的测试时控制器，通过单次更新扰动基础速度场；（2）伴随匹配轻量微调法则，通过回归控制网络拟合反向伴随信号，同时保持基础模型能力。该统一框架不仅整合了现有注意力启发式方法，借助流-扩散对应关系拓展至扩散模型，更开创了首个明确针对多主体保真度的微调路径。在Stable Diffusion 3.5、FLUX和Stable Diffusion XL上的实验表明，两种算法在保持基础模型风格的同时，持续提升多主体对齐效果。测试时控制可在消费级GPU高效运行，基于有限提示词微调的控制器具备未见提示词的泛化能力。我们特别提出FOCUS（流最优解耦控制框架），该方案在跨模型多主体保真度任务中达到了当前最优水平。 | | 隐形攻击：基于密度引导幻象的鲁棒三维高斯溅射投毒

（注：本翻译采用学术术语规范处理： 1. "Stealth Attack"译为"隐形攻击"符合网络安全领域术语惯例 2. "3D Gaussian Splatting"译为"三维高斯溅射"保持计算机图形学专业表述 3. "Poisoning"译为"投毒"契合对抗机器学习术语体系 4. "Density-Guided Illusions"译为"密度引导幻象"准确传达通过密度场生成对抗样本的技术内涵 5. 整体采用"基于...的..."学术句式，确保技术逻辑的完整传递） | Bo-Hsu Ke | PDF | 以神经辐射场（NeRF）和3D高斯泼溅（3DGS）为代表的三维场景表征方法显著推动了新视角合成技术的发展。随着这些方法的普及，解决其安全漏洞变得至关重要。本文系统分析了3DGS对抗图像级投毒攻击的鲁棒性，并提出一种创新的密度引导投毒方法。该方法通过核密度估计（KDE）识别低密度区域，策略性地注入高斯点集，在受污染视角中嵌入清晰可见的视角依赖性虚幻物体，同时最大限度减少对正常视角的影响。此外，我们引入自适应噪声策略以破坏多视角一致性，进一步提升攻击效能。通过建立基于KDE的系统化攻击难度评估机制，为后续研究提供客观基准。大量实验证明，本方法相较现有最优技术具有显著优势。项目页面：https://hentci.github.io/stealthattack/ | | 叮当！咔嚓！砰！——从真实世界互动中学习物体声音

（注：译文通过拟声词准确还原原文中工具碰撞（Clink）、切割（Chop）、重物落地（Thud）三种典型声音，破折号后采用学术论文标题常用句式，既保持专业术语“真实世界互动”的准确性，又通过动词“学习”与宾语“物体声音”的搭配体现机器学习领域研究特性。） | Mengyu Yang | PDF | 模型能否区分勺子敲击硬木地板与地毯的声音？日常物体交互会产生特定于相关物体的独特声音。我们提出发声物体检测任务，用以评估模型将这些声音与直接参与交互的物体建立关联的能力。受人类感知机制启发，我们的多模态物体感知框架通过真实场景的第一人称视角视频进行学习。为强化以物体为中心的研究方法，我们首先开发了自动处理流程来计算相关物体的分割掩码，在训练过程中引导模型聚焦于交互中最具信息量的区域。采用槽注意力视觉编码器进一步强化物体先验知识。我们在新任务及现有多模态动作理解任务中均展示了最先进的性能表现。 | | KaVa：基于压缩KV缓存蒸馏的潜在推理方法

（解析：1. "KaVa"作为专有名词保留音译；2. "Latent Reasoning"译为"潜在推理"符合认知科学术语惯例；3. "Compressed KV-Cache Distillation"采用技术术语直译法，其中"KV缓存"指键值缓存机制，"压缩蒸馏"体现模型压缩技术特征，整体表述既保持计算机领域专业度又符合中文表达规范。） | Anna Kuzina | PDF | 大型语言模型（LLM）在具有显式思维链的多步推理任务中表现出色，但冗长的推理轨迹会带来高昂的计算成本与内存开销，且常包含冗余的程式化痕迹。潜在推理作为一种内部化思维过程的高效替代方案应运而生，但其关键缺陷在于缺乏有效监督，限制了在复杂自然语言推理轨迹上的性能。本研究提出KaVa框架，首次通过自蒸馏技术将教师模型压缩后的KV缓存知识直接迁移至潜在推理学生模型，利用连续潜在令牌的表征灵活性实现逐步KV轨迹对齐。我们证明：尽管压缩KV缓存中的抽象非结构化知识缺乏直接的令牌对应关系，仍可作为潜在推理模型的丰富监督信号。实验表明，该方法持续超越强潜在推理基线，在从纯数学表达式到自然语言轨迹的转换中性能衰减显著减小，并能扩展至更大骨干网络同时保持效率。这些结果确立了压缩KV缓存蒸馏作为潜在推理可扩展监督信号的地位，兼具思维链训练教师的精度与潜在推理的效率和部署便利性。 | | 基于视频基础模型推断动态物理属性 | Guanqi Zhan | PDF | 我们研究从视频中预测动态物理属性的任务。具体而言，我们关注那些需要借助时序信息才能推断的物理属性：弹性物体的回弹系数、流动液体的粘滞系数，以及物体在表面滑动的动摩擦系数。为此我们做出以下贡献：（一）针对每种物理属性收集了新的视频数据集，包含合成数据的训练集与测试集，以及用于真实场景评估的实拍数据子集；（二）探索了三种从视频推断物理属性的方法：（a）通过经典计算机视觉技术提供固有反映物理属性的视觉线索，构建先知模型；（b）利用视觉提示和可训练提示向量，在预训练视频生成模型与自监督模型上实现跨注意力机制的简易读取方法；（c）针对多模态大语言模型的提示策略；（三）实验表明：以生成式或自监督方式训练的视频基础模型能达到相近性能（虽仍落后于先知模型），而多模态大语言模型目前表现逊于其他模型，但通过恰当提示可有效提升其性能。 | | 通过拉普拉斯特征向量梯度正交化实现鲁棒切空间估计 | Dhruv Kohli | PDF | 估计数据流形的切空间是数据分析中的基本问题。传统方法局部主成分分析（LPCA）因邻域大小选择存在关键权衡，在高噪声场景中表现不佳。选择最优邻域大小需要预先了解数据的几何特征与噪声特性，而这些信息通常难以获取。本文提出一种谱方法——拉普拉斯特征向量梯度正交化（LEGO），该方法利用数据的全局结构指导局部切空间估计。LEGO不依赖局部邻域，而是通过正交化图拉普拉斯低频特征向量的梯度来估计各数据点的切空间。我们通过两个理论分析验证该方法：首先，对流形管状邻域的微分几何分析表明，管状域低频拉普拉斯特征函数的梯度与流形切丛高度对齐，而在垂直于流形方向上具有高梯度的特征函数则位于谱的更深处；其次，随机矩阵理论分析也证明低频特征向量对亚高斯噪声具有强鲁棒性。通过综合实验，我们证明LEGO获得的切空间估计比LPCA具有显著更强的噪声鲁棒性，在流形学习、边界检测和局部本征维度估计等下游任务中取得明显提升。 | | 噪声偏移：面向分辨率感知的噪声重校准以优化低分辨率图像生成

（注：该翻译采用学术论文标题的典型结构，通过冒号分隔主副标题。"NoiseShift"译为"噪声偏移"准确体现算法核心思想；"Resolution-Aware Noise Recalibration"译为"分辨率感知的噪声重校准"完整保留技术特征；"Better Low-Resolution Image Generation"译为"优化低分辨率图像生成"既符合中文表达习惯，又准确传达提升生成质量的学术目标。整个译文在保持专业性的同时确保术语准确对应，符合计算机视觉领域的学术翻译规范。） | Ruozhen He | PDF | 在固定分辨率集合上训练的文本到图像扩散模型通常难以泛化，即使被要求生成低于训练时所见分辨率的图像也是如此。当前的高分辨率文本生成图像模型无法为那些可能不需要高分辨率图像的用户直接提供开箱即用的经济高效替代方案。我们发现了扩散模型中一个关键的技术洞见：噪声调度器在不同分辨率下具有不对等的感知效应。相同程度的噪声从低分辨率图像中移除的信号量会不成比例地高于高分辨率图像，从而导致训练与测试的不匹配。为此，我们提出NoiseShift——一种无需重新训练的方法，通过根据分辨率尺寸重新校准去噪器的噪声水平。该方法无需改变模型架构或采样流程，且与现有模型完全兼容。当应用于Stable Diffusion 3、Stable Diffusion 3.5和Flux-Dev时，低分辨率图像生成质量得到显著提升。在LAION-COCO数据集上，NoiseShift使SD3.5的FID指标平均提升15.89%，SD3提升8.56%，Flux-Dev提升2.44%；在CelebA数据集上，NoiseShift使SD3.5的FID指标平均提升10.36%，SD3提升5.19%，Flux-Dev提升3.02%。这些结果证明了NoiseShift在缓解分辨率相关伪影、提升低分辨率图像生成质量方面的有效性。 | | 从抽签中得出结论：重新审视竞技场式大语言模型评估中的偏好语义

该标题的翻译要点在于： 1. "Drawing Conclusions from Draws"采用双关修辞，既指从抽签/平局结果中推导结论，又呼应前文的"drawing"动作，中文通过"抽签"保留核心意象 2. "Arena-Style"译为"竞技场式"准确传达多模型对抗评估的语境 3. "Preference Semantics"作为专业术语保持"偏好语义"的标准译法 4. 整体采用学术标题常见的"动宾+冒号+副标题"结构，符合中文社科论文标题规范 5. "Rethinking"译为"重新审视"既保持批判性又符合学术表达习惯 | Raphael Tang | PDF | 在大语言模型（LLM）的竞技场式评估中，两个LLM对用户查询作出响应，用户选择获胜回答或判定“对战”为平局，从而导致两个模型的评分调整。目前对这种评分动态的主流建模方法是将对战视为双人博弈（如国际象棋），并采用埃洛等级分系统及其衍生方法。本文对这一范式提出批判性审视：我们特别质疑平局是否真正意味着两个模型实力相当因而应获得相同评分。相反，我们推测平局更能反映查询难度——当查询过于简单时，两个模型更可能同样成功。在三个真实竞技场数据集上的实验表明，忽略平局时的评分更新能使四种评级系统的对战结果预测准确率（含平局情况）相对提升1-3%。进一步分析表明，平局更常出现在被评定为“极简单”和“高客观性”的查询中，风险比分别达1.37和1.35。我们建议未来评级系统应重新考量现有平局语义，并在评分更新时纳入查询属性参数。 | | 扩散模型与流形假设：对数域平滑具有几何自适应性 | Tyler Farghly | PDF | 扩散模型已实现最先进的性能，在多个领域展现出卓越的泛化能力。然而支撑这些强大能力的机制仍未被完全理解。基于流形假说的主流推测认为，这种成功源于模型对数据内在低维几何结构的自适应能力。本研究通过聚焦于基于分数匹配的学习问题构建如何引发此类现象，为该推测提供了证据支持。我们通过研究经验分数匹配目标函数平滑极小值的影响，深入探究了隐式正则化的作用机制。理论与实验结果表明：对分数函数进行平滑处理（等效于在对数密度域进行平滑操作）会产生沿数据流形切向的平滑效果。此外，我们证明通过选择适当的平滑方式，可以有效控制扩散模型实现泛化的特定流形。 | | 开放权重模型的知识蒸馏检测 | Qin Shi | PDF | 我们提出知识蒸馏检测任务，旨在解决仅能获取学生模型权重和教师模型API的实用场景下，判定学生模型是否通过特定教师模型蒸馏得到的问题。该研究源于对模型溯源及未经授权的蒸馏复现日益增长的关注。针对此任务，我们提出一个与模型架构无关的检测框架，通过结合无数据输入合成与统计分数计算来实现蒸馏检测。该方法可同时适用于分类模型与生成模型。在图像分类和文生图等多种架构上的实验表明：我们的方法在CIFAR-10数据集上较最强基线检测准确率提升59.6%，在ImageNet上提升71.2%，在文生图任务上提升20.0%。代码已开源：https://github.com/shqii1j/distillation_detection。 |

bioRxiv

标题	作者	PDF链接
发育期视觉系统中突触竞争期间活动区增加的视眼特异性差异	Zhang, C.	PDF
构建一个融合功能与结构的宏观尺度人脑连接模型	Sairanen, V.	PDF
解析空间利用异质性对连通性与种群规模评估的影响：来自空间捕获-再捕获模型的启示	Kervellec, M.	PDF
小鼠、猴类与人类中的持续性决策行为	Laurie, V.-J.	PDF
利用纳米孔直接RNA测序进行mRNA假尿苷分析揭示细胞类型特异性假尿苷修饰及翻译调控

（注：DRS为Direct RNA Sequencing的缩写，在学术语境中通常保留英文缩写或译为"直接RNA测序"；pseudouridylation是RNA修饰研究领域的专业术语，规范译名为"假尿苷修饰"） | McCormick, C. A. | PDF | | | 金黄色葡萄球菌抗生素敏感性的遗传图谱 | Li, W. | PDF | | | miRNA调控的RBFOX2表达控制发育中大脑从前体细胞向神经元转换的剪接过程

（说明：该翻译通过以下方式确保学术准确性： 1. 保留核心专业术语"miRNA"和"RBFOX2"的原始表述 2. 精准转换"splicing transition"为"剪接过程"，体现RNA剪接的生物学概念 3. 采用"前体细胞向神经元转换"准确对应发育生物学中的细胞命运转变过程 4. 保持"governs"的管控语义，译为"控制"符合分子调控语境 5. 通过语序调整使中文表达符合学术文献的叙述逻辑） | Weissbach, S. | PDF | | | 人类腹侧颞叶皮层中感知与想象物体的共享编码机制 | Wadia, V. S. | PDF | | | 斑马鱼幼体大脑皮层编码的价特异性化学感觉放大对眼-体协调的调控

该翻译严格遵循以下学术规范： 1. 保留核心专业术语的准确对应： - "Pallium"译为标准神经解剖学术语"大脑皮层" - "valence-specific"采用心理学经典译法"价特异性" - "chemosensory"统一译为"化学感觉" 2. 维持原文的学术逻辑结构： - 通过"编码的...对...的调控"准确传达"encoded...of..."的从属关系 - 使用"眼-体协调"准确对应"eye-body coordination"的生理学概念 3. 符合中文科技论文表达习惯： - 采用"斑马鱼幼体"的标准生物学命名 - 避免逐字直译，通过语序调整实现专业表达的流畅性 4. 完整传递实验系统（larval zebrafish）与研究层面（neural encoding, sensory amplification）的关键信息 | Sy, S. K. H. | PDF | | | Tau蛋白聚集受其投射域突变的影响 | Mason-Chalmers, K. | PDF | |

medRxiv

标题	作者	PDF链接	摘要
		PDF
		PDF
		PDF
		PDF