2025-09-22 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
逆向特洛伊木马在大型语言模型中的研究	Zhengxing Li	PDF	尽管针对应用于图像等领域的AI系统已开发出有效的后门检测与反转方案，但将这些方法"移植"到大型语言模型(LLM)仍面临挑战。首先，LLM的输入空间具有离散性，这排除了基于梯度搜索的可能性——而该技术正是许多后门反转方法的核心。其次，需要考虑约30,000^k个k元组（k为假定触发器的标记长度）。第三，对于LLM需要将那些与攻击假定目标响应（类别）存在强边际关联的标记列入黑名单，因为此类标记会产生误检信号。然而在某些领域可能不存在优质黑名单。我们提出一种包含三个关键组件的LLM触发器反转方法：i)从精选的单元组出发，通过贪婪累积方式进行离散搜索以确定假定触发器；ii)通过评估候选触发器与假定目标类别的少量干净样本在激活空间中的平均余弦相似度来实现隐式黑名单机制；iii)当候选触发器引发高错误分类率且决策置信度异常偏高时启动检测机制。与近期诸多研究不同，我们证明该方法能可靠检测并成功反转真实的后门触发短语。
RPG：一种支持统一可扩展代码库生成的存储库规划图	Jane Luo	PDF	Large language models excel at function- and file-level code generation, yet
generating complete rep [翻译失败]
MANZANO：一种配备混合视觉分词器的简易可扩展统一多模态模型	Yanghao Li	PDF	能够同时理解与生成视觉内容的统一多模态大语言模型（LLMs）具有巨大潜力。然而，现有开源模型往往面临这两种能力之间的性能权衡。我们提出Manzano——一个简洁可扩展的统一框架，通过将混合图像分词器与精心设计的训练方案相结合，显著缓解了这种矛盾。该框架采用单一共享视觉编码器，驱动两个轻量级适配器：一个生成用于图像到文本理解的连续嵌入向量，另一个在统一语义空间内生成用于文本到图像生成的离散标记。统一的自回归大语言模型以文本标记和图像标记的形式预测高级语义，辅助扩散解码器随后将图像标记转换为像素。这种架构结合理解与生成数据的统一训练方案，实现了双能力的可扩展联合学习。Manzano在统一模型中取得了最先进的成果，并与专用模型性能相当，尤其在文本密集型评估中表现突出。我们的研究表明任务冲突极小，且模型规模扩大带来持续增益，验证了混合分词器设计选择的有效性。
FocalCodec-Stream：基于因果蒸馏的低码率语音流式编码方法

（解析：标题翻译采用学术术语直译与意译结合的方式。"Streaming"译为"流式"体现实时传输特性；"Causal Distillation"专业术语译为"因果蒸馏"保持技术准确性；"Low-Bitrate Speech Coding"译为"低码率语音编码"符合通信领域术语规范。整体采用"方法译法"的学术标题处理方式，通过冒号分隔主副标题，符合中文论文标题规范。） | Luca Della Libera | PDF | 神经音频编解码器是现代生成式音频流水线的核心组件。尽管现有编解码器在低码率重建方面表现优异，并为下游任务提供强有力的表征支持，但多数方案不支持流式传输，限制了其在实时场景中的应用。本文提出FocalCodec-Stream——一种基于焦点调制机制的混合编解码器，可将语音压缩至0.55-0.80 kbps的单一二进制码本，理论延迟为80毫秒。该方法融合了WavLM的多阶段因果蒸馏技术与针对性架构优化，包括在延迟约束下提升音质的轻量化优化器模块。实验表明，在相近码率下FocalCodec-Stream优于现有流式编解码器，同时完整保留语义与声学信息。该方案实现了重建质量、下游任务性能、延迟与效率之间的最佳平衡。代码与模型检查点将在https://github.com/lucadellalib/focalcodec发布。 | | 潜在学习：情景记忆通过实现经验的灵活复用，补充了参数化学习 | Andrew Kyle Lampinen | PDF | 机器学习系统何时无法泛化，又存在哪些机制可以提升其泛化能力？本文从认知科学视角出发，指出机器学习系统的弱点之一在于缺乏潜在学习能力——即学习与当前任务无关但可能对未来任务有用的信息。我们通过这一视角串联起从语言建模中的逆转诅咒到智能体导航新发现等多种泛化失败现象，进而揭示认知科学所指出的情景记忆可能是解决这些问题的关键所在。相应地，我们通过实验证明：配备先知检索机制的系统能够更灵活地运用学习经验，在应对上述挑战时展现出更强的泛化能力。同时，我们明确了有效运用检索机制的核心要素，包括在示例内进行上下文学习对于掌握跨检索信息运用能力的重要性。总体而言，本研究不仅揭示了当前机器学习系统相较于自然智能存在数据效率差距的一个潜在成因，更有助于理解检索机制如何与参数化学习形成互补，从而提升泛化性能。 | | 文化视域：探究大型语言模型中文化理解的多维透镜 | Jinghao Zhang | PDF | 随着大型语言模型（LLMs）在多元文化环境中的部署日益广泛，评估其文化理解能力已成为确保应用可信度与文化适配性的关键。然而，现有评估基准大多缺乏全面性，且难以在不同文化语境中实现规模化适配，因其框架往往缺乏成熟文化理论的指导，并过度依赖专家驱动的人工标注。为解决这些问题，我们提出迄今最全面的文化理解评估框架CultureScope。受文化冰山理论启发，我们设计了一套包含3个层级、140个维度的文化知识分类维度体系，可指导针对任意语言与文化自动构建特定文化知识库及对应评估数据集。实验结果表明，我们的方法能有效评估文化理解能力，同时揭示出现有大型语言模型普遍缺乏全面文化胜任力，仅增加多语言数据未必能提升文化理解水平。所有代码与数据文件均已开源：https://github.com/HoganZinger/Culture | | MatchFixAgent：语言无关的自动化仓库级代码翻译验证与修复系统

（注：采用学术翻译中常见的"系统"作为补充说明，保持术语一致性："Language-Agnostic"译为"语言无关"，"Autonomous"译为"自动化"，"Repository-Level"译为"仓库级"，通过冒号分隔主副标题符合中文计算机领域命名规范） | Ali Reza Ibrahimzada | PDF | Code translation transforms source code from one programming language (PL) to another. Validating th [翻译失败] | | 量子生成对抗自编码器：学习量子数据生成的潜在表示 | Naipunnya Raj | PDF | 本研究提出量子生成对抗自编码器（QGAA）——一种用于生成量子数据的量子模型。该模型包含两个核心组件：（a）用于压缩量子态的量子自编码器（QAE），以及（b）用于学习已训练QAE潜在空间的量子生成对抗网络（QGAN）。这种架构使QAE具备生成能力。我们通过两个典型场景验证QGAA的实用性：（a）纯纠缠态的生成，（b）H$_2$和LiH参数化分子基态的生成。在最多6个量子比特的仿真中，经训练的QGAA对H$_2$和LiH的能量估算平均误差分别为0.02哈特里和0.06哈特里。这些结果展现了QGAA在量子态生成、量子化学及近期量子机器学习应用中的潜力。 | | 利用图强化学习加速原子精细结构测定 | M. Ding | PDF | 通过分析观测到的原子光谱所确定的原子数据对等离子体诊断至关重要。对于每个低电离度的开d/f壳层原子物种，通常需要经过多年分析约$10^4$条可观测谱线，才能确定约$10^3$个精细结构能级能量。我们将该分析过程建模为马尔可夫决策过程，并通过图强化学习技术，利用基于历史人工决策数据训练得到的奖励函数来实现该任务的自动化。在针对Co II和Nd II-III的现有谱线列表与理论计算的评估中，我们在数小时内计算出了数百个能级能量，其中Co II的计算结果与公布值吻合度达95%，Nd II-III的吻合度在54%-87%之间。当前原子精细结构测定效率难以满足天文学和聚变科学日益增长的原子数据需求，我们提出的人工智能新方法为弥补这一差距奠定了基础。 | | 通过谢弗图实现查询高效的局部隐私假设选择 | Gautam Kamath | PDF | 我们提出一种改进查询复杂度的算法，用于解决本地差分隐私约束下的假设选择问题。给定包含$k$个概率分布的集合$Q$，我们设计的算法满足本地差分隐私要求，通过执行$\tilde{O}(k^{3/2})$次非自适应查询（每个查询对象持有来自概率分布$p$的样本），最终从集合$Q$中输出一个与$p$最接近的概率分布。现有算法需要执行$\Omega(k^2)$次查询或多轮交互式查询。

在技术层面，我们引入名为"谢费图"的新型结构，该结构能捕捉$Q$中分布间差异的特征，这一创新可能为假设选择任务带来更广泛的研究价值。 |

bioRxiv

标题	作者	PDF链接	摘要
分组假设的错误发现率控制：在miRNA组数据中的应用	Laha, N.	PDF
PTF-Vac：一种可解释的生成式深度协同学习编码器-解码器系统，用于植物转录因子结合位点的从头发现

medRxiv

标题	作者	PDF链接	摘要
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF