2026-06-10 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	发布日期	PDF链接	摘要
何时对齐，何时预测：多模态学习的相图	Ilay Kamai	2026-06-09	PDF	跨模态对齐（CA）和跨模态预测（CP）是多模态表示学习的主流范式，但目前尚无系统性理解：何时各自成功、何时各自失败，以及跨模态训练究竟在何种情况下有效——这一认知空白导致从业者（尤其是在生物医学或天体物理学等科学领域）面对异构仪器、多层次组织与测量时，无法诊断为何标准方法的表现不及最优单模态。我们构建了一个统一的线性框架来解答这两个问题。在带有结构化跨模态干扰相关性的尖峰信号加噪声模型下，我们推导出两种目标的分离比，揭示了互补的失效模式：对齐会白化各模态，并在干扰跨视图强相关时失效；预测通过单向白化编码可跨模态预测的内容，其恢复效果受源模态质量支配。由此生成的相图将多模态问题划分为四个区域：两者皆可、仅CA、仅CP、两者皆不可。我们提出一种数据驱动方法，利用少量标注子样本将真实数据集定位至该相图，从而在跨模态训练前确定首选目标与预测方向。在合成数据、立体视觉基准、图像-文本对以及真实天体物理数据上的实验验证了非线性场景下的预测结果，包括跨模态训练会产生负面影响的“两者皆不可”区域。我们的框架使从业者能够在投入训练前诊断多模态问题并选择正确目标。可复现结果的代码见 https://github.com/IlayMalinyak/mm_align_vs_pred。
通过目标分布设计统一审视监督微调	Tong Xie	2026-06-09	PDF	监督微调（SFT）通常最大化示范轨迹中每个token的似然。然而，观测到的token可能具有非唯一性、噪声或与模型先验不一致。严格拟合这种独热目标可能并非最优，尤其当预训练模型编码了丰富的知识先验时。本研究将SFT重新诠释为目标分布设计：我们不仅研究损失函数，更分析损失驱动模型匹配的token级目标。我们提出Q-target框架，将SFT监督分解为两个显式选择：(1) 对观测token的依赖强度，(2) 如何将剩余概率质量分配给替代方案。该视角将许多现有SFT变体统一为目标分布Q的隐式选择。基于此观点，我们提出Target-SFT，直接从期望目标分布构建训练目标。该方法在十个推理数据集-模型组合中持续表现优异，验证了基于目标方法的有效性。总体而言，我们的公式揭示了SFT训练更基础的设计原则，并为SFT目标开辟了更广阔的搜索空间。
ARM：一种采用统一离散表示的自回归大型多模态模型	Junke Wang	2026-06-09	PDF	本文介绍ARM，一种基于离散表示的自回归模型，在下一词元预测框架内统一了图像理解、生成与编辑。ARM的构建基于三项工作：首先，我们训练了一个离散语义视觉词元化器，能将图像映射为紧凑的词元序列。该词元化器通过多目标监督学习，共同促进语义可辨别性、语言对齐与忠实重建，从而在共享潜在空间中支持多样化任务。在此基础上，我们在大规模文本与图像词元序列上训练了7B参数的自回归模型，无缝发展出视觉-语言感知与生成能力。最后，为进一步优化文本到图像生成与指令引导编辑中的偏好对齐行为，ARM应用强化学习优化任务级目标，如视觉质量、指令遵循度与编辑一致性。令人惊讶的是，结果显示强化学习不仅显著提升了目标任务的性能（例如WISE整体得分从0.50提升至0.56，GEdit-Bench-EN的G_O从5.75提升至6.68），还催生了文本到图像生成与编辑之间的跨任务协同效应。这些发现共同表明，当自回归建模与强表征及偏好优化相结合时，可作为多模态智能的可扩展基础。代码：https://github.com/wdrink/ARM。
下一强制：基于多块预测的因果世界建模	Gangwei Xu	2026-06-09	PDF	自回归视频生成已成为世界行动模型（WAMs）的强大范式。然而，现有方法存在训练收敛缓慢和收敛精度有限的问题，尤其是在高帧率场景下，因为训练监督局限于当前片段，缺乏关于未来动态的明确信号；同时，由于迭代视频去噪过程，推理速度也较慢。本文提出"Next Forcing"——一种用于因果世界建模的多片段预测（MCP）框架，能够实现更快的训练、更高的精度和加速的推理。受大语言模型中多令牌预测的启发，Next Forcing引入MCP训练目标，通过轻量级辅助MCP模块增强主模型，使其能同时去噪多个未来时间跨度（next¹、next²、next³片段）的视频片段。这些MCP模块在预测深度上形成因果链，利用主模型多层融合的中间特征来预测未来动态，使近期预测能够为远期预测提供信息，并向主模型提供密集的多尺度时间监督。训练阶段，MCP模块显著加速收敛并提升收敛精度，尤其在高帧率场景：在50fps下，Next Forcing在5k训练步数时相比LingBot-VA实现93.1%的相对提升，收敛速度提升2.3倍，并在RoboTwin基准测试中创下新纪录（Clean/Random场景分别达94.1%/93.5%）。推理阶段，MCP模块可保留用于与当前片段并行预测下一视频片段，实现2倍推理加速。Next Forcing在评估视频生成物理规律遵循度的PhyWorld基准测试中同样展现显著提升，并在通用视频预训练中实现超过50%的FVD降低。
AnyMod-LLVE：基于模态无关推理的低光照视频增强	Hangfeng Liang	2026-06-09	PDF	低光照视频增强（LLVE）在弱光条件下因信息严重退化而仍具挑战性。近期多模态方法通过引入辅助模态（如事件流和红外图像）显著提升了增强性能。然而，这些方法通常假设推理时这些模态可用，这在真实场景中往往难以实现。为解决此问题，本文提出AMNet——一种统一的多模态LLVE框架，支持灵活的模态无关推理，即辅助模态可能缺失。针对模态缺失问题，我们引入空间-频谱双门控转换器，学习辅助模态与RGB输入之间的对应关系，生成隐式辅助表征以支持鲁棒增强。此外，为充分促进跨模态对应学习，我们基于仅含RGB的数据集与合成辅助模态进行大规模多模态预训练。大量实验表明，AMNet可处理任意推理时的模态组合，并在模态缺失条件下展现出卓越的LLVE性能。代码与模型已发布于项目页面。
EEVEE：面向真实世界中自改进代理的测试时提示学习	Weixian Xu	2026-06-09	PDF	本文提出EEVEE，首个面向大语言模型智能体的多数据集测试时提示学习框架，支持在真实任务流中进行测试时提示学习。现有方法主要针对单数据集场景设计，而实际应用要求模型处理来自多个数据集、领域和任务分布的异构输入流，限制了其实用性。为缓解跨数据集干扰，EEVEE引入路由器将输入划分为任务簇并分配至合适的提示配置。该设计通过路由器-提示协同进化策略优化，采用交错的路由器与提示学习阶段解决两者相互依赖问题。跨多个数据集的实验表明，该框架在异构数据流下提升了鲁棒性，同时保持单基准学习能力与效率。具体而言，EEVEE在Qwen3-4B-Instruct和DeepSeek-V3.2上分别将多基准平均分提升10.38和24.32分，较SOTA方法GEPA和ACE最高提升37.2%和48.2%。
唇部强制：用于实时唇形同步的少步自回归扩散方法	Paul Hyunbin Cho	2026-06-09	PDF	基于扩散的唇形同步模型在视觉质量和音画对齐方面表现优异，但全序列双向注意力机制和大量去噪步骤使其难以实现实时推理。我们提出Lip Forcing——据我们所知首个用于视频到视频（V2V）唇形同步的自回归扩散方法——该方法将140亿参数的音频条件双向视频扩散教师模型蒸馏为因果学生模型。推理时，学生模型仅需两步去噪即可生成每个片段，无需推理时的无分类器引导（CFG），从而实现实时唇形同步。针对唇形同步的教师轨迹分析揭示了CFG保真度-同步性权衡：无CFG预测偏向参考保真度，而CFG引导预测则偏向中轨迹频段的同步性。Lip Forcing将这一发现转化为三个基于分析的组件：同步窗口DMD、两步推理调度和基于SyncNet的奖励函数。我们在两个学生模型规模上验证了Lip Forcing，两者均从140亿参数教师模型蒸馏而来。13亿参数学生模型以31 FPS实现实时流式处理，比同等规模的双向模型快17.6倍。140亿参数学生模型——目前报道中用于V2V唇形同步的最大扩散模型——在参考保真度相当的情况下，运行速度比教师模型快39.8倍。两种规模的首帧延迟均低于毫秒级，远低于所有扩散基线模型。
数据记者智能体：将数据转化为可验证的多模态故事	Kevin Qinghong Lin	2026-06-09	PDF	数据讲述着塑造社会的故事，数据记者的职责是将原始信息转化为非专业人士也能信赖的报道。一篇高质量的新闻特写需要编辑部团队花费数周时间：挖掘背景信息、进行统计分析、选取报道角度、设计可视化呈现。现有智能体虽能独立完成单个环节——数据科学智能体可完成分析闭环，设计智能体可合成精美网页——但能否让智能体端到端地扮演数据记者角色？我们提出数据记者智能体（Data2Story），这是一个多智能体框架，将专业化角色整合为虚拟编辑部。Data2Story有两项创新：（一）主张有据可查：审查员将每个数字、角度和素材与数据、代码或外部参考文献建立关联；（二）文章多模态生成：不同于默认的纯文本与静态图表，Data2Story会推理读者想看什么，进而部署多模态工具，如地理信息交互地图和音乐音频。我们沿四个维度对Data2Story进行评测：基于18篇与专家原版文章配对的报道，（a）人类与智能体角度覆盖度；（b）53名参与者从五个维度进行的评分评估；（c）以计算机使用智能体作为评审员——这是模拟读者浏览交互文章的低成本替代方案；（d）可验证性：通过代码验证器重新执行数据相关陈述，并核对参考文献中的主张。Data2Story能产出具有竞争力且可追溯证据的多媒体故事，在透明度和可审计性方面表现突出。人类文章在编辑角度、创意设计和呈现方式上仍具优势。我们将Data2Story定位为记者的协作工具，助力实现更重证据、更透明、更可验证的新闻报道。代码与演示详见 https://data2story.github.io。
反馈对齐在自蒸馏中的作用	Semih Kara	2026-06-09	PDF	将语言模型置于额外上下文（例如对先前尝试的反馈）中进行条件化，通常能提升其响应质量。自蒸馏技术旨在让模型在缺乏该上下文时仍能保持这种改进效果。该方法通过匹配模型在两种设置下的输出分布来实现：仅看到问题的学生模型，以及同时看到上下文的自我教师模型。因此，模型所学内容取决于自我教师接收的上下文类型，但上下文的设计方式至今仍鲜有探索。我们通过训练求解器接收冻结评判器的反馈来研究自蒸馏的上下文设计。比较了三种条件：（i）二元奖励（GRPO），（ii）参考答案，以及（iii）与求解器推理轨迹对齐的逐步批评。逐步对齐的批评带来了最大提升，在Avg@12指标上比GRPO高出16.11分，比参考答案条件化的自蒸馏高出5.27分。逐令牌优势分析揭示了原因：逐步对齐的反馈仅针对推理失败的令牌，保留正确行为不变。相比之下，参考答案条件化会迫使模型在每个令牌处改变行为（即使是正确步骤），因为替代推导在措辞和方法上必然存在差异。这表明反馈与求解器推理之间的结构对齐是自蒸馏效果的关键驱动因素。
在推理模型中预测未来行为能够实现更优的引导。	Evgenii Kortukov	2026-06-09	PDF	部署的大型推理模型（LRMs）常出现意外行为。测试时引导通过干预模型隐藏表征来控制LRM输出，但可能降低输出质量。我们认为，先前的引导研究隐含依赖于检测已生成文本行为的内部特征。我们证明这些检测特征对未来行为结果的预测能力较弱，因此并非自然的干预目标。相反，我们训练激活探针从中间推理步骤预测未来行为概率。这些探针能以64%-91%的准确率预测最可能的行为，揭示出另一类内部预测特征。基于这些预测特征，我们提出文本级引导方法——未来探针受控生成（FPCG）。FPCG通过采样多个候选句子，并根据预测未来行为概率的探针选择最优结果，实现几乎无输出质量下降的引导。在多项激活引导失效的评估中，FPCG仍能有效引导。这些结果表明，区分检测特征与预测特征能实现更精细的LRM行为控制方法。

bioRxiv

标题	作者	发布日期	PDF链接	摘要
通过空间微量蛋白质组学表征枯草芽孢杆菌生物被膜景观	Zemaitis, K. J.	2026-06-10	PDF	整体蛋白质组学已被证明能够基于细菌菌落内的分子表型区分亚群，而质谱成像（MSI）的先进分析技术在未来展现出更大潜力。该技术可实现高通量空间表型分析，通过高空间分辨率分析直接可视化多种生物分子机制的不同组分，并具备高质量分辨能力。本研究将MSI应用于枯草芽孢杆菌生物膜薄切片的完整蛋白质直接成像，在最小化样品制备后，检测到超过285个对应独特蛋白质形态的独特同位素包络线。我们将MSI分析与整体自上而下蛋白质组学（TDP）相结合，构建了广泛的实验文库，通过基于已验证翻译后修饰（PTMs）和截短形式的同位素匹配，为MSI注释提供了高置信度。MSI与TDP的联合应用使我们能够描述枯草芽孢杆菌生物膜内的微尺度空间蛋白质组景观。本研究进一步证实，通过识别参与同类相食的蛋白毒素以及参与活跃孢子形成的蛋白质形态，可检测到生物膜中心及最外围高度局限区域内的分化细胞亚群。
双皮质素结构域蛋白ZYG-8通过增强微管刚性，在秀丽隐杆线虫合子分裂过程中促进有丝分裂纺锤体定向。	Cueff, L.	2026-06-10	PDF	在秀丽隐杆线虫受精卵中，双皮质素家族唯一成员zyg-8DCLK1的突变会破坏有丝分裂纺锤体的定位，这一点可通过免疫荧光观察。双皮质素蛋白与微管结合，被认为能稳定或增强微管刚性。在受精卵中，ZYG-8对微管生长和成核的影响较小。因此，我们探究了这些中等程度的动态扰动是否足以解释zyg-8突变体中观察到的纺锤体定位异常。通过三种互补的遗传扰动——RNAi介导的ZYG-8敲低、过表达以及热敏型zyg-8(or484ts)突变体（破坏微管结合）——我们观察到纺锤体极振荡改变和微管皮层接触行为变化，表明皮层力受损。重要的是，这些表型无法完全用先前报道的微管动力学改变解释，提示存在额外机制。我们的发现表明ZYG-8增强微管刚性：ZYG-8缺失或突变导致微管弯曲更频繁、曲率和扭曲度更高。模拟实验证实，刚性降低会延长皮层接触寿命，这一效应在zyg-8(RNAi)胚胎中通过实验得到验证。通过定制生物物理检测，我们证明zyg-8(RNAi)胚胎和zyg-8突变体中微管软化降低了中心力效率，导致纺锤体极振荡加剧。在突变体中，最大振荡使纺锤体极更靠近细胞边缘，阻止重新居中，最终导致后期末期纺锤体定位错误和方向异常。重要的是，减少皮层拉力可挽救方向缺陷，凸显了平衡的推拉力对纺锤体正确定位的重要性。我们认为，足够的微管刚性对于产生有效的皮层推力至关重要，可能与其他微管特性协同作用，共同参与确保有丝分裂后期纺锤体精确定位的中心机制。鉴于DCLK1在人类癌症中常发生失调，而精确的纺锤体定位对维持细胞增殖-分化平衡至关重要，这些发现可能有助于理解微管力学破坏如何促进癌变。
分化中的精原细胞触发体细胞支持细胞形成生殖细胞存活所需的隔膜连接。	Berry, C. W.	2026-06-10	PDF	从昆虫到哺乳动物的雄性生殖细胞，其分化过程发生在一个由体细胞支持细胞形成的阶段性连接屏障所创造的微环境中。这种屏障将减数分裂及减数分裂后的生殖细胞与体液隔离开来。本研究发现，果蝇生殖细胞分化因子Bag-of-marbles（Bam）的作用对于与每个瞬时扩增精原细胞簇相关的体细胞包囊细胞形成连接屏障至关重要——该屏障可封闭包囊并隔离分化中的生殖细胞。在体细胞包囊细胞中敲除隔膜连接（SJ）组分或跨膜蛋白Side-V，会导致大多数瞬时扩增精原细胞在8细胞阶段被清除。而bam突变雄性果蝇的生殖细胞死亡现象消失，这表明仅在分化启动后，瞬时扩增祖细胞周围的完整屏障对确保生殖细胞存活才具有必要性。综合来看，这些结果提示：启动分化的精原细胞发出的信号会触发其伴侣体细胞包囊细胞形成紧密连接屏障。分化启动与包囊细胞封闭需求的时序紧密关联，可能解释了正常生理条件下20-30%早期生殖细胞在减数分裂前被清除的现象。
基因表达生物物理学的种间分化受进化系统漂移和爆发率强选择性约束的双重驱动。	Felce, C.	2026-06-10	PDF	跨物种比较细胞类型特异性基因表达水平，可揭示驱动物种分化的进化过程。这些比较表明，基因表达进化的主要模式是稳定选择——既作用于稳态（平均）蛋白质水平，也作用于mRNA水平，同时伴随定向选择导致的谱系特异性偏移。然而，由于此前研究均采用批量RNA测量方法，我们无法确定众多影响平均丰度的细胞过程中，哪些受到高度约束，哪些在进化中更具可塑性。评估这一问题的复杂性还在于：只要系统净输出（即平均表达）接近进化最优值，复杂系统的各组分就可能随时间独立于选择机制的变化而进化。这种被称为"进化系统漂移"（ESD）的过程，常被用作细胞表型变化的非适应性解释，但从未在任何选择性约束的统计检验中得到量化验证或考量。本研究提出新范式同时解决这两个未解难题。通过单细胞表达数据与生物物理模型，我们估算了多个脊椎动物物种的mRNA转录爆发速率、剪接速率和降解速率。继而推导出新的数学结果，描述这些生物物理参数在ESD下预期的协同进化模式，并检验是否需要额外的进化约束来解释参数分化。我们发现：生物物理参数确实如ESD预测般协同进化，且转录爆发过程存在额外强约束——这很可能是降低表达噪声的选择压力所致。更广泛而言，本研究为复杂细胞系统的进化动力学研究开辟了全新路径。
孟德尔随机化中个体化治疗效应的稳健推断	Wu, R.	2026-06-10	PDF	孟德尔随机化（MR）利用遗传变异作为工具变量（IVs），在存在未测量混杂因素的情况下被广泛用于推断因果关系，但大多数MR分析聚焦于平均处理效应且依赖强假设。在精准医学中，核心目标是个体化处理效应（ITE）；然而在MR中，基于核心IV假设无法点识别此类效应，且对ITE可识别边界的有效推断尤为困难。本研究提出一个稳健的部分识别推断框架，用于在允许多个IV的MR中估计ITE的可识别边界。在最小因果假设下，我们通过采用自适应bootstrap分布偏移与异质性方差调整的乘子bootstrap程序，推导出ITE边界的锐化推断方法。理论上，我们证明该方法能达到名义覆盖率和渐近锐化性。进一步，我们扩展该程序以容忍可能存在的无效IV，通过聚合多个可行IV子集并在保持覆盖率的前提下，基于最小比例规则假设实现。模拟研究表明，所提方法能达到名义覆盖率，且区间长度显著短于现有程序。我们利用阿尔茨海默病神经影像学倡议的数据，评估TREM2表达对阿尔茨海默病风险在教育定义亚组中的异质性因果效应，以此说明该框架的应用。
一种通过合作构建大规模高质量数据资源的协作提交模型	Hilton, J. A.	2026-06-10	PDF	整合跨研究数据集成的社区数据资源是现代生物医学研究的关键基础设施，能够支持大规模分析和人工智能（AI）模型的开发。然而，构建这些资源面临一个根本性矛盾：对大规模语料库的需求往往与对数据及元数据丰富性和高质量的要求相冲突。我们详细阐述了协作提交模式——即数据贡献者与专业资源管理者合作——如何使CZ CELLxGENE Discover成为快速成长、广泛使用的社区资源，用于训练和测试AI模型、开展整合分析、验证研究发现及生成假设。这种合作利用贡献者对研究的深入理解，结合管理者对数据重用的专注及标准化专长，提升了数据质量、元数据准确性和上下文丰富性。通过提供切实利益激励研究者参与，同时最小化提交负担，这一目标得以实现。我们将此协作模式与贡献者驱动和资源驱动的方法进行对比，突出其在可扩展性、质量保障和可持续性方面的权衡。本文所述的原则与实践为构建跨多样化生物数据类型的可持续、高质量社区数据资源提供了框架。
LongBench 平台对长读长 RNA 测序技术的基准测试：利用跨平台参考数据集通过批量与单细胞方法分析癌细胞系	You, Y.	2026-06-10	PDF	长读长RNA测序能够实现全长转录本分析并提高异构体分辨率，但不同平台和不断演进的化学方法需要仔细基准测试以确保可靠应用。我们提出LongBench，这是一个匹配的多平台参考数据集，涵盖八种人肺癌细胞系的批量、单细胞和单核转录组学，并包含合成加标对照。LongBench整合了三种最先进的长读长方案及Illumina短读长数据：牛津纳米孔技术（ONT）PCR-cDNA、ONT直接RNA和PacBio Kinnex。我们系统评估了转录本捕获、定量准确性、差异表达、异构体使用、变异检测和等位基因特异性分析。结果显示，各方案在基因水平差异分析中具有高度一致性，但由于长度和平台依赖性偏差，转录本水平和异构体分析的稳定性降低。单细胞长读长数据与批量数据在高置信度特征上高度一致，但单核数据特征检测能力下降。LongBench提供了目前最大的公开长读长基准测试资源之一，可实现严格的跨平台评估，并为转录组研究的技术选择提供指导。
ECMME：哺乳动物细胞外基质选择压力图谱揭示对比性进化动态	Petrov, P. B.	2026-06-10	PDF	细胞外基质（ECM）是后生动物的一项根本性创新，为多细胞生命提供必要的结构支撑和调控信号。尽管核心基质体组分受到强大的功能约束，但其分子层面的进化动态仍未被完全阐明。本研究利用来自多达228种胎盘哺乳动物物种的高质量直系同源序列，对272个人类核心基质体蛋白进行了全面的逐残基选择压力分析。我们开发了一套自动化流程，整合了直系同源鉴定、密码子感知比对以及基于HyPhy套件中MEME和FUBAR方法的位点特异性选择分析。结果显示基质体普遍存在强烈的纯化选择，与其结构和功能不可或缺性一致。同时伴随有间歇性正选择和更罕见的普遍性正选择，其中胶原蛋白相较于糖蛋白和蛋白聚糖表现出显著更高的间歇性正选择频率。为便于社区访问，我们开发了ECMME（ECM分子进化）浏览器，这是一个直观的开源网络资源，可将选择指标直接映射到蛋白质拓扑结构上。ECMME允许研究人员无缝浏览和探究数据，为解读功能位点提供了强大框架。该工具可在线访问，无需本地安装或配置（https://izzilab-ecmme.share.connect.posit.cloud/）。
SLiMNet：一种利用蛋白质大语言模型表示和配对输入检测短线性基序的深度学习模型	McFee, M. C.	2026-06-10	PDF	短线性基序（SLiMs）是位于内在无序区（IDRs）内的短片段（长度3-15个氨基酸），介导瞬时蛋白质-蛋白质相互作用以及稳定性和亚细胞定位等其他功能。在可能存在的数十万个SLiMs中，仅有数千个经过实验验证。通过局部比对可在IDRs内检测到保守的SLiMs，但现有方法的灵敏度和特异性有限，且无法对其匹配结果进行功能注释。因此，功能分配是SLiM生物学中一个尚未解决的主要问题。本文提出SLiMNet，一种受孪生网络和对比学习启发的深度学习模型，可预测成对SLiMs之间的功能相似性。SLiMNet利用蛋白质大语言模型嵌入，并在已注释的SLiMs数据集上训练。我们证明它能检测到未见过的非冗余基序对中的共享功能，其评分与细胞周期蛋白结合基序深度突变扫描实验获得的结合强度相关。利用SLiMNet，我们提供了源自已注释IDR区域的假定SLiM对数据库，以帮助生成SLiM功能注释的假说。这包括基于DisProt数据库平铺IDR序列中所有16聚体两两比对生成的图谱。我们证明该图谱捕获了最近加入MoMaP数据库的新型核定位基序，以及文献中报道的PRMT1甲基化基序。我们还提供了所有IDR序列与MoMaP实例进行SLiMNet评分的数据库，以及256个已知孤儿基序（仅有一个已知实例且具有关键功能的基序）的潜在功能对图谱。这些图谱共同为SLiM生物学界提供了重要资源。
单细胞基因组学计数数据的深度归一化	Booeshaghi, A. S.	2026-06-10	PDF	单细胞基因组学分析需要对特征计数进行归一化，以稳定方差、解释细胞测序深度的可变性，并保持细胞内特征丰度的单调性。我们证明，通过（原始计数中的加法）比例拟合步骤，随后取对数，再进行另一次（原始计数中的乘法）比例拟合步骤（PFlogPF）的归一化，是唯一满足这三个要求的特征重标号等变方法。我们在数百个单细胞RNA-seq数据集的众多基准测试中，展示了该方法（等价于移位中心对数比变换）相比其他归一化方法的优越性能。

medRxiv

标题	作者	发布日期	PDF链接	摘要
每日症状监测可持续数月：留存率而非依从性是长期数字追踪的主要障碍。	Gunsilius, C. Z.	2026-06-10	PDF	生态瞬时评估（EMA）通过智能手机实现对症状和行为的实时纵向测量，但现有可行性证据几乎全部来自持续一至两周的研究方案，远短于慢性疾病波动和临床决策所需的时间尺度。每日依从性能否维持数月，或是否会如短期方案预测般衰减，目前尚不明确。本研究纳入214名参与者（173名疼痛患者，41名健康对照），通过Soma智能手机应用完成为期4个月（122天）的EMA方案，共生成26,907次签到记录。半数样本完成了完整方案且无两周间断。总体依从性看似中等（50%），但这混淆了两种不同现象：当按每位参与者的活跃期重新计算时，依从性升至71%，其中91%达到中高依从性，并在全部17个研究周内保持稳定。疼痛状态可预测更早退出，但未降低持续参与者的依从性；经差异留存率校正后，组间差异消失。据我们所知，这是临床人群中持续时间最长的连续每日EMA评估。研究表明，长期EMA的主要障碍并非活跃参与者的动机衰减，而是早期集中退出，这对数字健康方案设计、分散化临床试验及远程症状监测具有直接启示意义。
使用Insides系统进行食糜回输以减少2型肠衰竭患者对肠外营养依赖：多中心随机对照试验（REINFUSE）	Milne, T.	2026-06-10	PDF	背景因双造口或肠皮瘘导致2型肠衰竭的患者需依赖肠外营养，存在导管败血症、静脉血栓及肝病风险。食糜回输疗法可能减少肠外营养依赖，但尚未经随机对照试验验证。本研究评估了使用Insides系统的装置辅助食糜回输能否降低肠外营养需求。方法这项多中心、开放标签随机对照试验纳入英国和美国12个中心因双造口或肠皮瘘导致2型肠衰竭的肠外营养依赖成人患者。排除标准包括远端肠段长度不足、近端肠梗阻、活动性败血症或严重肝肾衰竭。参与者按2:1区组随机分配至装置辅助食糜回输联合标准治疗组或标准治疗对照组。主要终点为30天时肠外营养热量摄入减少≥50%，采用意向性治疗分析，组间比较使用双尾p值0.025以允许单次中期分析。次要结局包括30天和60天肠外营养停用率、生活质量及不良事件。结果研究纳入39名参与者（26名治疗组，13名对照组）。第30天时，治疗组8/26（31%）达到主要终点，对照组为0（p=0.035）。第60天时，治疗组10/23（43%）完全停用肠外营养，对照组为0（p=0.008），第30天中位肠道损失减少1,344毫升/天（p=0.005），第60天减少1,450毫升/天（组间p=0.026）。装置相关不良事件主要为轻度，发生一例与装置无关的死亡。结论 Insides系统食糜回输对双造口或肠皮瘘所致2型肠衰竭患者显示出显著治疗优势：31%参与者30天时肠外营养热量减少50%，超过40%参与者60天时完全停用肠外营养，且安全性可接受。试验注册 ClinicalTrials.gov NCT04577456 资助本研究由The Insides Company Ltd.赞助。手术相关性已知信息：因双造口或肠皮瘘导致2型肠衰竭的患者依赖肠外营养，存在中心静脉导管败血症、静脉血栓及肠衰竭相关肝病等重大风险。食糜回输疗法可恢复远端肠道功能，但仅在非随机队列研究中评估过。新发现：这项首项装置辅助食糜回输的随机对照试验显示，43%参与者可在60天内完全停用肠外营养，肠道损失减少70%，参与者满意度高且风险可接受。对未来实践的潜在影响：对合适的双造口或肠皮瘘患者早期启动装置辅助食糜回输，可减少肠外营养依赖，避免相关并发症和费用，并在重建手术前促进康复。
失败的囊切术后，DBS成功治疗OCD的神经基础	Ryan, M. A.	2026-06-10	PDF	背景：强迫症（OCD）以引发焦虑的侵入性思维（强迫观念）和缓解焦虑的思维或行为（强迫行为）为特征。对于难治性强迫症（tr-OCD）患者，神经调控技术如囊切开术（内囊前肢毁损术）和脑深部电刺激（DBS）已成为可能调节前额叶皮层（PFC）与皮层下靶点之间连接性的干预手段。三名患者（Cap-DBS1-3）在囊切开术失败后接受了成功的DBS治疗。本研究旨在理解失败囊切开术破坏的脑连接与成功DBS调节的脑连接之间的差异。方法：我们使用弥散加权磁共振成像（dMRI）纤维追踪技术，对一组tr-OCD对照组（n=12）及两名Cap-DBS患者自身进行检测，以确定囊切开术、组织激活体积（VTA）及潜在必要神经束（VTA减去囊切开术神经束）的连接特征。采用全脑、PFC聚焦及皮层下聚焦的纤维追踪算法，全面探索可能的连接空间。结果：囊切开术感兴趣区（ROIs）与多种PFC及皮层下区域存在连接。VTA-ROIs及潜在必要神经束的PFC连接有限且不一致，但皮层下连接显著。尽管Cap-DBS连接组与平均OCD连接组相关（r=0.214，95% CI [0.177, 0.251]；r=0.756，95% CI [0.739, 0.772]），但其许多连接强度更高（z-score > 3）。结论：失败囊切开术后成功DBS治疗所需潜在必要神经束的连接特征揭示了出乎意料的皮层下区域高比例及不一致的PFC参与，凸显了可能对有效DBS至关重要的常被忽视的连接组。
阿尔茨海默病神经影像学特征有助于识别早发性癫痫老年人的认知障碍。	Williams, M.	2026-06-10	PDF	背景与目标：老年癫痫患者罹患阿尔茨海默病（AD）的风险升高，但两者关联的机制尚不明确。本研究将已验证的AD神经影像学特征应用于老年癫痫患者，旨在探讨：1）老年癫痫患者是否呈现类似AD的脑部改变；2）这些改变与临床、认知及血浆生物标志物的关联；3）该特征在识别认知衰退高风险亚组中的价值。通过多中心前瞻性队列研究，我们直接比较了早发型与晚发型不明原因癫痫患者的AD特征差异。方法：纳入449名老年人，包括：87例来自多中心“癫痫脑老化与认知”（BrACE）队列的局灶性癫痫患者（年龄66.10±6.86岁，含早发型[癫痫发作年龄<55岁]与晚发型[≥55岁]）；362例来自阿尔茨海默病神经影像学倡议（ADNI）的认知正常健康对照、轻度认知障碍（MCI）或AD痴呆患者。基于既往研究中区域皮质厚度和海马体积对AD相关神经退行性变的敏感度加权，构建AD特征评分。在BrACE队列中评估该特征与癫痫特征、血浆生物标志物（β-淀粉样蛋白42/40、磷酸化tau蛋白[pTau217、pTau181]、神经丝轻链[NfL]）及认知功能的相关性。结果：与ADNI认知正常对照组相比，癫痫患者呈现更显著的AD样特征（β=-0.43，p<0.001），表现为AD易损区域皮质厚度/体积减少。该效应在早发型（β=-0.57）中强于晚发型（β=-0.26）。在BrACE队列中，AD特征与NfL（β=-0.30，p=0.050）、记忆表现（β=0.30，p=0.006）相关，且仅能预测早发型癫痫患者的认知障碍风险（交互作用p=0.043）。此外，在早发型癫痫患者中，AD特征对认知障碍的识别能力显著优于血浆AD生物标志物（p=0.041）。以癫痫病程替代发病年龄分析时结果一致。讨论：AD神经影像学特征有助于识别老年癫痫患者中具有临床意义的亚组，尤其当与AD生物标志物联合应用时。研究结果支持采用多模态框架评估癫痫患者的AD相关风险，并揭示了癫痫慢性病程与AD病理过程对认知结局的交互影响。
基于客观无细胞RNA的子痫前期风险检测后低剂量阿司匹林依从性：一项真实世界调查研究	Moe, A. B.	2026-06-10	PDF	引言：子痫前期（PE）是导致孕产妇及新生儿发病率和死亡率的主要原因，低剂量阿司匹林（LDA）预防是循证预防的基石。尽管有指南推荐，LDA依从性仍然较差，仅10-25%的中危患者服用阿司匹林。在其他疾病背景下，利用生物标志物进行客观的个性化风险分层已被证明能激励行为改变。调查数据显示，若通过客观预测检测告知风险，患者服用阿司匹林的积极性更高。本文报告了接受细胞游离RNA（cfRNA）PE风险预测检测并获高风险结果患者的真实世界LDA依从性。方法：本回顾性观察性调查研究纳入高龄产妇（AMA；分娩时年龄≥35岁）、单胎妊娠、无USPSTF定义的PE高危因素且接受cfRNA PE风险预测检测的无症状患者。选择接收短信调查的患者需在收到检测结果后报告LDA使用情况。高依从性定义为每周至少6天服用LDA且调查期间≥85%时间达标。主要分析纳入获高风险检测结果且收到结果后至少完成一次LDA频率调查的患者。采用精确二项检验将观察到的依从患者比例与25%的基线估计值进行比较。结果：166例接受cfRNA PE风险预测检测的患者中，48例（28.9%）获高风险结果。其中29例（60%）选择参与并至少完成一次调查，构成主要分析人群。29例中27例（93.1%；95% CI：78.0-98.1%）被归类为高依从性，显著高于中危患者25%的基线依从性估计值（p < 0.0001）。结论：在接受调查的cfRNA PE高风险检测结果患者中，LDA高依从性比例（93%）显著超过类似患者群体的已发表依从性估计值，并达到与降低早产型子痫前期风险相关的临床有意义阈值（≥80%）。这些发现表明，客观且个性化的生物标志物风险检测可能是当前指南未能实现的行为改变的有力驱动因素。
整合T细胞受体库与肿瘤免疫原性分析揭示子宫内膜癌中不同的免疫基因组状态	Aversa, I.	2026-06-10	PDF	背景子宫内膜癌表现出显著的分子和免疫异质性，而现有基因组生物标志物仅能部分解释这一特征。本研究旨在探究T细胞受体（TCR）库结构是否能在传统分子分型之外，捕获抗肿瘤免疫的补充维度。方法对8例分子特征明确的子宫内膜癌患者的配对肿瘤和外周血样本进行TCR库分析。将多样性、克隆性及肿瘤-血液重叠指标与基因组变量（包括肿瘤突变负荷TMB、基因组不稳定性指标GIM和POLE状态）进行整合分析。采用主成分分析和相关性分析识别TCR库组织的主要维度，并构建复合免疫聚焦评分和免疫共享评分以概括主要库模式。结果前两个主成分解释了TCR库总变异的70.1%，并揭示了独立于组织学亚型的显著异质性。TMB与库多样性降低及克隆优势增强密切相关，导致其与免疫聚焦评分呈强关联（ρ=0.88，p=0.004）。POLE突变型肿瘤处于该聚焦连续谱的极端位置。相反，基因组不稳定性与肿瘤-血液库重叠增加及多样性保持相关，表现为GIM与免疫共享评分呈强相关性（ρ=0.76，p=0.027）。两种免疫评分之间相关性极弱（ρ=-0.24，p=0.57），表明它们捕获了免疫组织中基本独立的维度。结论 TCR库结构与肿瘤基因组学的整合分析揭示了子宫内膜癌中传统分子分型无法完全捕获的独特免疫基因组状态。若在更大队列中得到验证，免疫聚焦和免疫共享指标可为患者分层及免疫治疗导向的精准肿瘤学提供补充性生物标志物。
非洲地区pfkelch13突变流行率及青蒿素部分耐药的临床指标：一项观察性队列的系统综述与荟萃分析	Munyangi wa Nkola, J.	2026-06-10	PDF	背景：以青蒿素为基础的联合疗法仍是疟疾控制策略的主要手段；然而，与恶性疟原虫部分青蒿素耐药性相关的遗传标记的出现，已在非洲地区引发广泛关注。为评估这些分子标记的流行率、地理分布及临床关联，我们对观察性队列研究进行了系统综述和荟萃分析。方法：我们遵循PRISMA 2020指南，检索了2015年1月至2025年6月间发表的队列研究。查询数据库包括PubMed/MEDLINE、Scopus、Web of Science和CINAHL。纳入标准要求前瞻性患者入组、纵向监测（治疗有效性研究）以及pfkelch13螺旋桨结构域基因分型。结果：对来自六个核心前瞻性队列的888个分离株进行荟萃分析合成后，发现经验证的pfkelch13突变汇总流行率为6%（95% CI: 2.1%-11.8%）。研究揭示了显著的地理二分法：西非和中非队列保持0%的流行率，而东非热点地区则出现显著扩张，卢旺达流行率达12.8%，乌干达北部高达25.5%；高统计异质性反映了这种生物学差异。结论：这些发现凸显了东非地区青蒿素部分耐药性已确立且持续扩大的现状。标准化监测对于调整整个非洲大陆的疟疾控制政策至关重要。关键词：非洲；青蒿素耐药性；临床指标；pfkelch13基因；分子标记；部分耐药性；恶性疟原虫。
老年人全膝关节置换术后功能与疼痛恢复预测的免疫生物标志物特征	Kraus, V. B.	2026-06-10	PDF	老年患者术后恢复能力差异显著，但驱动恢复的生物学机制尚不明确。本研究评估了术前免疫特征（通过血浆检测及离体全血刺激实验）是否可预测全膝关节置换术急性应激后的恢复能力。PRIME KNEE队列中152名60岁及以上接受择期全膝关节置换术的受试者，其血液样本用于检测45种免疫生物标志物（包括血浆定量及经脂多糖或流感抗原离体刺激24小时的全血样本）。通过预期恢复差异和恢复轨迹评估疼痛程度、疼痛干扰、下肢日常体力活动及步数等维度的恢复能力。采用LASSO探索性稳定性选择框架识别术后结局的预测性生物标志物。血浆与刺激后生物标志物预测效能总体相似。LBP、瘦素、TNFR1、CD30及LIF等共享生物标志物在模型中持续被筛选。免疫预测因子可解释恢复结局约12-24%的变异。疼痛恢复与功能恢复呈现不同免疫特征：疼痛相关预测因子定位于局部炎症及神经免疫通路，而功能相关预测因子反映全身炎症负荷及细胞因子信号传导。术前免疫生物标志物（无论血浆检测或离体刺激）均可捕捉术后恢复能力的显著变异。疼痛与功能恢复相关免疫特征的差异揭示了不同恢复维度背后的生物学通路差异，为开发基于免疫的围手术期风险评估提供了依据。
基于全国分诊数据生成人口关联病例场景的数据驱动框架	Seidel, A.	2026-06-10	PDF	背景：分诊系统和症状自查工具等数字决策支持工具每年支撑着数百万健康相关决策。其质量和安全性通常通过文本化患者案例（即案例小插曲）进行评估。然而，现有由医学专家编写的小插曲集仅覆盖真实患者表现的有限范围，且缺乏人群权重，无法将评估结果外推至潜在患者群体。目的：本研究旨在开发一种数据驱动框架，从全国分诊数据中自动生成一组可人工管理的小插曲，既能捕捉广泛的临床表现多样性，又能为每个小插曲分配反映底层患者评估数量的量化权重。方法：从德国医疗电话分诊服务（电话分诊和在线自诊）以及门诊急救服务与医院急诊科联合接触点使用结构化分诊软件一年内进行的320万次分诊评估中，我们随机抽取了5万例案例。使用德国句子变换器模型将分诊问卷转换为语义嵌入，并通过凝聚聚类进行分组。对于包含足够评估数量的聚类，采用两阶段模拟退火优化生成一个代表性评估。优化过程最小化与聚类质心的距离，同时最大化已回答的分诊问题数量，旨在实现高代表性和信息含量。每个代表性评估被分配其源聚类的规模作为基于样本的权重。通过基于相似性的敏感性分析检验这些权重是否在完整的一年人群中得以保留。最后，使用大型语言模型的受控提示将代表性评估的问答对转换为结构化文本案例小插曲。结果：聚类分析产生了514个包含的聚类，覆盖了抽样5万次评估的96.8%。生成的代表性评估与其源聚类的多数治疗紧迫性建议高度一致（斯皮尔曼ρ=0.78，p<0.001），且平均比其聚类内的原始评估多出4.3个已回答的分诊问题。按聚类规模加权后，代表性评估近似了样本的治疗紧迫性、人口统计学和症状分布，但仍存在一些系统性偏差，最显著的是女性案例（+13.5%）、14-49岁患者（+8.0%）和“尽快”紧迫性类别（+6.6%）的过度代表。在记录的121种症状中，101种（83.5%）被代表性评估覆盖；其余每种在样本中发生率均低于0.5%。敏感性分析中，基于聚类的小插曲权重与基于相似性的人群权重强相关（斯皮尔曼ρ=0.77，p<0.001），且完整一年人群中90.1%的评估至少匹配到一个小插曲。结论：我们提出了一种数据驱动框架，用于从全国分诊数据中推导出一组可管理的人群加权案例小插曲。生成的小插曲捕捉了广泛的临床表现多样性，近似了关键样本特征，并提供了与底层患者评估数量的明确量化关联。经医学专家审查和优化后，这些小插曲可支持数字决策支持工具更具人群意识的评估和质量保证。
使用时间序列挖掘关联索赔和死亡率数据识别与自杀死亡相关的临床诊断轨迹	Belouali, A.	2026-06-10	PDF	背景：多数自杀风险评估方法将临床状况视为独立风险因素，可能忽略了疾病累积顺序中蕴含的预后信息。本研究通过关联索赔数据与死亡记录，运用时间序列挖掘技术识别与自杀死亡相关的有序临床诊断轨迹。结果：研究纳入2016年1月1日至2020年12月31日期间马里兰州自杀数据仓库中拥有索赔记录的3,647,059名10岁及以上参保居民，通过法医关联确认768例自杀死亡。将ICD-10-CM诊断编码归入临床分类软件细化类别后，通过序列模式挖掘识别出89,221条候选序列，其中1,816条在时变Cox模型中与自杀死亡显著相关，调整后风险比（AHR）范围为2.4至134.1。三分之二的显著轨迹以躯体疾病为终点，约半数轨迹从精神疾病跨越至躯体疾病终点。在自杀死亡者中，62%暴露于至少一条显著序列（中位每例16条），序列中位持续时间为18.7个月，从序列完成至死亡的中位时间为13.1个月。里程碑分析显示：在后续出现自杀意念的抑郁症患者（n=26,356）中，经焦虑症再至贫血的路径与更高风险相关（AHR=4.6；95%CI 2.2-9.5），而仅经焦虑症的路径则无显著关联（AHR=1.3；95%CI 0.8-2.1）。在后续出现高血压的焦虑症患者（n=149,215）中，经自伤史的路径与更高风险相关（AHR=32.0；95%CI 16.6-61.6）。不同性别与年龄组的关联性基本一致。结论：临床状况的时间顺序可能携带自杀死亡的预后信息。在精神疾病序列中纳入躯体疾病的临床轨迹可识别更高风险群体。这些发现表明风险检测机会可能超越精神科诊疗范畴，自杀风险信号可能分散于不同医疗场景，在孤立就诊中难以显现。