跳转至

bioRxiv 2026-05-07

标题 作者 发布日期 PDF链接 摘要
进化施加了一种归纳偏置,从而改变并加速了学习动态。 Midler, B. 2026-05-07 PDF 生物大脑与人工神经网络的学习动态对神经科学和机器学习均具有研究价值。两者间的关键差异在于:人工神经网络通常从随机初始化状态开始训练,而每个大脑都是世代进化优化的产物,其先天结构赋予了小样本学习能力和内置反射机制。相比之下,人工神经网络需要非生态学规模的训练数据才能达到同等性能。为探究进化优化对神经网络学习动态的影响,我们结合模拟自然选择与在线学习的算法,开发出进化条件化人工神经网络方法,并将其应用于强化学习与监督学习场景。研究发现,进化条件化算法本身的表现与未优化基线相当。然而,经过进化条件化的网络展现出独特且潜在的学习动态,可通过快速微调达到最优性能。这些结果表明,进化构成了引导神经系统实现快速学习的归纳偏置。
造血干细胞移植受体与健康食蟹猴尿液DNA病毒组特征分析 Vogel, H. 2026-05-07 PDF BK多瘤病毒(BKPyV)及慢性潜伏性DNA病毒感染在造血干细胞移植(HSCT)后常发生再激活,导致人类出现重大并发症,且缺乏有效的预防或治疗手段。毛里求斯食蟹猴(MCM;Macaca fascicularis)因其主要组织相容性复合体(MHC)多样性有限,成为移植研究的重要动物模型。MCM与人类在移植后均会出现类似的病毒再激活及疾病并发症,包括多瘤病毒相关性出血性膀胱炎和肾病。为明确与这些结局相关的多瘤病毒种类并解析更广泛的尿液DNA病毒组特征,我们对HSCT受体及健康食蟹猴的尿液DNA进行了滚环扩增测序,从而对检测到的多瘤病毒进行全面的基因组学表征。通过从头组装和注释,鉴定出三种对食蟹猴具有明显宿主特异性的多瘤病毒:与人类多瘤病毒亲缘关系密切的食蟹猴多瘤病毒2型(MafaPyV2)和食蟹猴多瘤病毒3型(MafaPyV3),以及新发现的猿猴病毒40株系(SV40 IIB型)。这三种病毒在HSCT受体和健康动物中均有检出,但在HSCT受体中的相对载量显著更高。单个宿主常同时感染多种多瘤病毒,且所有三种病毒均在发生泌尿系统疾病的HSCT受体中被鉴定。综上,这些发现进一步揭示了造血干细胞移植后毛里求斯食蟹猴体内多瘤病毒的多样性、排出规律及疾病关联性。
基于深度学习的梅毒螺旋体蛋白质组结构建模:对发病机制与梅毒疫苗开发的启示 Houston, S. 2026-05-07 PDF 梅毒螺旋体苍白亚种(Treponema pallidum ssp. pallidum)是梅毒的病原体,其蛋白质组规模较小且包含众多菌株。目前对该菌致病分子机制及其全部编码蛋白的结构与功能仍存在认知空白。本研究采用基于人工智能的结构-功能建模流程,系统解析了梅毒螺旋体编码的蛋白质组。通过生成976个梅毒螺旋体蛋白的高置信度结构模型(覆盖99%蛋白质组),并利用蛋白质结构比对服务器DALI进行分析,实现了877个梅毒螺旋体蛋白的高置信度结构功能注释,其中包括该病原体编码的323个未知功能蛋白中的240个。此外,研究鉴定出63个假定致病相关蛋白(PPRPs)和7个与革兰氏阴性菌外膜蛋白(OMPs)具有未表征相似性的螺旋体蛋白。通过B细胞表位(BCE)预测流程,在已知和预测的梅毒螺旋体OMPs中识别出1133个表面暴露的宿主面向潜在表位,其中92个基于生物信息学分析、生物物理特性、氨基酸序列保守性及既往蛋白表达数据被优先筛选。本研究通过基于结构建模的功能注释(包括未知功能蛋白的表征)揭示了梅毒螺旋体的致病机制,同时通过鉴定新型潜在梅毒螺旋体OMPs及全球流行菌株中氨基酸序列保守的宿主面向区域,为梅毒疫苗设计提供了依据。
丙型肝炎病毒非结构蛋白5A中的一个新型二聚化位点调控病毒复制适应性 Rothhaar, P. 2026-05-07 PDF 我们此前发现,丙型肝炎病毒(HCV)的高基因组复制适应性(replication fitness)与免疫功能低下患者的严重疾病相关。复制适应性的增强是由非结构蛋白(NS)5A的D2结构域中复制增强域(ReED)内突变的积累所介导。NS5A是一种部分无序的磷蛋白,缺乏酶活性,但通过与多种细胞和病毒蛋白相互作用,在HCV复制中发挥关键作用。它可呈现多种由NS5A D1介导的二聚体和寡聚体构象,而临床批准的NS5A抑制剂被认为通过将这些二聚体固定在不同构象中发挥抗病毒功能。本研究旨在阐明ReED的作用机制。AlphaFold建模提示ReED中存在一个此前未被识别的NS5A二聚化位点。事实上,分裂型纳米荧光素酶实验显示,高复制子ReED变体的NS5A二聚化显著增强,表明高复制适应性是通过强化NS5A自身相互作用介导的。低剂量(1 pM)NS5A抑制剂处理可增加复制适应性并模拟ReED突变效应,这一结果支持上述假说。此外,我们发现以极高效率复制的HCV分离株JFH1完全抵抗ReED的调控功能。由ReED抵抗型JFH1与ReED敏感型分离株J6组成的嵌合复制子,鉴定出NS3解旋酶和NS5B聚合酶是介导ReED敏感性/抵抗性的关键遗传元件。总体数据表明,NS5A是HCV复制适应性的负调控因子,其二聚化作用可解除与解旋酶和/或聚合酶的抑制性相互作用,从而可能促进RNA合成的起始。
多复制子质粒在可预测的规则下出现,并推动抗菌药物耐药性在细菌宿主间的传播。 de Quinto, I. 2026-05-07 PDF 质粒是独立于细菌染色体复制的DNA分子,通常与抗菌素耐药性(AMR)和毒力决定因子等关键性状的传播相关。质粒间的融合事件会产生携带两个或多个复制系统的更大、更复杂的骨架结构,称为多复制子质粒。尽管经过数十年的研究,我们仍远未理解多复制子质粒如何产生、持续存在并塑造AMR的进化。本研究分析了跨越多个细菌属的24,000个非冗余质粒,发现其中超过30%编码了多个复制子。与单复制子质粒相比,多复制子质粒体积更大,富含编码抗菌素、金属和杀菌剂抗性以及毒力因子的基因,并表现出更高的移动性和更广的宿主范围。我们还发现多复制子组装并非随机发生。某些复制子对会反复融合形成稳定的多复制子质粒,而其他复制子对即使常在细胞内共存也极少融合。研究显示复制子对倾向于定位在质粒的相邻区域或两极。我们进一步指出多复制子质粒可大致分为两类:长期共进化的复制子对和缺乏共同进化史的瞬时组合。最终,我们揭示了多复制子形成的分子机制,并强调了插入序列在其形成和维持中的作用。本研究系统阐明了多复制子质粒的丰度、基因组成、进化模式及形成动态,并指出其对细菌进化和人类健康的重要意义。
IscR介导的形态调控通过减少鲍曼不动杆菌中应激分子的摄取来赋予其毒力和抗逆性。 Yeom, J. 2026-05-07 PDF 为了生存和增殖,生物体必须充分应对压力。细菌病原体在感染过程中面临多种压力源,包括来自宿主先天免疫细胞的氧化应激和临床治疗中的抗生素处理。病原菌鲍曼不动杆菌因其广泛的抗生素耐药性,被视为对公共卫生最严重的威胁。然而,关于鲍曼不动杆菌在感染过程中如何正确应对抗生素和压力分子,目前知之甚少。本研究探讨了鲍曼不动杆菌在氧化应激和抗生素暴露下,如何通过调控形态来减少压力分子的摄取,从而在感染中增强毒力和生存能力。转录调控因子IscR通过上调编码肽聚糖合成酶的pbp1a基因来响应氧化应激。在氧化应激下,细菌形态从杆状转变为球状,表面积减小,从而降低对活性氧的吸收。iscR或pbp1a的失活会导致细菌形态拉长、表面积增大,进而降低鲍曼不动杆菌在氧化应激下的存活率。此外,IscR介导的形态调控对抗生素处理下的生存至关重要。在巨噬细胞和小鼠模型中,IscR介导的形态调控也是鲍曼不动杆菌生存所必需的。这些发现阐明了鲍曼不动杆菌通过IscR调控形态适应压力的策略,从而在感染中同时应对免疫反应和抗生素治疗以促进生存。
优化表型尺度可改善大规模生物库中的遗传分析。 Huang, Z. 2026-05-07 PDF 大规模生物库使得对数千种表型进行日益复杂的遗传分析成为可能。然而,研究很少考虑适当的表型测量尺度,这一问题可能严重影响对遗传结构的推断。在此,我们提出SIQReg,一种针对这一经典问题的实用解决方案,通过最小化表型分位数间的异质性来学习数据驱动的表型尺度。应用于英国生物库的复杂性状时,SIQReg拒绝了24/25个性状的默认尺度。总体而言,SIQReg的尺度介于默认尺度与对数尺度之间,表明默认尺度下的性状既非纯粹可加性也非纯粹可乘性。我们证明SIQReg能同时改进非加性和加性遗传分析。SIQReg消除了大部分非加性遗传信号(如97%的vQTL和76%的分位数依赖性TWAS基因),表明它们可能是统计伪像,同时保留了生物学上合理的非加性信号。与此同时,SIQReg提高了检测加性信号的能力,使GWAS位点、TWAS基因和PGS预测准确率分别提升11%、13%和10%,并识别出多50%的高风险个体。这些增益在不同祖先群体中均得到验证。我们的结果确立了SIQReg作为表型尺度变换的原则性方法,可改进复杂性状的遗传分析。
一项细胞类型分辨的荟萃分析揭示了与衰老和阿尔茨海默病相关的胶质细胞DNA甲基化变化 Bhaskar, U. 2026-05-07 PDF 全表观基因组关联研究提示DNA甲基化在阿尔茨海默病(AD)的发生发展中起重要作用。尽管近期研究表明非神经元细胞类型的表观遗传学机制与疾病风险相关,但单个胶质细胞类型(如星形胶质细胞、少突胶质细胞)的甲基化组在生物衰老及AD发病机制中的作用尚不明确。本研究整合了13个队列的存档DNA甲基化数据,通过计算机细胞类型反卷积分析,鉴定胶质细胞中与衰老和AD相关的新型表观遗传学特征。我们观察到前额叶皮层星形胶质细胞存在显著的年龄相关性甲基化改变,而内嗅皮层少突胶质细胞则表现出与AD状态最显著的差异甲基化。前额叶皮层的星形胶质细胞与神经元共同成为Braak分期相关甲基化的关键参与者,其变化与既往脑组织水平报道的关联高度一致。少突胶质细胞中与年龄相关的甲基化改变与AD的年龄效应呈强方向性关联并放大其影响,涉及神经发育过程;而星形胶质细胞中年龄相关位点的AD相关甲基化改变则偏离了正常衰老过程的典型模式。本研究拓展了既往发现,揭示了与表观遗传衰老及AD相关的胶质细胞特异性甲基化模式。
geneSync:用于大规模RNA-seq数据整合的基因符号统一化 Feng, Z. 2026-05-07 PDF 跨队列整合转录组数据是提升统计效力与结果普适性的常规策略。然而,不同数据集间因注释版本更新、历史重命名及同义基因重新分配导致的基因命名不一致问题,会在特征对齐过程中引发隐性错配,使基因被错误判定为缺失或分裂为重复特征。为此,我们开发了geneSync——一个在数据整合前执行基因符号标准化作为质控步骤的R包。该工具采用分层匹配策略:优先精确匹配权威基因符号,其次精确匹配NCBI基因符号,最终以同义匹配作为后备方案。其内置人类、小鼠和大鼠的离线数据库,支持可审计的冲突解决、跨物种直系同源映射,并能原生整合Seurat与SingleCellExperiment对象。基于2020-2025年间六个小鼠海马体单细胞RNA测序数据集及五个CellRanger版本的基准测试表明:1.41%-6.22%的特征需通过同义匹配解决,标准化处理使配对基因重叠率最高提升13.14个百分点,每对数据集可挽救707-1,098个基因。值得注意的是,CellRanger注释版本(而非数据采集年份)被确认为命名差异的主要驱动因素。geneSync可通过https://github.com/xiaoqqjun/geneSync 免费获取。
基因调控网络扩散用于改进阿尔茨海默病中淀粉样蛋白-β扩散的建模 Xu, F. H. 2026-05-07 PDF 理解阿尔茨海默病中β-淀粉样蛋白病理的发病机制是一项挑战。本研究扩展了网络扩散模型(NDM)的应用,用于研究β-淀粉样蛋白在白质结构脑网络中的病理生理扩散。我们发现,NDM在区域水平上成功重现了阿尔茨海默病神经影像学队列中β-淀粉样蛋白沉积的亚群体空间模式(Pearson's R=0.45-0.48, PFDR < 0.01),但在机制可解释性方面存在不足。随后,我们转向扩展的NDM框架(eNDM),引入蛋白质合成项以更好地反映β-淀粉样蛋白代谢的作用,并利用Allen人类脑图谱的空间转录组学数据纳入区域易感性,以调节合成项的区域水平速率参数。通过使用APOE、SORL1和FGL2进行基因调控,新型基因eNDM在轻度认知障碍和AD组中的Pearson相关性(Steiger's Z, PFDR < 0.10)较基线NDM性能显著提升。在阿尔茨海默病测序项目的外部队列中测试时,结果稳健且可重复。因此,本研究证明了区域遗传易感性与网络扩散机制相结合,在改进β-淀粉样蛋白病理生理扩散建模和预测中的重要性。