跳转至

medRxiv 2026-05-23

标题 作者 发布日期 PDF链接 摘要
人类表型本体(HPO)映射器:利用AI嵌入和基于LLM的质量控制将临床发现语义映射到人类表型本体 Kadhim, A. Z. 2026-05-23 PDF 背景:与遗传数据关联的结构化表型注释能够推动复杂疾病的诊断洞察与治疗发现。然而,非结构化临床记录中蕴含的丰富临床数据难以被研究有效获取,这仍是表型-基因型整合的主要障碍。本文提出人类表型本体(HPO)映射器——一种可扩展的AI辅助工具,旨在整合语义结构化的临床发现及其对应解剖区域,并精准映射至HPO术语及相关基因。结果:我们将HPO映射器应用于从炎症性肠病(IBD)患者记录中提取的两种标准化临床输入。第一种数据类型来自非结构化临床报告中的"临床发现+解剖区域"配对,第二种为标准化ICD-10编码衍生表型。HPO映射器对两种数据类型均实现了高语义对齐与映射精度(F1值分别为0.85±0.05和0.84±0.03)。此外,该工具成功将62.3%先前无法使用的自由文本条目转化为HPO术语。在队列规模验证中,生成的HPO集合映射至基因空间后,成功识别出包括NOD2、IL6、STAT3、IL10RA和CTLA4在内的IBD关键驱动基因。结论:本公开工具适用于将临床发现与解剖区域转化为基因关联的HPO术语,为精准医学提供实时HPO映射能力,奠定跨疾病可扩展AI表型分析的基础。更广泛而言,HPO映射器构建了通用化基础设施,可释放临床叙事数据的潜在价值,弥合临床记录与基因组诊断发现之间的鸿沟,助力靶向治疗开发。
超越急性黄疸:完善南苏丹和孟加拉国疑似戊型肝炎的病例定义 Koyuncu, A. 2026-05-23 PDF 由于缺乏常规诊断检测且症状非特异性,戊型肝炎的真实疾病负担尚不明确。我们评估了国际疑似戊型肝炎病例定义在两项研究中的敏感性与特异性,并探索替代病例定义能否更准确识别真实戊肝病例,从而提升监测数据的解读能力。研究数据来自南苏丹(2022年3-12月)和孟加拉国(2014年12月-2017年9月)的急性黄疸监测项目,这两个地区均存在戊型肝炎基因1型流行。对因急性黄疸综合征(AJS)就诊的个体,我们询问其戊肝相关体征/症状,并进行抗戊型肝炎病毒(HEV)IgM ELISA检测。采用分类模型集成方法评估体征/症状区分HEV阳性与阴性AJS病例的能力。为探索替代病例定义,我们估算了所有体征/症状组合的敏感性与特异性。在AJS患者中,南苏丹20%和孟加拉国38%的病例检出IgM抗体。国际疑似戊肝病例定义在不同研究人群中的敏感性(53-96%)和特异性(6-60%)存在差异。替代病例定义在两个人群中均表现出较差的区分能力(南苏丹AUC=0.64;95%置信区间:0.57-0.71;孟加拉国AUC=0.60;95%置信区间:0.57-0.63)。没有任何替代病例定义能在两个研究人群中同时实现敏感性和特异性超过60%。两个不同人群的急性黄疸监测显示,仅凭体征/症状不足以区分HEV相关病例与其他原因导致的急性黄疸。准确评估戊肝疾病负担及疫苗成本效益需要扩大诊断检测的应用。
将炎症性肠病风险变异解析至基因和细胞类型 Fachal, L. 2026-05-23 PDF 炎症性肠病(IBD),主要包括克罗恩病(CD)和溃疡性结肠炎(UC),是涉及炎症反应且常伴随进行性组织损伤的常见慢性疾病。全基因组关联研究已定位众多风险信号,但因果变异、效应基因及相关细胞背景仍难以明确,限制了机制解析与治疗转化。本研究对125,992例IBD患者及逾120万对照进行跨祖先全基因组关联分析荟萃,在420个IBD区域鉴定出619个独立关联信号(其中374个为新发现),这些信号可解释77-80%的基于SNP的遗传度。精细定位解析出81个高置信度变异,其中41个为首次报道。尽管多数信号在CD与UC间共享,但39%显示亚型特异性:UC信号在肠上皮细胞、分泌细胞及肠内分泌细胞的功能注释中富集更显著,而CD与循环炎症生物标志物(包括C反应蛋白和糖蛋白乙酰化)的遗传相关性更强。潜在因果模型支持高密度脂蛋白降低对CD风险的因果效应。通过整合批量及单细胞eQTL与pQTL资源(采用共定位与孟德尔随机化方法),结合外显子组测序的编码变异证据,我们在341个信号中优先筛选出664个候选效应基因(含390个新发现的IBD相关基因),揭示了人类遗传学支持的新生物学机制及候选治疗靶点。
数字注册器:一种基于模式优先的框架,通过本地大语言模型实现多癌隐私保护病理学抽象 Chow, N.-H. 2026-05-23 PDF 背景/目标:外科病理报告包含最细粒度的癌症诊断数据,但其以自由文本为主的格式造成了“转化鸿沟”,阻碍了自动化的登记录入和二次分析。尽管当前大语言模型(LLM)研究常聚焦于狭窄的提取任务,但本研究强调以临床为导向的架构层作为更持久的科学贡献,以实现长期互操作性和可重复性。方法:我们开发了一套符合美国病理学家学会(CAP)标准的临床本体,以严格类型化的分层架构实现,并编码为DSPy签名。该系统覆盖10种主要癌症类型的193个登记字段,包括淋巴结组和手术切缘等复杂可变长度结构。利用DSPy框架构建了提取流水线,实现了模型无关的架构,使LLM作为可互换的推理引擎。在893份内部病理报告(2023-2024年)和150份TCGA外部验证队列上进行了性能基准测试。硬件可行性在单块48 GB GPU上测试,以确保适用于本地化、隐私保护的医疗工作站部署。结果:使用gpt-oss:20b模型,该框架在所有内部登记字段上实现了94.3%的平均精确匹配准确率。外部验证准确率在TCGA队列中保持92.4%的高水平,展示了跨不同机构报告风格的稳健泛化能力。关键预后指标保持高保真度,包括乳腺癌生物标志物(接近完美准确率)和手术切缘阳性(91.2%平均准确率)。操作上,gpt-oss:20b在速度(每份报告40-70秒)和准确率之间提供了最佳平衡,优于更密集或更复杂的架构。结论:主要贡献在于一种架构优先的抽象层,将临床逻辑与特定AI模型解耦。通过将叙述性报告转化为具有登记级可靠性的机器可读结构,该框架为自动化癌症监测、隐私保护的机构数据复用以及未来多模态临床系统提供了可移植基础。
传播加速指标优于地方性通道阈值,可用于登革热暴发检测。 Pelitro, K. J. 2026-05-23 PDF 极端天气推动登革热传播超出历史时空发病模式。在极端天气条件下,尚无经过验证的登革热暴发阈值可用于早期预警。本研究表明,传播加速度比地方病通道阈值能更早且更一致地检测到暴发。我们在一个高度流行城市、17个热带地区和8个登革热流行国家评估了检测器。基于加速度的检测器在病例捕获量、预警提前时间、预警持续性和敏感性方面始终优于地方病通道。在城市尺度上,传播加速度每季捕获4257例病例,而地方病通道为1119例;其敏感性达100%,而后者为30%,且在6.9周(对比1.6周)的提前时间内触发于4至8周的预期预警窗口。这些结果确立了基于加速度的检测器作为登革热预警行动的稳健信号,使其更适用于日益受极端天气影响的传播格局。
妊娠表型的动态遗传图谱 Liu, S. 2026-05-23 PDF 妊娠期(从受精到分娩约40周)是人类生殖的基础。在此期间的健康监测涉及系统的产前和产后检查,其指导指标在国家医保框架下统称为妊娠表型。尽管这些表型具有临床重要性,但其遗传基础及其与后期健康结局的关联仍知之甚少。在这项大规模遗传学研究中,我们分析了121,579例中国妊娠中的122种妊娠表型,涵盖人体测量指标、血液生物标志物以及常见妊娠并发症与结局。我们鉴定出3,845个遗传位点(含1,893个新位点),并在23种表型中发现妊娠特异性遗传效应,其比例范围为0%至100%。这些位点富集于激素调控、细胞生长和免疫功能相关通路。针对24种全血细胞表型重复测量的纵向全基因组关联分析显示,在五个妊娠期和产后阶段中,17.8%的位点存在显著的基因-妊娠时间交互作用。对220种中晚年表型的孟德尔随机化分析确定了73项妊娠表型与慢性病风险之间的因果关联。这些发现为人类妊娠表型的遗传结构及其对长期健康的影响提供了重要见解,为推进妊娠期人群健康奠定了基础。可视化结果见https://monn.pheweb.com/。
南亚人群自然选择对更高心脏代谢疾病风险贡献的评估 Searby, D. J. C. 2026-05-23 PDF 有假说认为,南亚人群心血管和代谢疾病发病率高于欧洲人群,是由于其遗传易感性更高。我们首先证明,在排除技术性假象后,相关性状的遗传效应在不同祖先群体间基本一致,这削弱了基因-基因或基因-环境交互作用导致患病率差异的假说。若南亚人群遗传易感性较高源于进化过程中脂肪相关性状的选择压力,那么与心脏代谢疾病及其他因果相关性状(如脂肪分布)关联的基因座应存在选择信号。我们通过比较连锁不平衡评分和最小等位基因频率匹配的SNP零分布,检测了与心脏代谢疾病相关性状关联的基因座中多种选择统计量(FST、XP-EHH和XP-nSL)的富集情况。结果显示,与2型糖尿病、躯干脂肪百分比、体脂百分比及躯干脂肪质量等部分性状关联的基因座存在FST富集,这支持了跨群体分化存在适度适应性解释。然而,所有研究性状均未出现基于单倍型统计量的富集,表明跨群体遗传分化不太可能由近期选择性清除驱动,而更可能源于古老选择或近期多基因选择作用于现有遗传变异。
MyeGPT:一种用于多发性骨髓瘤的人工智能代理 Chang, J. G. 2026-05-23 PDF 如今,我们对癌症生物学的理解日益归功于大规模临床分子数据集。以多发性骨髓瘤(第二常见的血液系统恶性肿瘤)为例,CoMMpass研究提供了包含1143名患者配对临床与测序数据的数据集。由于该数据集的多组学数据具有复杂性,需要编程技能才能处理,这对希望基于群体数据验证假设的实验性骨髓瘤研究者构成了障碍。近年来智能体AI的兴起为弥合这一技术鸿沟带来了前所未有的机遇。我们提出MyeGPT(多发性骨髓瘤生成式预训练Transformer),这是一种以CoMMpass数据集为基准的多发性骨髓瘤AI生物信息学家。MyeGPT能将"诱导治疗后复发患者有何特征"或"比较NSD2高表达与正常表达患者的总体生存率"等自然语言查询转化为基于真实数据的全新分析,并主动生成可视化结果图表。我们基于CoMMpass开发了一套包含评分标准的评估问题集,通过基准测试确定大语言模型和文本嵌入模型的最佳选择。我们将MyeGPT封装为即用型浏览器应用,使研究者可通过智能手机完成基于CoMMpass的假设验证。
加拿大马尼托巴省性传播及血源性感染、甲基苯丙胺使用与COVID-19疫苗接种情况:基于2020-2022年人群行政医疗数据的回顾性匹配队列分析 Shaw, S. Y. Y. 2026-05-23 PDF 目的:研究加拿大马尼托巴省在COVID-19大流行急性期,性传播及血源性感染(STBBI)确诊者与甲基苯丙胺使用者的疫苗接种情况。方法:采用回顾性匹配队列研究,基于马尼托巴省关联的人口行政医疗、实验室及疫苗接种数据库。纳入2020年3月1日前四年内实验室确诊衣原体/淋病(CT/NG)、梅毒、HIV和/或记录有甲基苯丙胺使用的16岁以上个体,组成八个暴露队列。各队列按年龄、性别、地理区域及收入五分位数匹配未暴露对照组。主要结局为2020年12月1日至2022年3月31日期间接种≥2剂COVID-19疫苗。采用泊松回归模型估算疫苗接种率的调整率比(aRR)及95%置信区间(95% CI)。结果:与匹配对照组相比,多数暴露队列完成COVID-19基础疫苗接种的可能性较低。仅梅毒组(aRR: 0.87, 95% CI: 0.85-0.90)、梅毒合并感染组(aRR: 0.84, 95% CI: 0.81-0.86)、仅CT/NG组(aRR: 0.95, 95% CI: 0.94-0.96)、CT/NG合并感染组(aRR: 0.82, 95% CI: 0.80-0.85)、仅甲基苯丙胺组(aRR: 0.78, 95% CI: 0.76-0.80)及甲基苯丙胺+STBBI组(aRR: 0.74, 95% CI: 0.72-0.77)的疫苗接种率显著较低。仅HIV组与匹配对照组无显著差异(aRR: 0.98, 95% CI: 0.95-1.01)。低接种率集中于低收入地区人群。结论:马尼托巴省STBBI确诊者与甲基苯丙胺使用者在COVID-19疫苗接种中面临显著不平等,尤其合并STBBI感染及物质滥用者。将疫苗接种与HIV服务、减少伤害及成瘾治疗整合的干预措施,可在未来公共卫生紧急事件中改善疫苗公平性。
在肯尼亚社会健康管理局过渡前,确诊高血压或糖尿病的肯尼亚成年人中,健康保险覆盖、可负担性障碍及治疗缺口:基于2022年肯尼亚人口与健康调查的性别分层分析 Amollo, N. W. 2026-05-23 PDF 背景:肯尼亚于2024年10月以社会健康管理局取代国家健康保险基金,使2022年肯尼亚人口健康调查成为过渡前最后一个具有全国代表性的基线数据。关于已确诊高血压或糖尿病成年人的保险覆盖率和治疗缺口(包括性别差异模式)的证据仍然有限。本研究旨在评估国家健康保险基金时代末期,确诊成年人在保险覆盖率和治疗缺口方面的水平、分布及相关因素。方法:我们对2022年肯尼亚人口健康调查进行了基于调查权重的横断面二次分析。受访者报告了保险状况、既往诊断和当前用药情况。分析按性别分层并采用调查权重,通过调整患病率比评估保险覆盖率与治疗缺口之间的关联。使用集中指数检验与财富相关的不平等性。结果:分析样本包括1,932名确诊成年人(1,384名女性和548名男性)。任何保险覆盖率为47.7%,主要来自国家健康保险基金参保(43.4%)。总体而言,63.8%的确诊成年人被归类为存在治疗缺口(至少一种确诊疾病未服药),其中女性为67.1%,男性为59.8%,所有财富五分位组的治疗缺口均超过60%。保险覆盖率呈现明显的亲富倾向,而治疗缺口则分布于各财富梯度。调整后,保险与女性或男性治疗缺口患病率降低无强关联,且正式交互作用检验不支持性别效应修饰。在女性中,未参保者报告"缺乏治疗资金"为主要障碍的频率远高于参保者。结论:在社会健康管理局过渡前,肯尼亚面临保险覆盖率不平等、持续的可负担性障碍以及高血压或糖尿病确诊受访者中显著的治疗缺口。这些发现为卫生筹资改革提供了全国性过渡前基准。研究提示,扩大参保覆盖面是必要的,但除非公共保险安排同时改善福利深度、门诊药品可及性以及持续性非传染性疾病护理的一线准备,否则难以缩小慢性病治疗缺口。