medRxiv 2026-05-25

标题	作者	发布日期	PDF链接	摘要
抗原优先级和血凝素趋同进化塑造了B/Yamagata流感灭绝前的免疫格局	Steventon, R.	2026-05-25	PDF	背景：2020年，乙型流感Yamagata谱系停止流行。了解该谱系消失前的免疫学条件，有助于解释其消失原因，并对病毒进化机制及现行疫苗政策具有启示意义。方法：我们检测了2020年、2023年和2025年收集的年龄和性别匹配的献血者队列（每组114人）中，针对覆盖79年进化历程的假型乙型流感病毒谱的中和抗体反应，并通过活病毒中和试验进行验证。使用B/Yamagata（B/Phuket/3073/2013）和B/Victoria（B/Washington/02/2019）谱系的全长及头部结构域HA蛋白进行抗体下拉试验，检测纯化抗体对时序不同的假型病毒的中和效力。采用贝叶斯网络分析和LASSO回归识别跨谱系中和的潜在分子决定因素，并通过定点突变和表位特异性肽段下拉试验进行验证。结果：2020年，人群免疫呈不对称性聚焦于B/Yamagata病毒。尽管2020年后B/Yamagata停止流行，2023年针对近期B/Yamagata毒株的中和反应仍增强，而B/Victoria反应保持不变，这与抗原原罪效应引导回忆反应偏向B/Yamagata的机制一致。至2025年该趋势逆转，B/Yamagata免疫力下降而B/Victoria免疫力上升。抗原特异性纯化抗体呈现谱系偏向性效力，对B/Yamagata病毒的中和效果优于B/Victoria病毒。我们鉴定出HA头部结构域的120-loop为关键跨谱系表位，其中第131位单一趋同进化残基的电荷状态决定了谱系间的交叉反应效力。解释：B/Yamagata获得与B/Victoria共有的第131位正电荷残基，可能在其消失前增强了Victoria诱导免疫对其的交叉中和作用。尽管抗原原罪效应在B/Yamagata灭绝后仍维持交叉反应，但该效应至2025年已减弱，提示人群对B/Yamagata的免疫力正在下降。这对乙型流感疫苗政策具有重要启示。
肯尼亚内罗毕县肯雅塔国家医院15岁及以上人群结核病诊断与治疗中患者及卫生系统延迟的决定因素与后果	Arnold, M. R.	2026-05-25	PDF	背景：在结核病高负担国家，诊断和治疗启动的延迟仍是有效控制结核病的主要障碍。患者相关延迟和卫生系统相关延迟共同导致传播时间延长、发病率增加及治疗效果恶化。本研究评估了15岁及以上人群在结核病诊断和治疗中患者与卫生系统延迟的决定因素及后果。方法：在肯尼亚内罗毕县肯雅塔国家医院接受治疗的结核病患者中开展了一项基于医疗机构的观察性研究。通过结构化问卷和患者病历审查收集数据，评估从症状出现到诊断及治疗启动的时间线。采用描述性和推断性统计分析，识别与诊断和治疗延迟相关的决定因素。结果：研究发现，患者层面因素和卫生系统限制共同导致了显著的结核病诊断和治疗启动延迟。关键决定因素包括就医意识低下、经济障碍、病耻感、诊断前多次就诊于不同医疗机构以及诊断系统效率低下。这些延迟与就诊时疾病严重程度增加及持续传播风险相关。结论：患者和卫生系统延迟显著影响结核病的及时诊断与治疗。加强社区意识、改善诊断服务可及性、提升卫生系统响应能力，是减少延迟、改善高负担地区结核病预后的关键策略。
2025年斯里兰卡基孔肯雅热大规模暴发期间的病毒基因组特征揭示了一种独特的印度洋谱系毒株的出现	Jayadas, T.	2026-05-25	PDF	基孔肯雅病毒（CHIKV）已在全球范围内重新出现，2025年多个地区报告了大规模疫情。斯里兰卡在经历了近二十年的低水平传播后，爆发了大规模疫情。本研究旨在鉴定此次疫情中CHIKV的基因组特征，并与历史毒株及全球毒株进行比较。对2025年4月至9月期间出现的急性发热患者，采用定量PCR进行CHIKV筛查，并利用牛津纳米孔技术进行全基因组测序。通过整合全球参考数据集及病毒基因组、时间和地理数据，开展了系统发育、突变、结构和系统动力学分析。所有2025年斯里兰卡序列均属于东中南非洲基因型的印度洋谱系（IOL），并形成独特的单系分支。相比之下，巴西、中国、留尼汪和马约特岛的疫情则与遗传学上不同的谱系相关。斯里兰卡及其他南亚毒株在结构蛋白和非结构蛋白中均存在独特突变。E1和E2蛋白的关键突变位于与蚊媒传播能力相关的位点、MXRA8受体结合界面以及已知的中和抗体结合区域。与2006至2008年IOL流行毒株相比，2025年病毒呈现出显著不同的分子特征。2025年斯里兰卡基孔肯雅疫情由新近出现的IOL毒株引起，该毒株在功能重要位点携带突变。这些发现凸显了持续开展基因组监测对于深入理解病毒进化、传播动态及其对毒力和免疫潜在影响的重要性。
双胞胎与单胞胎的跨代生育率：芬兰全人口研究	Niemi de Paiva, S.	2026-05-25	PDF	研究问题：与单胎相比，双胞胎状态及卵型（同卵vs异卵；同性vs异性）能否预测生育结局及代际生殖模式？简要回答：女性中，异卵双胞胎的完成生育率略高于单胎和同卵双胞胎，且更可能生育双胞胎。男性中生育率无显著差异。这些差异仅限于双胞胎一代，未延续至下一代，表明存在性别特异性和世代特异性效应，而非代际传递。已知信息：异卵双生与遗传性超排卵及较高自然生育率相关，但关于双胞胎身份或卵型是否影响跨代生殖结局的研究较少。研究设计、规模、时长：基于芬兰双胞胎队列部分数据及国家人口登记册的纵向队列研究。参与者包括1945-1957年间出生的同卵双胞胎（N=4,068）、同性异卵双胞胎（N=8,890）、异性异卵双胞胎（N=8,474）、单胎对照（N=1,193,404），总计1,254,103人（女性占49.1%），及其母亲、子女和孙辈。参与者/材料、设置、方法：生育结局（亲生子女数、初育年龄、无子女率、多胎生育）来自芬兰人口登记册。分析遵循预注册计划（https://osf.io/qbwv3）。主要结果与偶然性作用：单胎与双胞胎的生育差异较小，且因性别和卵型而异。差异主要出现在双胞胎母亲及女性双胞胎自身，而双胞胎后代与单胎后代相比差异有限。双胞胎初育年龄略高，总亲生子女数较少，但更可能生育双胞胎。异卵双胞胎与同卵双胞胎及单胎的差异尤为显著。局限性及注意事项：研究仅限于20世纪中期出生的芬兰人群，因此对当代人群或非北欧背景的普适性可能受限。此外，分析为观察性研究，由于社会或文化因素等生育率背后的其他动机，因果推断有限。研究结果的广泛意义：这些发现表明卵型和性别相互作用塑造生殖结局，为生育力的遗传和环境贡献提供了见解。研究凸显了大型双胞胎队列在代际生殖趋势研究中的价值，以及双胞胎在基于人群的生育研究中的代表性。研究资助/利益冲突：作为现有研究项目的支持活动，本项目由麻省理工学院与哈佛大学博德研究所的“广泛创伤倡议”资助。
深度代理变体优先级排序用于专家级遗传诊断	Kara, M.	2026-05-25	PDF	罕见遗传病的诊断关键在于从数千个候选变异中识别致病突变，尽管基因组测序技术已普及，但全球3亿患者中绝大多数仍未能获得确诊。我们提出DAVP（深度智能体变异优先级排序）系统，这是一个分层式智能体-大语言模型（LLM）流水线，整合了基因预筛选、知识图谱驱动的变异报告，以及通过迭代LLM锦标赛对每个患者表型进行变异排序的机制。我们在四个数据集的709个诊断案例中评估DAVP，包括LIRDB-47——一个包含47名土耳其罕见病患者、63个临床确诊致病变异的新队列。DAVP在完整基准测试中实现了85.5%的变异级前三召回率；在LIRDB-47队列中，76.2%患者的致病变异位列前三（88.9%位列前二十），较最佳表型驱动基线方法（Exomiser，47.6%）提升1.6倍。我们的研究表明，将证据综合与患者特异性推理相结合的智能体LLM系统，有望重塑临床基因组工作流程。
人工智能增强心电图的测试-重测信度：一项多中心研究	Dhingra, L. S.	2026-05-25	PDF	背景：人工智能增强心电图（AI-ECG）可检测结构性心脏病（SHD）。然而，其作为临床检测手段的实用性要求重复检测结果具有一致性。目的：评估当代AI-ECG模型在不同医疗系统中的重测信度，识别与结果不一致相关的因素，并确定筛查状态变化的预测意义。方法：我们选取了耶鲁-纽黑文医疗系统（YNHHS）、马萨诸塞总医院（MGH）和埃默里大学医院（EUH）中同一患者间隔1-30天记录的心电图配对数据。评估了内部开发的基于心电信号和图像的SHD模型，以及EchoNext-Mini模型（包括疾病特异性组件和集成复合模型）。通过一致性相关系数（CCC）和分类一致性百分比量化信度。在无既往心力衰竭（HF）且间隔30-90天进行系列心电图检查的患者中，评估了筛查状态不一致与新发HF风险的关联。结果：共纳入731,466对心电图（中位间隔5-6天）。在YNHHS，基于信号和图像模型家族的疾病特异性模型CCC范围为0.77-0.86，EchoNext-Mini输出节点的CCC范围为0.50-0.97。复合SHD模型的CCC分别为0.90（基于信号）、0.90（基于图像）和0.81（EchoNext-Mini）。基于图像的集成模型在三个医疗系统中实现了87-89%的分类筛查状态一致性（疾病特异性模型为80-84%）。年龄较小（<65岁）是结果不一致的主要相关因素（OR 1.69 [95% CI, 1.65-1.74]），住院期间心电图也显示较高风险（ORs 1.30-1.41）。在预测队列的65,838名患者中，筛查状态从阴性转为阳性与新发HF风险升高相关（各中心调整后风险比1.67-2.37）。结论：当代AI-ECG模型具有高重测信度，其中集成复合模型稳定性最佳。AI-ECG筛查状态的系列变化对新发HF具有预测价值。
局部校准的错误率提高了AI评分的可解释性，并影响了放射科医生的决策。	Chung, M.	2026-05-25	PDF	引言：放射学中的人工智能（AI）系统通常生成病例级别的数值评分，旨在反映潜在病理的可能性。然而，这些评分在临床实践中往往难以解读。我们提出一个框架，通过在每个评分阈值下提供相应的错误发现率（FDR）和错误遗漏率（FOR），将AI评分转化为具有临床意义、经局部校准的错误概率。方法：使用开源乳腺X线摄影AI模型（Mirai），我们基于130,712份数字筛查乳腺X线摄影（907份阳性，129,805份阴性）的回顾性队列，估计了不同阈值下的评分特异性FDR和FOR。随后开展决策研究，评估与单独呈现AI评分相比，同时呈现FDR/FOR是否会影响放射科医生的召回建议和信心。结果：FDR和FOR在不同AI评分阈值间差异显著，在评分分布低端分别为60.87%和0.03%，在高端分别为99.26%和0.65%。在决策研究中（n=21；每位放射科医生评估20次），两种条件下召回率均随AI评分升高而增加；但单独呈现AI评分时的召回率高于同时呈现FDR/FOR的情况（比值比2.9，95%置信区间[1.331, 6.417]，p=0.0077）。信心与评分呈U型关系，在提供FDR/FOR时信心更高，尤其在中等评分区间。结论：局部校准的FDR和FOR为将AI评分转化为临床可解读概率提供了实用方法。在AI评分旁同时呈现这些指标可提高可解释性，并与放射科医生决策变化相关，支持将其作为AI临床实施的框架。
全球问题性互联网使用负担：一项伞状综述与荟萃分析	Schwarze-Taufiq, T.	2026-05-25	PDF	重要性：问题性网络使用（PUI）行为，包括问题性游戏、社交媒体使用、智能手机使用及一般性网络使用，在全球范围内受到日益广泛的研究。目前，PUI的全球流行率尚不明确。目的：对现有关于PUI行为流行率的系统综述和荟萃分析进行批判性评估，并整合不同表现形式和定义下的全球汇总流行率估计值。数据来源：检索MEDLINE（Ovid）、Embase（Ovid）、Scopus、Web of Science、CINAHL及Cochrane Review Library，时间范围从数据库建库至手稿撰写前的最新可用检索。检索目标为报告PUI相关行为流行率的系统综述和荟萃分析。研究选择：纳入报告问题性游戏、问题性网络使用、问题性智能手机使用、问题性社交媒体使用或色情短信行为流行率的观察性研究系统综述和荟萃分析。范围综述仅保留用于描述性综合。数据提取与综合：采用伞状综述方法。数据提取和方法学评估使用AMSTAR-2工具，截至2026年2月评估纳入系统综述的质量。提取每篇综述中的原始研究，并通过随机效应荟萃分析进行合并。分析旨在估计汇总流行率及其95%置信区间（CI），并评估非重叠原始研究间的异质性。同时检验小研究效应。主要结局与测量指标：PUI行为的全球汇总流行率估计值，包括问题性游戏、问题性网络使用、问题性智能手机使用、问题性社交媒体使用及色情短信。结果：11篇综述（包括10篇系统综述和1篇范围综述）符合纳入标准，代表3,145,428名个体的数据，其中3,030,023人纳入汇总流行率分析。按区域划分，问题性游戏的汇总流行率为6%（95% CI，5%-7%），问题性网络使用为16%（95% CI，15%-17%），问题性智能手机使用为32%（95% CI，28%-35%），问题性社交媒体使用为23%（95% CI，19%-28%）。原始研究间存在显著异质性（I² > 99%），反映了研究方法、抽样人群及PUI行为定义的差异。结论与相关性：PUI行为似乎影响全球相当比例的人口。然而，方法学问题普遍存在，10篇系统综述中有9篇根据AMSTAR-2被评为低或极低置信度。证据仍集中于东亚和欧洲地区，且许多综述合并了异质性人群和抽样策略。需要更多高质量流行病学研究（包括在代表性不足地区开展的研究）以完善流行率估计、明确风险因素，并支持制定PUI行为的标准化标准。
大语言模型在潜在卒中症状分诊行为中的跨模型变异性	Dworkis, D. A.	2026-05-25	PDF	背景：卒中是一种时间敏感的神经急症，早期启动紧急医疗服务（EMS）并尽快接受确定性治疗是有效治疗的核心。公众越来越多地使用大型语言模型（LLM）获取医疗建议，但商用模型对潜在卒中症状的指导准确性尚不明确。方法：我们开展了一项跨模型基准测试研究，比较三种前沿LLM（Claude Sonnet 4.6、GPT-4o和Llama 3.3-70b-versatile）对描述晨起单侧手臂症状的第一人称情景的分诊选择。研究涵盖10种症状描述词、两个临床阶段（部分令人安心的自我检查前后），以及有无临床干扰因素（每种条件50例）。结果：Claude最常建议紧急就医，Llama最少，GPT-4o居中；在检查后阶段差异最显著：Claude在100%的测试中呼叫911，Llama在100%中建议非紧急求助，GPT-4o则取决于症状描述。干扰因素在几乎所有条件下都使行为偏离紧急就医：检查后情景中呼叫911的比例从37.9%降至14.6%，等待观察的比例从0%升至45.9%。回答对症状用词敏感：虚弱、无力、沉重和笨拙引发更高警觉，而麻木、刺痛、异常、奇怪和怪异则导致较不紧急的响应。结论：LLM在医疗建议中的日益普及具有重大公共卫生影响。面对潜在卒中症状时，商用LLM表现出显著的模型间差异和措辞敏感性，包括对CDC标准警示描述词的识别不足，这凸显了随着这些工具成为神经急症患者事实上的首要接触点，进行系统性基准测试的必要性。
实时地理起源识别中累积上下文学习与简单历史加权方法的比较评估：基于日本八次COVID-19疫情波次的实证研究	Nakagawa, S.	2026-05-25	PDF	背景：早期确定疫情波次的地理起源对于针对性公共卫生响应至关重要。传统统计方法通过固定算法处理病例数时间序列数据，并独立分析各波次。大语言模型通过累积学习——将先前波次已确认的流行病学发现整合到后续波次预测中——提供了新方案。目前尚不清楚该方法在早期检测中是否优于传统统计基线，以及相同累积学习原理能否通过透明统计方法实现。方法：我们比较了三种计算方法在日本八次新冠流行波次（第2-8波，2020-2023年）中的表现：（1）非累积统计基线，独立处理各波次；（2）累积学习大语言模型，接收所有先前波次已确认起源作为上下文历史知识；（3）累积计算统计基线，通过透明算术评分实现相同历史加权机制。此外，我们评估了仅接收当前波次数据的非累积大语言模型条件，以分离大语言模型内在地理推理能力与累积历史知识的贡献。所有方法在波次开始后第7、14、21和28天进行评估，并与基因组学确认的波次起源进行验证。结果：累积计算统计基线在波次开始后第14天平均F1=0.51，与累积学习大语言模型表现相当（F1=0.52），优于所有非累积统计基线（F1=0.41-0.46）。第7波（奥密克戎BA.5）在14天时被两种方法正确识别（F1=1.00）。第6波（奥密克戎BA.1）所有方法均无法检测（F1=0.00），这与该波次起源超出国内监测系统范围一致。结论：性能提升源于累积历史加权机制而非大语言模型推理本身，因为透明算术实现达到了与大语言模型相当的准确率。然而，非累积大语言模型在无历史上下文时仍达到F1=0.46，表明其具备显著的内在地理推理能力。这些发现深化了对上下文学习何时及为何具有优势的理解，并提供了一种无需人工智能基础设施、可通过电子表格部署的实时疫情起源识别方法。