medRxiv 2026-06-06

标题	作者	发布日期	PDF链接	摘要
使用基于熵的不确定性分诊的患病率自适应四模型贝叶斯集成进行围手术期死亡率预测	Pandey, A. K.	2026-06-06	PDF	背景：资源有限环境下的围手术期死亡率预测面临严重类别不平衡（16.9:1）和并发症路径异质性的挑战。现有工具需要术前无法获取的术中变量，且无法提供不确定性量化。我们提出了一种基于患病率自适应的四模型贝叶斯集成方法，结合基于熵的三级分诊系统，在包含697例真实患者（39例死亡，原始患病率5.59%）的930例普外科手术队列中训练，通过VAE数据增强处理类别不平衡（1,935样本集；不平衡比从16.9:1降至1.94:1）。方法：基于67项术前和术后早期特征，训练了四个概率模型——变分自编码器（VAE；AUC=0.9449）、Flipout M1（AUC=0.9009）、概率M2（AUC=0.9598）和贝叶斯蒙特卡洛（AUC=0.9115；100次迭代，种子=42）。采用性能归一化集成权重（Rokach 2010: w_k = (AUC_k - 0.5) / sum(AUC_j - 0.5)）：VAE=0.2587，M1=0.2337，M2=0.2679，贝叶斯=0.2398。通过多数3/4门控和香农熵调整（gamma=0.10，Focal Loss类比），基于无结局标签的Gamma_Adjusted评分定义了三个分诊区域——危重区（>=0.8649）、灰色区（0.6987-0.8649）和安全区（<0.6987）。结果：在验证队列（n=233；13例死亡）中，A阶段（Post_Gate_Score）达到AUC=0.9577，灵敏度=76.9%，特异度=90.0%，J=0.669。B阶段（Gamma_Adjusted，gamma=0.10）达到AUC=0.9586，灵敏度=100%（95% Wilson CI 77.2-100.0%），特异度=83.2%，J=0.832，假阴性=0，假阳性=37（FP/TP=2.8倍）。危重区（n=16）：10例死亡，6例存活，FP/TP=0.6倍。不同分诊区的香农熵存在显著差异（Kruskal-Wallis H=46.072，p=9.90x10^-11，epsilon-squared=0.192）；死亡患者熵值低于存活患者（Mann-Whitney p=0.0002）。该集成方法优于所有对照工具：RCRI（AUC=0.879）、ASA分级（AUC=0.829）、PMP评分/Vaid 2012（AUC=0.777）、CCI（AUC=0.646）和mFI-5（AUC=0.661）。结论：基于患病率自适应的四模型贝叶斯集成方法结合熵引导分诊，在临床可接受的警报负担（FP/TP=2.8倍）下实现了100%灵敏度，优于所有传统围手术期风险评分。三级危重区/灰色区/安全区方案已部署为开源Streamlit应用程序，可在无结局标签情况下提供可操作的实时风险分层。推广前需进行外部多中心验证。
按时间分层的人口学、生命体征、临床实验室及微生物学变量的顺序应用，用于快速准确识别脓毒症。	Navalkar, K. A.	2026-06-06	PDF	背景脓毒症的早期准确识别仍是重大临床挑战，因其临床表现异质性高，且与非感染性全身炎症反应综合征（SIRS）的体征存在重叠。及时鉴别对改善患者预后、满足脓毒症集束化治疗要求及减少抗菌药物不合理使用至关重要。我们假设患者就诊后3小时内可获取的临床实验室数据能够以可操作的准确度识别脓毒症患者，替代传统微生物学结果（至少需12-24小时才能获得）。本研究利用两项独立研究的数据，量化三个时间点可获取的人口学、生命体征、临床实验室及微生物学数据对回顾性诊断的危重症患者（脓毒症或非感染性SIRS）的鉴别诊断价值。研究重点评估了SeptiCyte RAPID（美国华盛顿州西雅图Immunexpress公司）作为脓毒症诊断辅助工具的价值，该检测可在1小时内提供可操作数据。方法分析两项独立研究队列数据。"510k队列"包含419例重症监护室（ICU）成年患者（来自MARS、VENUS和NEPTUNE研究）。"安达卢西亚队列"包含353例来自PANGEA研究的ICU患者。采用贪婪搜索算法筛选变量、重复交叉验证验证的Logistic回归模型，确定不同变量对诊断准确性的贡献。通过受试者工作特征曲线下面积（AUC）量化诊断效能。结果在510k队列中，基于就诊即刻（T1时间点）评估的5-7项生命体征和人口学变量，基线AUC为0.69-0.73。加入就诊后1-3小时（T2时间点）的临床实验室变量（尤其是SeptiCyte RAPID）后，AUC提升至0.83-0.85。最终加入就诊后12-24小时（T3时间点）的微生物学数据后，AUC进一步改善至0.90-0.91。安达卢西亚队列获得相似结果：T1时间点仅基于生命体征和人口学变量的AUC=0.67；T2时间点基于生命体征+人口学+SeptiCyte RAPID±其他临床实验室数据的AUC=0.87；T3时间点基于生命体征+人口学+SeptiCyte RAPID±其他临床实验室数据+微生物学结果的AUC=0.93。两个队列中最显著的变量包括体温、平均动脉压、呼吸频率、疑似感染部位、SeptiCyte RAPID、降钙素原、确诊细菌感染及血培养阳性确认。结论随着人口学与生命体征数据补充临床实验室信息，并最终加入微生物培养结果，脓毒症识别准确性显著提升。最快改善发生在就诊后3小时内，此时实验室数据（尤其是SeptiCyte RAPID结果）可获取。将SeptiCyte RAPID快速宿主反应检测整合至基于时间的诊断框架中，可增强脓毒症早期识别、改善抗菌药物管理，并支持指南驱动的临床决策。
“结扎意外”：澳大利亚输精管切除术与生育率的回顾性研究	Janetzki, J.	2026-06-06	PDF	背景近几十年来，澳大利亚生育率持续下降，2024年总和生育率降至每名妇女1.48胎的历史最低水平。与此同时，输精管结扎术作为永久性避孕选择仍广泛可及且日益常态化。尽管关于生育率下降的评论众多，但尚无当代澳大利亚研究考察输精管结扎率与生育率随时间变化的相对关系。本研究旨在比较澳大利亚各辖区及年龄组的人群输精管结扎率与生育率。研究设计全国性回顾性时间序列研究。基于医疗保险福利计划项目37623的回顾性人群研究，识别2015年7月至2024年12月期间实施的输精管结扎手术。使用澳大利亚统计局季度人口估计值计算每10万男性人口的比率，并汇总为滚动12个月平均值。生育率采用匹配的澳大利亚统计局数据，按相同年龄分层（18-24岁、25-34岁、35-44岁）计算女性生育率。结果全国输精管结扎率从2016年的每10万人32例上升至2023年的每10万人55例，2024年略有下降。同期生育率从每10万人5200例降至3800例。各州及年龄组趋势一致，其中35-44岁男性输精管结扎率增幅最大。结论澳大利亚正经历输精管结扎率上升与生育率下降并存的人口结构转变。尽管输精管结扎率仍低于生育率，但两者趋同表明生育意愿和避孕行为正在改变。持续监测永久性和长效避孕措施对理解人口动态演变及制定生殖健康政策至关重要。
一项关于保护易感人群在感染SARS-CoV-2后免于患病、住院或死亡的替代疫苗接种策略比较：一项元种群建模研究	Feng, Z.	2026-06-06	PDF	背景：美国疫苗接种政策制定者最初优先考虑医护人员、其他一线关键岗位工作者以及重症COVID-19风险最高的人群。保护作用既可通过降低暴露后的感染易感性实现直接保护，也可通过为他人接种疫苗降低暴露风险实现间接保护。方法：我们在已发表的SARS-CoV-2传播模型基础上，纳入免疫调节疾病机制，更新部分参数并引入时变参数。随后推导了亚群再生数及相关分析量值，比较了2020年12月14日疫苗接种启动至2024年5月11日公共卫生紧急状态结束期间，直接与间接保护高危人群的各自影响。结果：在2021-22学年学校复课前，青少年（尤其是青少年群体）的核衣壳蛋白抗体阳性率高于成年人，但其疫苗接种进度远落后于老年人（尤其在奥密克戎流行时期），且造成更多感染。尽管如此，我们发现：虽然以降低传播为目标的疫苗接种策略能避免更多感染，但实际实施的疫苗接种策略避免了更多疾病、住院和死亡。解释：由于重症COVID-19存在年龄依赖性（这正是政策设计所要缓解的问题），为老年人接种疫苗比接种可能感染他们的年轻人更有效。若与现有证据相反，疫苗效力或疫苗诱导免疫持续时间与年龄呈负相关，则该结论不成立。
基于宏转录组学的疾病风险评分作为预防、诊断和治疗支持工具	Hu, L.	2026-06-06	PDF	背景：慢性疾病及症状综合征常由长期生物学变化发展而来，这些变化可能早于正式诊断。基于RNA的宏转录组学可捕获活跃的微生物和人类基因表达，为疾病风险评估提供功能层面的信息。为弥合这一转化缺口，我们开发并验证了疾病风险评分（DRS）框架，该框架整合了粪便、唾液和血液样本中宏转录组衍生的通路活性评分，并评估其作为辅助风险评估工具的潜在临床实用性。方法：DRS使用疾病特异性通路活性评分集，这些评分源自粪便和唾液微生物功能、粪便和唾液微生物分类群以及血液人类基因表达。针对每种疾病，通过评分水平比值比、统计显著性及文献支持的生物学相关性，将“非最优”通路评分汇总为标准化累积比值比（cOR），该过程基于由22,369名个体组成的开发队列。cOR≥5定义为高风险。在由15,908名个体组成的独立验证队列中，以自我报告疾病为参照评估性能。疾病支持需同时满足自我报告与未报告组间cOR显著分离（Cohen's d≥0.2）以及高风险个体中自我报告疾病的风险比富集（风险比95%置信区间>1）。结果：在初始评估的20种疾病中，15种在独立验证队列中达到预设验证标准：注意缺陷多动障碍、焦虑症、慢性疲劳综合征、抑郁症、胃食管反流病、高血压、炎症性肠病、腹泻型肠易激综合征、便秘型肠易激综合征、失眠症、代谢相关脂肪性肝病、肥胖症、阻塞性睡眠呼吸暂停、干燥综合征及2型糖尿病。五个临床场景示例展示了DRS如何辅助临床决策，包括肠易激综合征亚型重新分类、改善腹泻型肠易激综合征诊断接受度、代谢相关脂肪性肝病及早期2型糖尿病的个性化生活方式指导，以及非典型胃食管反流病的诊断不确定性。结论：DRS是基于宏转录组学的风险分层框架，可将活跃的微生物和人类通路信号整合为可解释的疾病特异性风险估计值，覆盖多种疾病状态。在独立队列中针对自我报告疾病标签的验证显示，15种疾病均存在显著风险富集。DRS旨在作为临床评估的辅助工具：在常规诊疗面临不确定性、延迟或患者参与度低的情况下提供决策支持。未来需开展使用临床判定终点的前瞻性研究以评估校准效果及临床结局。
左旋多巴治疗对伴有轻度帕金森体征的老年人步态的影响	Pongmala, C.	2026-06-06	PDF	背景伴有轻度帕金森征象（MPS）的老年人步态缓慢是一种复杂的多因素现象，源于亚临床年龄相关病理的累积负担。这种衰退反映了多巴胺能系统中与年龄相关的神经元损失。近期一项研究表明，左旋多巴治疗可能改善步态参数。本小型初步研究旨在探索左旋多巴治疗对伴有MPS的老年人步态缓慢的影响。方法本研究是一项随机、安慰剂对照的临床初步试验。招募无临床帕金森病证据的步态缓慢老年人，并随机分为两组（活性治疗组或安慰剂对照组）。活性组参与者先接受卡比多巴预处理三天，随后接受卡比多巴-左旋多巴治疗七天。在基线及干预后评估时空步态参数。结果步态因子分析识别出三个主要因子，解释了基线时的步态特征，包括步态效率、步态节律性和步态转向。安慰剂组未观察到治疗效应（p=0.111，p=0.616），安慰剂组与活性组在基线时无组间差异（β=0.310，p=0.547），但活性治疗组显示出治疗相关增加的强烈趋势（β=0.506，p=0.076）。结论我们的初步数据表明，在伴有MPS的步态缓慢老年人中，持续一周的左旋多巴治疗联合卡比多巴预处理及伴随卡比多巴补充是可行的。此外，数据提示潜在疗效，显示步频和步幅持续时间有所改善。
基于MIMIC-IV-WDB v0.1.0中三种光电容积描记法衍生微血管反应性信号的AI辅助可行性评估	Landry, T. C.	2026-06-06	PDF	背景。毛细血管再充盈时间是一项依赖检查者的床旁远端微循环灌注评估指标，已成为脓毒性休克的复苏目标[1,2,3,4]，这促使研究者从光电容积描记图（PPG，即每例ICU患者监护仪已记录的光学波形）中计算连续替代指标[5,6,7,8]。目的。我们尝试在MIMIC-IV波形数据库（MIMIC-IV-WDB v0.1.0）中提取三种基于PPG的候选指标，并通过检查随机抽取的样本，在开展下游建模前验证各指标是否反映其预期生理学意义。方法。将MIMIC-IV-WDB v0.1.0[9]与MIMIC-IV[10]关联。信号包括：袖带锚定的灌注指数恢复（袖带与探头同侧肢体时的反应性充血）、灌注指数的慢速Mayer波频带功率比（交感血管舒缩张力）、以及每搏舒张期指数衰减时间常数（类似再充盈的恢复时间）。对每个信号，我们以固定随机种子抽取10个随机样本，并对照预先设定的检查表进行验证。由作者及本地运行的多模态医学语言模型MedGemma 1.5分别判读。通过已知时间常数的合成测试验证第三个信号。结果。袖带锚定信号在19例患者中15例的6236个可评估袖带周期中，268个周期（4.30%）呈现预期的闭塞-再灌注形态，这与探头和袖带置于对侧肢体的操作一致。慢速频带比呈现稳定的队列数值，但仅4/10的随机窗口出现清晰的稳态峰值。每搏拟合在10/10的心搏中达到拟合优度阈值，但心搏频率启发式算法提示7/10的心搏可能存在心率振荡拟合，且在17例患者中5例的时间常数处于指数曲线与直线无法区分的区间。0.5Hz高通预滤波器植入约318毫秒的固有时间常数，与真实值无关。语言模型在明确阳性样本中与人类判读一致，但每次调用均报告"模式存在"，从未报告"模式缺失"。结论。三个候选信号中有两个在多数样本中未能反映预期生理学意义，第三个受限于传感器放置位置。在基于PPG的微循环信号下游推断前，通过预先设定的检查表随机检查原始输入是一种低成本的上游验证方法。
从负担图表到工作流信号：ICU复杂性与长期住院风险的文档密度指标回顾性验证	Collier, A.	2026-06-06	PDF	背景电子健康记录文档记录模式可能反映重症监护环境中的工作流程复杂性、监测强度及运营压力。然而，文档衍生特征可能对本地文档记录文化、数据采集系统及结局定义敏感。因此，在将这些信号用于工作流智能或临床人工智能治理工具前，需进行跨数据集回顾性验证。目的评估文档密度与文档时间特征是否能在去标识化重症监护数据集中，对ICU工作流复杂性与长期住院代理结局展现出可复现的回顾性信号，同时区分工作流与长期住院关联性，避免对死亡率预测、负担减轻或部署就绪性提出无依据的主张。方法我们综合了通过预设文档密度验证项目生成的去标识化ICU及工作流数据集的回顾性验证结果。特征族包括文档负担评分风格特征、班次末文档记录率风格特征、文档可靠性风格元数据及可用时的全文档特征集。结局包括ICU长期住院代理指标、可用时的死亡率及工作流代理终点。模型对比了基线特征集与包含文档密度或工作流特征的增强模型。性能通过受试者工作特征曲线下面积、报告时的布里尔分数、AUROC差值、报告时的自助法置信区间及可用时的标签洗牌对照进行总结。结果最强的外部长期住院代理证据来自NWICU图表事件分析，包含28,612次ICU住院、20,267次有图表事件的住院及9,619,759个图表事件。对于ICU住院时间大于中位数的情况，基线AUROC为0.5252。增强AUROC在文档负担评分特征中为0.9512，班次末文档记录率特征中为0.9214，文档可靠性风格特征中为0.8470，全文档特征中为0.9517。对应的标签洗牌增强AUROC接近随机，范围从0.4897到0.5064。对于ICU住院时间大于第75百分位数的情况，基线AUROC为0.5155。增强AUROC在文档负担评分特征中为0.9433，班次末文档记录率特征中为0.9194，文档可靠性风格特征中为0.8118，全文档特征中为0.9427，标签洗牌增强AUROC范围从0.4836到0.4999。在eICU工作流分析、HiRID首24小时文档密度分析、MIMIC-IV HF ICU内部分析、MIMIC-IV-Note元数据扩展及护理图表或实验室密度代理分析中观察到额外回顾性支持。然而，未经重新校准的跨机构判别迁移能力较弱，且多项分析仍为代理验证而非最终临床验证。结论文档密度与文档时间特征在ICU工作流复杂性与长期住院代理结局方面展现出有前景的回顾性信号，尤其在NWICU图表事件及特定内部数据集分析中。这些发现支持进一步预先注册的前瞻性静默模式验证文档衍生工作流智能。它们并未确立前瞻性临床性能、死亡率降低、临床医生负担减轻、自主恶化预测或部署就绪性。
BodyMAE：一种面向体表面积感知的掩码自编码器，用于从3D人体扫描中估计身体成分	Zheng, Y.	2026-06-06	PDF	准确评估身体成分对于代谢、肌肉骨骼及衰老相关疾病的风险分层和管理至关重要，但双能X射线吸收测定法（DXA）等参考方法成本高昂且不便于频繁监测。商用3D身体扫描提供了一种低成本、无辐射的替代方案，但由于点密度不均匀、体型差异大以及设备间差异，从扫描中提取有意义的预测性形状特征仍具挑战性。我们提出BodyMAE，一种面向公制尺度3D身体扫描的自监督、表面积感知掩码自编码器。该流程整合了面积调整采样、长距离聚焦编码器以及轻量级解码器（通过正则化促进局部均匀重建）。在917对配对3D身体扫描与临床DXA报告的训练和评估中，BodyMAE在体脂率（均方根误差3.825个百分点，R² 0.908）、脂肪量（均方根误差3.694千克，R² 0.968）和瘦体重（均方根误差3.608千克，R² 0.901）上实现了高精度，在骨矿物质含量（均方根误差0.284千克，R² 0.754）上表现具有竞争力。我们还评估了预训练基线间的特征稳定性，发现我们的表示具有更高的检索准确率（Top-1 90.131%）。这些结果表明，结合公制感知采样、长距离关系编码和局部几何正则化，能够从3D身体扫描中准确估计身体成分，并通过与DXA测量值的比较得到验证。
超越注入检测：一种正向安全提示防火墙，可弥补医疗领域SOTA分类器遗漏的范围和PHI缺口	Schwoebel, J.	2026-06-06	PDF	嵌入自主智能体的大语言模型在同一上下文窗口中处理可信指令与不可信数据，使其面临直接和间接提示注入攻击。在医疗领域这并非假设：2025年《JAMA Network Open》研究发现，商业医疗大语言模型在94.4%的模拟患者交互中遵循了注入指令，包括危及生命的建议。但我们在此量化的临床决定性问题是不同的。大多数真实临床威胁——受保护健康信息（PHI）外泄、跨患者访问、批量导出、超出范围建议——都是流畅、合法的请求，不携带任何攻击信号，因此即使最先进的注入检测器也会放过它们。现有运行时防护栏在安全性与延迟之间权衡：基于模型的审计器准确但增加数百毫秒的Python推理时间，而词法过滤器快速但对混淆或语义伪装的有效载荷视而不见。我们提出QFIRE，一个内联、供应商无关的提示防火墙，实现为单一自包含的Rust工具链代理、CLI和基准测试工具。QFIRE结合三种机制：(i) 正向安全范围约束，将模型调用限制在声明的自然语言目的内，并阻止超出范围的漂移，即使没有明显的攻击令牌；(ii) 异步检测器图，并行运行N条规则及其检测节点，最便宜的检查优先；(iii) 反混淆处理，在检测前解码Base64、十六进制、ROT13，折叠同形字和Leetspeak，并剥离零宽字符。QFIRE附带106条版本化的防火墙规则和专用的HIPAA安全港18标识符PHI面板，并通过嵌入式ONNX Runtime运行本地DeBERTa v3注入分类器。在1968个公开提示注入和越狱提示上，QFIRE的确定性混合方法达到F1 0.86，与Meta最先进的PromptGuard 2的0.86统计持平，高于protectai DeBERTa v3的0.83；词法基线落后0.16至0.50。我们的核心结果在QFIRE HealthBench上，这是一个我们构建并发布的新2000提示医疗基准，包含真实的garak和Microsoft PyRIT有效载荷。在那里，相同的PromptGuard-2仅恢复0.40召回率，DeBERTa v3为0.57，因为大多数临床威胁不携带注入信号；QFIRE的组合范围加PHI链在0.08校准假阳性率下达到0.83召回率和F1 0.87。因此，通用注入检测（即使是最先进的）对于医疗智能体是必要但不充分的。裸大语言模型评判器也缩小了大部分静态语料库差距（F1 0.90）；QFIRE在静态准确性之外的贡献是可审计的确定性、有界延迟和自适应鲁棒性，而裸评判器在5.5节中降至34%至59%的召回率。端到端地，将QFIRE放置在模拟EHR沙箱上使用工具的智能体前，可将智能体的有害动作率从0.38降至0.00，同时带来0.13的良性效用成本。所有代码、规则、语料库快照和脚本均已发布，每个表格均可通过单个make paper目标针对本地模型重新生成，无需付费API密钥。