| 一种基于临床理论驱动的可解释自闭症严重程度预测深度学习模型 |
Hu, X. |
2026-06-04 |
PDF |
自闭症谱系障碍(ASD)影响着全球相当比例的儿童,但症状严重程度的临床评估仍存在资源密集且可及性不均的问题。人工智能(AI)具有变革性潜力,能够通过行为数据实现可扩展且及时的严重程度评估,但现有方法大多将自闭症视为单一预测目标,并依赖临床医生难以解读或信任的黑箱模型。此外,以往的多模态方法通常采用缺乏临床理论依据的临时融合策略整合异质性行为信号。我们提出一种基于临床理论驱动的深度学习模型,用于可解释的自闭症严重程度评估,该模型将既定临床构念明确转化为模型设计。基于自闭症研究,我们将社会构念和运动构念表征为不同的潜在成分。这些成分通过结构化跨模态注意力机制进行整合,该机制由可学习的对齐掩码引导,编码视觉与运动表征之间的软空间对应先验。随后,理论特定模块将对齐后的标记聚合为构念嵌入,并通过实例特定的理论权重进行融合,生成符合临床推理的透明症状特征。综合实验表明,我们的模型在现有基线方法中达到了最优性能。消融研究验证了性能提升源于理论驱动的设计选择。对学习到的理论权重的分析揭示了症状特征与严重程度之间的系统性关系,为自闭症的多维结构提供了实证支持。本研究展示了如何将临床理论实例化为深度学习模型中可经验验证的架构设计,从而提升医疗AI系统的预测效用与可解释性。 |
| CAIDE评分、大脑结构及中老年人认知功能:一项基于KoGES人群的研究。 |
Shin, G. |
2026-06-04 |
PDF |
背景 尽管CAIDE(心血管风险因素、衰老与痴呆)评分可预测20年痴呆风险,但既往研究多聚焦于整体或综合认知功能指标。其中仅少数研究涉及认知功能与结构性神经影像标志物,且现有结构性神经影像证据主要来自子样本或高度选择的小型队列,而非基于人群的完整队列。因此,我们不仅探究了CAIDE评分与认知表现之间的关联,还进一步分析了结构性神经影像标志物在中老年人群中的中介作用。 方法 在基线时拥有结构性磁共振成像(MRI)数据的2864名参与者中,我们排除了230名基线患有神经及心血管疾病的参与者。此外,进一步剔除209名缺乏暴露因素、协变量及认知评估数据的参与者,最终纳入2425名参与者进行分析。CAIDE评分基于中年期血管风险因素计算。根据总分三分位数分布,将参与者分为低、中、高风险组。原始CAIDE评分(不含APOE4)的三分位截断值为<6分、6-7分、>7分。在纳入APOE4状态的敏感性分析中,重新计算截断值以维持三分位分组,低、中、高风险组截断值分别为<7分、7-8分、>8分。主要结局指标为神经心理学评估量表,包括故事回忆、视觉再现、言语流畅性、连线测试、数字符号编码及斯特鲁普测试。 结果 在2425名健康参与者中(平均年龄58.5±6.5岁;男性1189人,占49.0%),CAIDE评分较高组在所有认知领域的表现均较差。与低风险组相比,高风险组在全部12项认知评估中的平均校正z评分显著更低(均p<0.001)。中风险组除视觉再现识别及言语流畅性分类测试外,其余测试的平均校正z评分亦较低。 解释 这项大规模人群研究表明,与最低风险组相比,最高CAIDE风险组在所有认知领域的表现均独立相关,提示管理这些特征对维持中老年人神经健康具有潜在重要性。 |
| 标题:基于聊天的数字初级保健诊所在公共资助医疗体系中的覆盖范围、使用情况及用户特征:一项基于芬兰登记数据的观察性研究 |
Dahlberg, A. |
2026-06-04 |
PDF |
背景:基于聊天的数字诊所正逐步融入公共初级医疗服务。本研究评估了芬兰派亚特海梅地区Harjun terveys机构整合的24/7全天候聊天式数字诊所。方法:采用2019年至2025年间记录的2,796,976次初级医疗就诊数据,分析数字诊所引入后的诊疗模式变化。结果:初级医疗覆盖率从2019年的36.5%降至2020年的32.1%(与疫情相关的服务抑制相符),随后自2022年起稳定在40%-43%区间(2025年为40.7%)。每千名居民就诊量从2020年的972次增至2025年的1,568次。数字就诊占初级医疗总接触量的比例从2021年的19.6%升至2025年的29.8%。数字用户年龄显著更年轻(平均年龄33.5岁 vs. 52.5岁;P<.001),未调整合并症患病率更低(CCI [≥]1:12.8% vs. 25.6%)。在2023-2025年各年度中,数字用户合并症的调整后比值比均低于传统用户(OR范围0.87-0.90;均P<.001)。常见医师级诊断包括结膜炎、急性膀胱炎和处方续开。护士咨询后,18.0%的患者被升级至同日医师诊疗;排除预约定诊后,16.8%在14天内、23.4%在30天内发生后续接触。结论:研究期间,随着数字诊所的引入,初级医疗覆盖率与数字就诊占比同步上升。多数轻症急性病例由护士层级处理且无记录随访:约60%的诊疗路径在数字渠道内终结,其余则转为面对面、电话或其他就诊方式。 |
| 使用子集成贡献分析评估2024-25年冬季英格兰短期多目标呼吸道预测 |
Kennedy, J. C. |
2026-06-04 |
PDF |
背景 流行病预测研究常使用概率评分规则评估集成模型及其组成模型。量化单个模型对集成模型性能的影响具有挑战性,尤其是在多目标和空间尺度下。 方法 我们展示了英格兰2024-25年冬季流感和COVID-19住院人数的预测,并利用运行中的组成模型进行了回顾性模拟。预测采用人均加权区间分数(pcWIS)对计数进行评分,采用排序概率分数(RPS)对有序趋势方向进行评分。我们比较了运行中的回顾性预测,使用广义加性模型(GAMs)估计在子集成(由可用模型子集形成的集成)中包含某个模型时分数的预期变化,并利用帕累托分析确定哪些子集成在评分规则上达到帕累托最优。 结果 在全国范围内,流感pcWIS相比子集成提高了47%。然而,按RPS衡量,流感运行集成平均比子集成差22%。对于COVID-19,运行集成在pcWIS和RPS上分别平均比回顾性子集成差43%和280%。但COVID-19运行集成在pcWIS和RPS上分别平均比单个运行模型好2%和13%。对于流感,运行集成在pcWIS和RPS上分别平均比单个模型好58%和41%。子集成模拟显示,单个模型在不同疫情阶段对集成产生影响。帕累托分析表明,相对方向与绝对计数分数优化之间可能存在权衡。 解释 我们的分析表明,英国卫生安全局的预测与观测结果校准良好,且性能常与最优集成相当。GAM和帕累托分析为未来集成的模型选择提供了依据。 |
| 重症监护室中药师药物管理的优化与死亡率 |
Smith, S. E. |
2026-06-04 |
PDF |
理由:不当处方、适当治疗延迟以及药物不良事件导致的药物相关发病率是ICU患者死亡的原因之一。综合药物管理(CMM)是由药师与跨专业团队协作提供的护理标准。通过药师与患者比例优化ICU药师工作量,同时确保每日CMM,可能降低死亡率。目的:本研究探讨了ICU药师配置(以药师与患者比例和综合药物管理缺失衡量)是否与危重成人患者的院内死亡率相关。方法:来自64个中心(美国、约旦和沙特阿拉伯)的ICU成年患者被纳入一项多中心观察性研究,该研究收集了2023年8月至2025年1月的患者和团队配置数据。主要结局是院内死亡率。主要暴露因素是ICU住院期间平均的患者层面药师与患者比例。次要暴露因素是至少1天缺乏CMM。使用多变量广义估计方程(GEE)评估与院内死亡率的关联,考虑中心聚类效应,并调整患者、ICU和医院层面的协变量。测量与主要结果:纳入的28,795名患者的中位药师与患者比例为1:17(四分位距13-23)。药师与患者比例每增加1名患者,死亡几率增加1%(比值比1.01,95%置信区间1.00-1.01,p=0.04)。缺乏药师CMM 1天的患者死亡风险增加20%(比值比1.20,95%置信区间1.03-1.40,p=0.02)。与1:16-46的比例相比,1:7-15的药师与患者比例与较低的院内死亡几率相关(比值比1.10,95%置信区间1.00-1.22)。结论:药师与患者比例增加以及每日缺乏药师CMM均与院内死亡风险增加相关。 |
| 大型语言模型在医疗模拟教育中的应用:基于AI辅助筛选的文献计量分析 |
Pears, M. |
2026-06-04 |
PDF |
诸如ChatGPT等大型语言模型正迅速重塑医疗教育与非技术技能模拟培训,但尚无文献计量学分析对此领域进行系统梳理。我们检索了七个开放获取数据库(OpenAlex、PubMed、Europe PMC、Crossref、Semantic Scholar、CORE、DOAJ),纳入2020年1月至2026年3月间的英文文献。从100,277条初始记录出发,通过顺序关键词漏斗筛选出830篇候选论文,由83个独立的Claude Sonnet 4.6 AI智能体依据预设纳入标准进行筛选(符合PRISMA-trAIce规范;调和前Cohen's kappa=0.86,调和后为1.0)。最终经AI验证的语料库包含551篇论文,复合年增长率达109%,涉及58个国家279种期刊的2,398位作者,h指数为41。ChatGPT主导模型生态(占论文46%),开源模型几乎缺席。虚拟患者聊天机器人为主要模拟形式(106篇论文)。在非技术技能领域中,沟通(145篇)与决策制定(135篇)研究最多,而团队协作、领导力、情境意识及危机资源管理显著不足。仅识别出6篇泌尿外科相关论文,且无任何研究探讨大型语言模型在集训式培训中的整合应用。该领域虽以惊人速度发展,但仍集中于狭窄的非技术技能范畴与单一专有模型。团队技能训练、开源模型评估及专科模拟培训方面存在关键空白。采用多独立智能体的AI辅助文献计量筛选方法可行、可靠且可扩展,为快速演进研究领域的图谱绘制提供了可复现方法论。 |
| 理解人类与AI在乳腺癌TIL评估中的差异:一项多评估者与感知偏差研究 |
Capar, A. |
2026-06-04 |
PDF |
目的:乳腺癌中的肿瘤浸润淋巴细胞(TILs)是肿瘤微环境中免疫反应最重要的指标之一,在三阴性和HER2阳性亚型中具有显著的预后和预测作用。然而,病理学家在TIL评分中存在较大的观察者间差异,这限制了其在临床实践中的可靠性。本研究旨在评估人工智能(AI)模型与病理学家在TIL评分中的一致性,并通过不同统计方法比较这种一致性,从而评估AI整合到病理实践中的潜力。材料与方法:研究纳入乳腺癌病例的数字组织病理学图像。由病理学家标注的肿瘤区域,分别评估每个感兴趣区域(ROI)内的间质TIL百分比和间质肿瘤面积比例,评估由三位病理学家和两个AI模型独立完成。评估了病理学家之间、病理学家与AI之间以及AI模型之间的一致性。统计分析包括组内相关系数(ICC)、Cohen和Fleiss kappa、相关性检验以及Bland-Altman分析。此外,使用不同截断值检查了分类一致性。结果:病理学家间一致性较高,ICC为0.81。相比之下,病理学家与AI模型之间的总体一致性较低(ICC 0.41)。病理学家-AI一致性的成对比较显示ICC值显著降低(0.12-0.21),但当三位病理学家与单个AI模型联合评估时,ICC提高至0.53。分类一致性最强的是二分类TIL评分(≤10% vs. >10%),而多分类则与kappa值显著降低相关。病理学家与AI模型之间的Spearman相关系数范围为中等至良好(ρ = 0.48-0.81)。两个AI模型之间的一致性为中等,ICC为0.64。 |
| 塞拉利昂低资源新生儿科实施成人学习式新生儿医学课程提升知识水平 |
Mvula, M. |
2026-06-04 |
PDF |
背景 塞拉利昂的新生儿死亡率位居世界前列。科伊杜政府医院于2020年开设了特殊婴儿护理单元(SCBU)。为提升SCBU医护人员(HCPs)的知识水平,实施了一套新生儿课程,以促进医护人员对新生儿疾病管理的教育。本研究旨在了解该课程对知识获取的影响,以及参与医护人员对教学方法的看法。方法 美国导师在2024年10月至2025年4月期间,主导了一个两阶段、翻转课堂式的虚拟新生儿医学课程,随后与SCBU医护人员进行了一周的面对面教育。每个阶段,参与者完成课前和课后教育评估。课程结束后,他们完成主观评估,以了解对课程中整合的教学方法质量的看法。采用Wilcoxon符号秩检验评估课前与课后的变化,使用描述性统计分析主观评估结果。结果 38名参与者完成了教育评估,其中30人(79%)参加了全部四次课前和课后测试;25/38人(65.8%)为女性,27人(71.1%)为护士。两个阶段中,个体学习者的中位正确答案数从课前到课后均有提高[第一阶段:课前14/27(51.9%),课后23/27(85.2%),p<0.001;第二阶段:课前14/25(56.0%),课后23/25(92.0%),p<0.001]。31名参与者完成了主观评估,其中96.8%(30/31)认为该课程“非常有效”。所有31名参与者均表示面对面教学“非常有帮助”。通过开放式文本回答,他们提供了关于挑战、优势及下一步行动的宝贵见解。结论 该新生儿课程显著提升了知识水平,并受到高度评价。调整该课程或类似课程,有望改善资源匮乏地区小婴儿和/或患病新生儿的护理质量。 |
| 不要停止心脏跳动:大型语言模型与钾剂量管理的性能分析 |
Blotske, K. |
2026-06-04 |
PDF |
背景:电解质替代治疗在急症监护中普遍存在,但钾离子即使微小剂量错误也可能引发致命性心律失常,这一熟悉性不能掩盖其风险。近期MedAgentBench为智能体人工智能(AI)提供了基准测试,包括基于单一规则正确计算钾剂量的能力;然而,这未能充分反映临床复杂性或曾用于致命注射的智能体所涉及的安全问题。本分析旨在评估排行榜大语言模型(LLM)在遵循基础剂量规则、安全实施钾替代治疗方面的能力,基于一系列临床医生标注的病例。方法:通过临床医生小组,我们制定了一系列剂量原则和20个反映钾替代治疗复杂性的临床病例。对外部临床医生进行问卷调查,评估实践差异及与临床医生小组答案的一致性。我们使用GPT-5-chat对每个病例进行三次测试,分别在有和无临床医生制定的剂量原则条件下,并提示模型回答六个问题,涉及钾目标、剂量、给药途径、实验室检查频率、联合干预措施,以及模型对输出和病例复杂性的感知置信度。主要结局是与临床医生答案相比的适当建议率。结果:共54名临床医生审阅了20例低钾血症病例及低钾血症剂量指南。当被问及是否同意指南推荐的管理方案时,临床医生对66.8%的评估病例表示“高度同意”或“部分同意”。在提供钾剂量指南后,总错误数从165降至104,GPT-5-Chat的平均准确率从45%提升至65%。GPT-5-Chat对100%的回复表达了高置信度,同时分别将80%(有标准)和76%(无标准)的病例标记为高度复杂。两组均存在显著潜在伤害评分,但剂量指导文件使严重程度评分显著降低。两组中联合干预措施和剂量建议的错误率最高。结论:基准测试必须恰当反映临床复杂性,才能被视为在医疗领域部署智能体人工智能工具有价值。GPT-5-Chat在钾替代治疗综合药物管理任务中的评估显示,剂量指导可改善表现,但基准测试性能仍不达标。 |
| 在疫情扩散情景下,本迪布焦埃博拉病毒病输入欧洲的风险模式变化 |
Fanelli, F. |
2026-06-04 |
PDF |
2026年刚果民主共和国东部爆发的本迪布焦埃博拉疫情已出现国际传播至乌干达的情况,引发对区域及国际进一步扩散的担忧。我们利用国际航空运输协会的始发地-目的地客流量数据,评估了六种反映地理传播合理路径的疫情扩散情景下欧洲输入埃博拉病毒病的相对暴露风险,包括跨境传播及在高度互联的区域首都城市中的疫情放大效应。在刚果民主共和国东部局部传播及边境溢出情景下,相对暴露模式基本保持不变。疫情扩散至南苏丹后,通过朱巴的连通性首次导致欧洲输入压力结构性上升;而坎帕拉、基加利及金沙萨的假设性疫情放大则显著增加了输入压力,并重塑了欧洲各国的暴露模式。在所有情景中,法国、意大利及英国始终位列暴露风险最高的国家。基于人口流动的情景分析可为疫情地理演变过程中的防范工作提供支持。 |