2026-06-04 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

抓取失败：Page request resulted in HTTP 429 (https://export.arxiv.org/api/query?search_query=cat%3Acs.NE+OR+cat%3Acs.MA+OR+cat%3Acs.LG+OR+cat%3Acs.CV+OR+cat%3Acs.CL+OR+cat%3Acs.AI+OR+cat%3Astat.ML+OR+cat%3Aq-bio.BM+OR+cat%3Aq-bio.CB+OR+cat%3Aq-bio.GN+OR+cat%3Aq-bio.MN+OR+all%3A%22large+language+model%22+OR+all%3A%22large+language+models%22+OR+all%3ALLM+OR+all%3ALLMs+OR+all%3A%22foundation+model%22+OR+all%3A%22foundation+models%22+OR+all%3A%22generative+AI%22+OR+all%3A%22mixture+of+experts%22+OR+all%3A%...

bioRxiv

标题	作者	发布日期	PDF链接	摘要
多模态脑测量与精神病理学领域之间的独特关联可预测青少年功能表现。	Ramduny, J.	2026-06-04	PDF	青少年精神病理学部分源于关键神经网络中可测量的异常，但该领域仍缺乏对这些脑-行为关联的综合多模态理解。本研究考察了皮质-纹状体、皮质-边缘和执行控制网络的结构、微观结构和功能指标如何与精神病理学领域相关，并探索了这些关联如何预测未来的社会心理功能。我们使用了青少年脑认知发展研究（n=5,408）的数据，通过正则化典型相关分析，识别了13-14岁青少年脑测量指标与精神病理学领域之间的不同共变模式。由此产生的典型脑评分和精神病理学评分被用于预测一年后的学业相关障碍。首先，三个网络中较高的扩散率和奖励任务期间激活降低，以及较低的皮质-纹状体表面积，与更广泛的精神病理学相关。其次，较低的皮质-边缘扩散率、执行控制体积和表面积、三个网络的皮质厚度，以及较高的皮质-纹状体和皮质-边缘体积，与更高的焦虑水平相关，但与外化行为呈负相关。对于第一种模式，较高的精神病理学评分预测一年后更严重的学业相关障碍。对于第二种模式，较高的脑评分和精神病理学评分预测一年后较少的学业相关障碍。识别特定神经测量指标如何与精神病理学领域对应，以及两者如何预测现实世界功能，推进了青少年心理健康的理论构建。该方法阐明了哪些分析层面提供了关于青少年功能的独特或共享信息，并突出了可能为未来干预目标提供依据的潜在机制。
在配对结合过程中，听觉与整合环路中社会性识别的涌现	Wall, E. M.	2026-06-04	PDF	社会关系深刻影响对通信信号的感知。在形成长期社会纽带的动物中，声音、气味或外貌等感官线索以及有奖赏性的交配经历会与配偶产生关联。尽管这一自然过程具有某些联想学习形式的特征，但关于这些经历如何在配偶结合过程中塑造神经回路，目前仍知之甚少。我们利用雌性鸣禽的全脑BOLD功能磁共振成像，探究了经验依赖性的神经活动变化对雄性歌声的反应。配偶结合经历驱动了次级听觉区域以及两个接收感官输入并连接行为反应回路的调控中枢对配偶歌声的激活变化。相比之下，仅暴露于邻近配偶的声音互动并未导致相同区域对邻居歌声的反应变化，这表明配偶结合独特地影响了特定感觉与整合回路中对熟悉歌声的听觉反应。此外，在配偶结合过程中对配偶歌声激活增强的区域，阻断D1多巴胺受体后，对配偶歌声的激活反应减弱，提示多巴胺可能在配偶歌声偏好的表达或维持中发挥作用。偷听雌鸟对熟悉歌声的神经激活变化出现在另一组不受多巴胺调控影响的脑区。我们的数据识别出一个潜在回路，其中感觉、奖赏和调控中枢的同步激活整合了社会互动的多感官信息，从而引发声音偏好并形成持久的社会纽带。
在Batten病的Cln3小鼠模型中，不同的听觉丘脑皮质病理学基础导致了新出现的神经生理功能障碍。	Ding, Y.	2026-06-04	PDF	CLN3病是神经元蜡样脂褐质沉积症（NCLs）中最常见的类型，会导致人类进行性认知衰退和语言障碍。其病理标志是CLN3基因突变导致神经元溶酶体内储存物质异常堆积。我们此前发现，CLN3病患者和Cln3-/-小鼠均存在听觉持续时间失匹配负波（MMN）的平行缺陷——MMN是基于脑电图（EEG）的听觉变化检测标记。MMN依赖的听觉变化检测依赖于感觉记忆比较机制，但CLN3病中该反应的解剖学和神经生理学基础尚不明确。本研究通过整合溶酶体储存病理的免疫组化定位（使用线粒体ATP合酶亚基C（SCMAS）作为经典标记）与听觉诱发电位（AEP）的EEG分析，探究了Cln3-/-小鼠的中枢听觉功能障碍。神经病理学分析显示，在听觉丘脑皮层环路（包括兴奋性听觉丘脑、抑制性丘脑网状核和初级听觉皮层）中，SCMAS呈现年龄依赖性和性别差异性积累。与此同时，与野生型对照相比，Cln3-/-小鼠的AEP表现出年龄和性别依赖性改变。重要的是，听觉丘脑皮层SCMAS积累的综合指标可解释AEP反应中年龄和性别匹配变异的大部分，其中对早期N1成分的关联强度高于晚期MMN成分。这些发现将年龄依赖性和性别差异性的听觉神经生理缺陷与Cln3-/-小鼠模型中听觉丘脑皮层环路区域特异性溶酶体储存病理联系起来。这一整合的功能-解剖框架揭示了环路易损性机制，并为CLN3病转化性神经生理生物标志物的开发提供了依据。
发育过程中听觉和体感皮层映射的头皮OPM-MEG与低温MEG的测量等价性	Gaetz, W.	2026-06-04	PDF	可穿戴光泵磁力计脑磁图（OPM-MEG）相比传统低温超导量子干涉仪脑磁图（SQUID-MEG）缩短了传感器到皮层距离，但两种技术能否得出等效的神经生理学结论尚不明确。我们使用128通道FieldLine HEDscan OPM-MEG系统和275通道CTF SQUID-MEG系统，对18名参与者（10-45岁）进行了听觉和体感诱发场记录。采用相同的预处理和建模流程估算等效电流偶极子源模型，并通过配对置换检验进行比较。两种系统均定位了典型的听觉和体感皮层发生器，具有匹配的峰值潜伏期和适度的跨系统空间差异。听觉源在SQUID-MEG定位中呈现一致的内侧偏倚，而体感源表现出约4毫米的系统性偏移，表明存在稳定的坐标差异而非定位误差。SQUID-MEG的偶极矩更大，OPM-MEG的拟合优度更高；但偶极矩增大可由内侧定位偏倚解释，体现逆模型效应而非生理差异。听觉偶极矩在两种系统中均随年龄增长而增大，而体感反应未显示年龄相关变化。综合结果表明跨平台保留了发育生理学特征。这些发现证实OPM-MEG与SQUID-MEG可恢复相同的皮层发生器，尽管存在可预测的几何依赖坐标差异，仍支持等效的生物学解释。因此OPM-MEG可作为适用于感觉功能映射的测量等效型脑磁图实现方案。
目标导向因果学习过程中认知价值的感知运动编码	Basanisi, R.	2026-06-04	PDF	理解目标导向因果学习背后的神经与计算机制，是认知神经科学和人工智能领域的核心挑战。这种认知功能依赖于在奖励最大化和信息寻求之间取得平衡。尽管在刻画奖励驱动学习的神经基础方面已取得显著进展，但大脑是否以及如何表征内在信息价值、并通过皮层间相互作用进行传播，仍不清楚。本研究采用新颖的行为范式，在无外在激励条件下让参与者估计动作-结果偶然性，从而在目标导向因果学习过程中将信息寻求与奖励最大化分离开来。贝叶斯计算建模显示，虽然随机探索主导行为，但在部分实验组中，预期信息增益（EIG）解释了相当比例的探索性选择。通过结合脑磁图与高伽马活动的信息论分析，我们发现EIG在执行动作时编码于左侧感觉运动皮层，具体位于背侧前运动皮层和初级运动皮层，并传递至初级躯体感觉皮层。这些发现与主动推理的预测一致，即EIG构成探索性动作选择的关键计算驱动力。然而，它们挑战了认知价值评估专属前额叶奖励回路的观点，转而支持具身化解释：前运动与感觉运动系统在第一人称干预性因果学习过程中介导内在价值评估。
年轻猕猴腹侧中脑的多巴胺神经元以多路复用为主。	Kelly, E. A.	2026-06-04	PDF	多巴胺（DA）在多种基本行为中发挥重要作用，包括正负强化、激励显著性及决策制定。基于啮齿类动物模型的研究表明，这种行为多样性部分源于神经递质的多样性。为探究高等物种中多巴胺神经元的递质特性，我们选取5只年轻猕猴（3雄2雌，3-6岁），采用RNAscope原位杂交技术检测其中脑腹侧区酪氨酸羟化酶（TH）、囊泡谷氨酸转运体2（VGluT2）及谷氨酸脱羧酶1（GAD1）的mRNA表达，覆盖A10（VTA；'中线VTA'核团及臂旁核PBP）、A9（黑质致密部SNc）及A8（网状核RRF）亚区。随后对同批样本进行免疫细胞化学研究，推断mRNA与蛋白质的匹配程度。共发现7种mRNA表型，其中含TH-mRNA的细胞占神经元总数比例最高（符合预期）。令人意外的是，整体上多标记TH+神经元的比例远高于TH单标记神经元（TH-VGluT2占22%，TH-VGluT2-GAD1占23%，而TH单标记仅占19%）。GAD1 mRNA主要与VGluT2及TH mRNA共表达于"三重标记"细胞中。VGluT2 mRNA单标记神经元仅占总数的8%，GAD1 mRNA单标记神经元占20%。各细胞表型比例在A10-A9-A8亚区间相似。年轻猕猴的大多数多巴胺神经元含多种递质，表明所有亚区中快速突触传递与多巴胺能传递均具有重要作用。我们讨论了这些发现对高等灵长类发育及神经环路的意义。
Theta相位和Theta-伽马耦合组织口语语言网络	Akkad, H.	2026-06-04	PDF	言语产生需要跨分布式皮层网络快速协调概念和词汇加工过程，但实现这种协调的神经生理机制仍不清楚。振荡耦合被认为是协调跨空间尺度神经活动的候选机制。本研究采用全头脑磁图技术，在公开图片命名任务中检测相位耦合与相位-振幅耦合如何组织发音前的神经动态。我们发现θ频段（4-8 Hz）相位耦合在两个功能不同的网络中增强：支持物体识别的腹侧枕颞网络和支持语义词汇提取的内侧额颞网络。这两个网络在右侧梭状回的超随机水平汇聚，识别出潜在的整合枢纽。同时，全脑θ-γ（4-8 Hz, 40-100 Hz）相位-振幅耦合分析显示，相较于对照条件，图片命名时左侧额下回和梭状回的选择性增强。混合效应模型进一步表明，左侧梭状回的耦合与命名试次的反应时相关，但与对照试次无关。这些发现揭示了实现口语网络已知功能特化的振荡机制：θ相位耦合协调分布式识别与提取流，而θ-γ耦合调节核心词汇产生节点内的局部计算。通过定义实时言语产生的振荡框架，本研究推进了对口语网络机制的理解，并确定了语言产生障碍神经调控的频率与区域特异性靶点。
四足动物皮层分层发育的保守逻辑	Deryckere, A.	2026-06-04	PDF	大脑皮层是脑套的一部分，这一脑区在脊椎动物中保守存在，但其结构和细胞组成却高度多样化。大脑皮层的一个关键特征是其组织成神经元层，这些层具有独特的基因表达谱、输入-输出连接和功能。根据主流模型，大脑皮层在羊膜动物（哺乳动物和爬行动物）的祖先中出现，其源于脑套发育的创新，使得多种神经元类型及其层状组织得以产生。然而，关于两栖动物（羊膜动物的姐妹群）的脑套发育和结构知之甚少。本研究表明，在蝾螈Pleurodeles waltl中，背侧脑套组织成明显的浅层和深层，其神经元遵循哺乳动物皮层发生的细胞和分子原理发育。通过出生日期分析、基于条形码的谱系追踪和单细胞RNA测序，我们发现放射状胶质细胞的时间状态和中间祖细胞在物种间保守，而神经元分化轨迹则高度可进化。在不同发育时间点产生的神经元占据不同层，并表现出独特的分子和投射特性。因此，时间模式化的神经发生是分层脑套的古老组织原则，尽管哺乳动物沿径向轴呈现倒置的层序。这些发现共同表明，皮层分层背后的核心发育原则——包括时间模式化、中间祖细胞和层状组织——早于羊膜动物的起源。我们的研究结果表明，哺乳动物新皮层的进化扩展建立在早期四足动物中已存在的深层保守发育框架之上。
神经元蛋白水解途径的比较分析揭示了衰老过程中神经元特异性和亚区室特异性能力	Sleiman, M.	2026-06-04	PDF	蛋白质稳态对维持神经元功能至关重要，其失调是衰老和神经退行性疾病的标志。泛素-蛋白酶体系统（UPS）和巨自噬是负责蛋白质降解的两大主要蛋白水解途径。然而，这两种途径的容量和调控在不同细胞类型及衰老过程中存在差异。为阐明这两种蛋白水解途径随衰老的变化，我们对小鼠（Mus musculus）和秀丽隐杆线虫（Caenorhabditis elegans）神经元中不同亚细胞区室（胞质和突触末端）的UPS和巨自噬活性进行了比较分析。在小鼠中，我们的结果揭示了脑区间的差异：皮质中胞质和突触神经元亚区室的蛋白酶体活性均随衰老下降，而小脑的蛋白酶体活性仅胞质区室随衰老降低。在秀丽隐杆线虫中，我们检测到神经元胞质和突触区室的蛋白酶体活性均下降。有趣的是，我们观察到小鼠皮质和小脑的神经元亚区室以及秀丽隐杆线虫神经元中巨自噬均随衰老出现失调。因此，我们发现了衰老过程中神经元特异性和亚区室特异性的蛋白水解能力变化，这可能表现为衰老过程中神经元对蛋白毒性挑战的不同易感性。
SWARM解决了RNA修饰类型之间的纳米孔信号干扰，并揭示了剪接形成的假尿苷化。	Prodic, S.	2026-06-04	PDF	纳米孔直接RNA测序有望通过检测单个RNA分子上的多种修饰来解码表观转录组，但其高假阳性率阻碍了生物学发现的潜力。我们提出SWARM——一个基于人工智能的框架，旨在克服这一根本性限制。其关键创新在于采用交叉感知训练策略，整合非靶标修饰和经正交验证的细胞信号，从而在单核苷酸和单分子分辨率下实现m6A、假尿苷（Ψ）和m5C的高精度检测。通过严格的体外和细胞RNA基准测试，SWARM优于现有工具，并与正交方法保持高度一致性。将SWARM应用于哺乳动物组织，揭示了数千个具有已确认基序和定位模式的新修饰位点。我们高分辨率的多组织修饰图谱显示，在主要写入因子背景下未发现广泛的m6A-Ψ相互作用证据，这对协调性表观转录组编码模型提出了挑战。此外，我们发现了此前未被识别的剪接塑造型Ψ沉积模式：TRUB1介导的假尿苷化优先在外显子-外显子连接后发生，这与局部RNA结构稳定化一致。SWARM为表观转录组发现提供了稳健且普遍适用的工具。

medRxiv

标题	作者	发布日期	PDF链接	摘要
一种基于临床理论驱动的可解释自闭症严重程度预测深度学习模型	Hu, X.	2026-06-04	PDF	自闭症谱系障碍（ASD）影响着全球相当比例的儿童，但症状严重程度的临床评估仍存在资源密集且可及性不均的问题。人工智能（AI）具有变革性潜力，能够通过行为数据实现可扩展且及时的严重程度评估，但现有方法大多将自闭症视为单一预测目标，并依赖临床医生难以解读或信任的黑箱模型。此外，以往的多模态方法通常采用缺乏临床理论依据的临时融合策略整合异质性行为信号。我们提出一种基于临床理论驱动的深度学习模型，用于可解释的自闭症严重程度评估，该模型将既定临床构念明确转化为模型设计。基于自闭症研究，我们将社会构念和运动构念表征为不同的潜在成分。这些成分通过结构化跨模态注意力机制进行整合，该机制由可学习的对齐掩码引导，编码视觉与运动表征之间的软空间对应先验。随后，理论特定模块将对齐后的标记聚合为构念嵌入，并通过实例特定的理论权重进行融合，生成符合临床推理的透明症状特征。综合实验表明，我们的模型在现有基线方法中达到了最优性能。消融研究验证了性能提升源于理论驱动的设计选择。对学习到的理论权重的分析揭示了症状特征与严重程度之间的系统性关系，为自闭症的多维结构提供了实证支持。本研究展示了如何将临床理论实例化为深度学习模型中可经验验证的架构设计，从而提升医疗AI系统的预测效用与可解释性。
CAIDE评分、大脑结构及中老年人认知功能：一项基于KoGES人群的研究。	Shin, G.	2026-06-04	PDF	背景尽管CAIDE（心血管风险因素、衰老与痴呆）评分可预测20年痴呆风险，但既往研究多聚焦于整体或综合认知功能指标。其中仅少数研究涉及认知功能与结构性神经影像标志物，且现有结构性神经影像证据主要来自子样本或高度选择的小型队列，而非基于人群的完整队列。因此，我们不仅探究了CAIDE评分与认知表现之间的关联，还进一步分析了结构性神经影像标志物在中老年人群中的中介作用。方法在基线时拥有结构性磁共振成像（MRI）数据的2864名参与者中，我们排除了230名基线患有神经及心血管疾病的参与者。此外，进一步剔除209名缺乏暴露因素、协变量及认知评估数据的参与者，最终纳入2425名参与者进行分析。CAIDE评分基于中年期血管风险因素计算。根据总分三分位数分布，将参与者分为低、中、高风险组。原始CAIDE评分（不含APOE4）的三分位截断值为<6分、6-7分、>7分。在纳入APOE4状态的敏感性分析中，重新计算截断值以维持三分位分组，低、中、高风险组截断值分别为<7分、7-8分、>8分。主要结局指标为神经心理学评估量表，包括故事回忆、视觉再现、言语流畅性、连线测试、数字符号编码及斯特鲁普测试。结果在2425名健康参与者中（平均年龄58.5±6.5岁；男性1189人，占49.0%），CAIDE评分较高组在所有认知领域的表现均较差。与低风险组相比，高风险组在全部12项认知评估中的平均校正z评分显著更低（均p<0.001）。中风险组除视觉再现识别及言语流畅性分类测试外，其余测试的平均校正z评分亦较低。解释这项大规模人群研究表明，与最低风险组相比，最高CAIDE风险组在所有认知领域的表现均独立相关，提示管理这些特征对维持中老年人神经健康具有潜在重要性。
标题：基于聊天的数字初级保健诊所在公共资助医疗体系中的覆盖范围、使用情况及用户特征：一项基于芬兰登记数据的观察性研究	Dahlberg, A.	2026-06-04	PDF	背景：基于聊天的数字诊所正逐步融入公共初级医疗服务。本研究评估了芬兰派亚特海梅地区Harjun terveys机构整合的24/7全天候聊天式数字诊所。方法：采用2019年至2025年间记录的2,796,976次初级医疗就诊数据，分析数字诊所引入后的诊疗模式变化。结果：初级医疗覆盖率从2019年的36.5%降至2020年的32.1%（与疫情相关的服务抑制相符），随后自2022年起稳定在40%-43%区间（2025年为40.7%）。每千名居民就诊量从2020年的972次增至2025年的1,568次。数字就诊占初级医疗总接触量的比例从2021年的19.6%升至2025年的29.8%。数字用户年龄显著更年轻（平均年龄33.5岁 vs. 52.5岁；P<.001），未调整合并症患病率更低（CCI [≥]1：12.8% vs. 25.6%）。在2023-2025年各年度中，数字用户合并症的调整后比值比均低于传统用户（OR范围0.87-0.90；均P<.001）。常见医师级诊断包括结膜炎、急性膀胱炎和处方续开。护士咨询后，18.0%的患者被升级至同日医师诊疗；排除预约定诊后，16.8%在14天内、23.4%在30天内发生后续接触。结论：研究期间，随着数字诊所的引入，初级医疗覆盖率与数字就诊占比同步上升。多数轻症急性病例由护士层级处理且无记录随访：约60%的诊疗路径在数字渠道内终结，其余则转为面对面、电话或其他就诊方式。
使用子集成贡献分析评估2024-25年冬季英格兰短期多目标呼吸道预测	Kennedy, J. C.	2026-06-04	PDF	背景流行病预测研究常使用概率评分规则评估集成模型及其组成模型。量化单个模型对集成模型性能的影响具有挑战性，尤其是在多目标和空间尺度下。方法我们展示了英格兰2024-25年冬季流感和COVID-19住院人数的预测，并利用运行中的组成模型进行了回顾性模拟。预测采用人均加权区间分数（pcWIS）对计数进行评分，采用排序概率分数（RPS）对有序趋势方向进行评分。我们比较了运行中的回顾性预测，使用广义加性模型（GAMs）估计在子集成（由可用模型子集形成的集成）中包含某个模型时分数的预期变化，并利用帕累托分析确定哪些子集成在评分规则上达到帕累托最优。结果在全国范围内，流感pcWIS相比子集成提高了47%。然而，按RPS衡量，流感运行集成平均比子集成差22%。对于COVID-19，运行集成在pcWIS和RPS上分别平均比回顾性子集成差43%和280%。但COVID-19运行集成在pcWIS和RPS上分别平均比单个运行模型好2%和13%。对于流感，运行集成在pcWIS和RPS上分别平均比单个模型好58%和41%。子集成模拟显示，单个模型在不同疫情阶段对集成产生影响。帕累托分析表明，相对方向与绝对计数分数优化之间可能存在权衡。解释我们的分析表明，英国卫生安全局的预测与观测结果校准良好，且性能常与最优集成相当。GAM和帕累托分析为未来集成的模型选择提供了依据。
重症监护室中药师药物管理的优化与死亡率	Smith, S. E.	2026-06-04	PDF	理由：不当处方、适当治疗延迟以及药物不良事件导致的药物相关发病率是ICU患者死亡的原因之一。综合药物管理（CMM）是由药师与跨专业团队协作提供的护理标准。通过药师与患者比例优化ICU药师工作量，同时确保每日CMM，可能降低死亡率。目的：本研究探讨了ICU药师配置（以药师与患者比例和综合药物管理缺失衡量）是否与危重成人患者的院内死亡率相关。方法：来自64个中心（美国、约旦和沙特阿拉伯）的ICU成年患者被纳入一项多中心观察性研究，该研究收集了2023年8月至2025年1月的患者和团队配置数据。主要结局是院内死亡率。主要暴露因素是ICU住院期间平均的患者层面药师与患者比例。次要暴露因素是至少1天缺乏CMM。使用多变量广义估计方程（GEE）评估与院内死亡率的关联，考虑中心聚类效应，并调整患者、ICU和医院层面的协变量。测量与主要结果：纳入的28,795名患者的中位药师与患者比例为1:17（四分位距13-23）。药师与患者比例每增加1名患者，死亡几率增加1%（比值比1.01，95%置信区间1.00-1.01，p=0.04）。缺乏药师CMM 1天的患者死亡风险增加20%（比值比1.20，95%置信区间1.03-1.40，p=0.02）。与1:16-46的比例相比，1:7-15的药师与患者比例与较低的院内死亡几率相关（比值比1.10，95%置信区间1.00-1.22）。结论：药师与患者比例增加以及每日缺乏药师CMM均与院内死亡风险增加相关。
大型语言模型在医疗模拟教育中的应用：基于AI辅助筛选的文献计量分析	Pears, M.	2026-06-04	PDF	诸如ChatGPT等大型语言模型正迅速重塑医疗教育与非技术技能模拟培训，但尚无文献计量学分析对此领域进行系统梳理。我们检索了七个开放获取数据库（OpenAlex、PubMed、Europe PMC、Crossref、Semantic Scholar、CORE、DOAJ），纳入2020年1月至2026年3月间的英文文献。从100,277条初始记录出发，通过顺序关键词漏斗筛选出830篇候选论文，由83个独立的Claude Sonnet 4.6 AI智能体依据预设纳入标准进行筛选（符合PRISMA-trAIce规范；调和前Cohen's kappa=0.86，调和后为1.0）。最终经AI验证的语料库包含551篇论文，复合年增长率达109%，涉及58个国家279种期刊的2,398位作者，h指数为41。ChatGPT主导模型生态（占论文46%），开源模型几乎缺席。虚拟患者聊天机器人为主要模拟形式（106篇论文）。在非技术技能领域中，沟通（145篇）与决策制定（135篇）研究最多，而团队协作、领导力、情境意识及危机资源管理显著不足。仅识别出6篇泌尿外科相关论文，且无任何研究探讨大型语言模型在集训式培训中的整合应用。该领域虽以惊人速度发展，但仍集中于狭窄的非技术技能范畴与单一专有模型。团队技能训练、开源模型评估及专科模拟培训方面存在关键空白。采用多独立智能体的AI辅助文献计量筛选方法可行、可靠且可扩展，为快速演进研究领域的图谱绘制提供了可复现方法论。
理解人类与AI在乳腺癌TIL评估中的差异：一项多评估者与感知偏差研究	Capar, A.	2026-06-04	PDF	目的：乳腺癌中的肿瘤浸润淋巴细胞（TILs）是肿瘤微环境中免疫反应最重要的指标之一，在三阴性和HER2阳性亚型中具有显著的预后和预测作用。然而，病理学家在TIL评分中存在较大的观察者间差异，这限制了其在临床实践中的可靠性。本研究旨在评估人工智能（AI）模型与病理学家在TIL评分中的一致性，并通过不同统计方法比较这种一致性，从而评估AI整合到病理实践中的潜力。材料与方法：研究纳入乳腺癌病例的数字组织病理学图像。由病理学家标注的肿瘤区域，分别评估每个感兴趣区域（ROI）内的间质TIL百分比和间质肿瘤面积比例，评估由三位病理学家和两个AI模型独立完成。评估了病理学家之间、病理学家与AI之间以及AI模型之间的一致性。统计分析包括组内相关系数（ICC）、Cohen和Fleiss kappa、相关性检验以及Bland-Altman分析。此外，使用不同截断值检查了分类一致性。结果：病理学家间一致性较高，ICC为0.81。相比之下，病理学家与AI模型之间的总体一致性较低（ICC 0.41）。病理学家-AI一致性的成对比较显示ICC值显著降低（0.12-0.21），但当三位病理学家与单个AI模型联合评估时，ICC提高至0.53。分类一致性最强的是二分类TIL评分（≤10% vs. >10%），而多分类则与kappa值显著降低相关。病理学家与AI模型之间的Spearman相关系数范围为中等至良好（ρ = 0.48-0.81）。两个AI模型之间的一致性为中等，ICC为0.64。
塞拉利昂低资源新生儿科实施成人学习式新生儿医学课程提升知识水平	Mvula, M.	2026-06-04	PDF	背景塞拉利昂的新生儿死亡率位居世界前列。科伊杜政府医院于2020年开设了特殊婴儿护理单元（SCBU）。为提升SCBU医护人员（HCPs）的知识水平，实施了一套新生儿课程，以促进医护人员对新生儿疾病管理的教育。本研究旨在了解该课程对知识获取的影响，以及参与医护人员对教学方法的看法。方法美国导师在2024年10月至2025年4月期间，主导了一个两阶段、翻转课堂式的虚拟新生儿医学课程，随后与SCBU医护人员进行了一周的面对面教育。每个阶段，参与者完成课前和课后教育评估。课程结束后，他们完成主观评估，以了解对课程中整合的教学方法质量的看法。采用Wilcoxon符号秩检验评估课前与课后的变化，使用描述性统计分析主观评估结果。结果 38名参与者完成了教育评估，其中30人（79%）参加了全部四次课前和课后测试；25/38人（65.8%）为女性，27人（71.1%）为护士。两个阶段中，个体学习者的中位正确答案数从课前到课后均有提高[第一阶段：课前14/27（51.9%），课后23/27（85.2%），p<0.001；第二阶段：课前14/25（56.0%），课后23/25（92.0%），p<0.001]。31名参与者完成了主观评估，其中96.8%（30/31）认为该课程“非常有效”。所有31名参与者均表示面对面教学“非常有帮助”。通过开放式文本回答，他们提供了关于挑战、优势及下一步行动的宝贵见解。结论该新生儿课程显著提升了知识水平，并受到高度评价。调整该课程或类似课程，有望改善资源匮乏地区小婴儿和/或患病新生儿的护理质量。
不要停止心脏跳动：大型语言模型与钾剂量管理的性能分析	Blotske, K.	2026-06-04	PDF	背景：电解质替代治疗在急症监护中普遍存在，但钾离子即使微小剂量错误也可能引发致命性心律失常，这一熟悉性不能掩盖其风险。近期MedAgentBench为智能体人工智能（AI）提供了基准测试，包括基于单一规则正确计算钾剂量的能力；然而，这未能充分反映临床复杂性或曾用于致命注射的智能体所涉及的安全问题。本分析旨在评估排行榜大语言模型（LLM）在遵循基础剂量规则、安全实施钾替代治疗方面的能力，基于一系列临床医生标注的病例。方法：通过临床医生小组，我们制定了一系列剂量原则和20个反映钾替代治疗复杂性的临床病例。对外部临床医生进行问卷调查，评估实践差异及与临床医生小组答案的一致性。我们使用GPT-5-chat对每个病例进行三次测试，分别在有和无临床医生制定的剂量原则条件下，并提示模型回答六个问题，涉及钾目标、剂量、给药途径、实验室检查频率、联合干预措施，以及模型对输出和病例复杂性的感知置信度。主要结局是与临床医生答案相比的适当建议率。结果：共54名临床医生审阅了20例低钾血症病例及低钾血症剂量指南。当被问及是否同意指南推荐的管理方案时，临床医生对66.8%的评估病例表示“高度同意”或“部分同意”。在提供钾剂量指南后，总错误数从165降至104，GPT-5-Chat的平均准确率从45%提升至65%。GPT-5-Chat对100%的回复表达了高置信度，同时分别将80%（有标准）和76%（无标准）的病例标记为高度复杂。两组均存在显著潜在伤害评分，但剂量指导文件使严重程度评分显著降低。两组中联合干预措施和剂量建议的错误率最高。结论：基准测试必须恰当反映临床复杂性，才能被视为在医疗领域部署智能体人工智能工具有价值。GPT-5-Chat在钾替代治疗综合药物管理任务中的评估显示，剂量指导可改善表现，但基准测试性能仍不达标。
在疫情扩散情景下，本迪布焦埃博拉病毒病输入欧洲的风险模式变化	Fanelli, F.	2026-06-04	PDF	2026年刚果民主共和国东部爆发的本迪布焦埃博拉疫情已出现国际传播至乌干达的情况，引发对区域及国际进一步扩散的担忧。我们利用国际航空运输协会的始发地-目的地客流量数据，评估了六种反映地理传播合理路径的疫情扩散情景下欧洲输入埃博拉病毒病的相对暴露风险，包括跨境传播及在高度互联的区域首都城市中的疫情放大效应。在刚果民主共和国东部局部传播及边境溢出情景下，相对暴露模式基本保持不变。疫情扩散至南苏丹后，通过朱巴的连通性首次导致欧洲输入压力结构性上升；而坎帕拉、基加利及金沙萨的假设性疫情放大则显著增加了输入压力，并重塑了欧洲各国的暴露模式。在所有情景中，法国、意大利及英国始终位列暴露风险最高的国家。基于人口流动的情景分析可为疫情地理演变过程中的防范工作提供支持。