2026-05-25 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	发布日期	PDF链接	摘要
SkillOpt：自我进化智能体技能的执行业务策略	Yifan Yang	2026-05-22	PDF	当前的智能体技能要么是手工构建的，要么是一次性生成的，要么是通过松散控制的自我修订演化而来——这些方法都不具备类似深度学习优化器的特性，也无法在反馈下持续改进初始状态。我们认为，技能应当被训练为冻结智能体的外部状态，遵循与权重空间优化相同的可复现原则。据我们所知，SkillOpt是首个面向智能体技能的系统化可控文本空间优化器：独立的优化器模型将带评分的轨迹转化为对单个技能文档的有界增删改操作，仅当编辑能严格提升保留验证分数时才被采纳。通过文本学习率预算、拒绝编辑缓冲区和逐轮慢速/元更新机制，技能训练在保持稳定性的同时，部署阶段无需增加任何推理时模型调用。在六个基准测试、七个目标模型和三种执行框架（直接对话、Codex、Claude Code）中，SkillOpt在全部52个评估单元（模型、基准、框架组合）上取得最优或持平成绩，并击败了每个单元中的人类专家、一次性LLM、Trace2Skill、TextGrad、GEPA和EvoSkill等所有竞争对手。在GPT-5.5上，它将直接对话模式下的无技能平均准确率提升23.5个百分点，在Codex智能体循环中提升24.8个百分点，在Claude Code中提升19.1个百分点。迁移实验进一步表明，优化后的技能工件在跨模型规模迁移、跨Codex与Claude Code执行环境迁移，以及迁移至邻近数学基准测试时仍能保持价值，无需额外优化。
Geo-Align：基于度量几何奖励的视频生成对齐	Zizun Li	2026-05-22	PDF	近年来，相机控制视频生成技术取得了显著进展。然而，现有视频到视频重渲染方法主要依赖合成数据集的监督微调。当前，同步多视角真实世界视频数据极度匮乏。因此，主流范式在处理分布外真实世界视频时往往泛化能力有限，模型难以精确遵循物理尺度和相机轨迹。为弥补这一不足，我们提出Geo-Align——首个专为相机控制视频重渲染设计的强化学习框架。该框架基于预训练模型，通过尺度感知感知奖励机制进行优化。具体而言，我们引入度量3D估计器从生成视频中提取精确相机轨迹，显式惩罚旋转和平移偏差。此外，我们精心设计了基于真实条件视频与合成数据目标相机轨迹的数据管线策略，彻底消除对配对数据的依赖。大量实验表明，Geo-Align在精确相机可控性和视觉保真度方面持续优于现有监督学习基线，验证了本方法的有效性。
PiD：基于像素扩散的快速高分辨率潜在解码	Yifan Lu	2026-05-22	PDF	目前大多数实用的高分辨率文本到图像系统（包括潜在扩散模型和自回归模型）都在紧凑的潜在空间中生成图像，并通过解码器将生成的潜在表示映射回像素。然而，这种潜在到像素的解码器以重建为目标，优化方向是逆转编码器而非合成更多细节，并且在百万像素尺度下成本急剧上升。这一缺陷要求更高效且更具表现力的解码范式。受可扩展像素空间扩散技术最新进展的启发，我们提出PiD（像素扩散解码器），将潜在解码重构为条件像素扩散，将解码与上采样统一为单一生成模块。通过在像素空间中直接去噪，PiD能以低延迟合成4倍甚至8倍上采样图像。针对潜在条件化，轻量级sigma感知适配器将含噪潜在表示注入像素扩散主干网络，使PiD能够解码部分去噪的潜在表示并提前终止潜在扩散过程。为进一步提升效率，我们采用DMD2对模型进行蒸馏，将推理步骤缩减至4步。PiD既适用于传统VAE潜在表示，也适用于近期基于RAE模型使用的语义潜在表示（如SigLIP、DINOv2）。在消费级RTX 5090上，PiD将512×512图像的潜在表示解码为2048×2048像素仅需不到1秒，峰值内存占用13 GB；在GB200 GPU上最快可达210毫秒，比级联扩散超分辨率管线快约6倍，且视觉保真度更优。
大语言模型作为噪声信道：香农视角下的模型容量与缩放定律	Xu Ouyang	2026-05-22	PDF	现有的大语言模型（LLMs）缩放定律，主要是单调幂律，无法解释新兴的非单调现象，例如灾难性过训练和量化导致的性能退化——在这些情况下，尽管计算量增加，性能反而下降。我们提出香农缩放定律，这是一个统一的理论框架，基于香农-哈特利定理，将LLM训练建模为通过噪声信道的信息传输。通过将模型参数映射为信道带宽、训练令牌映射为信号功率，我们的公式明确捕捉了学习信号与固有噪声之间的相互作用。这一视角揭示了LLM的基本香农容量：在未保持足够信噪比（SNR）的情况下扩展模型规模或数据量，必然会放大噪声，导致从单调改进到U形性能退化的转变。我们通过在Pythia和OLMo2上进行的实验验证了该理论，实验涉及高斯噪声、量化以及在数学、问答和代码任务上的监督微调等扰动。香农缩放定律始终优于经典缩放定律和近期提出的扰动感知定律，取得了较高的$R^2$分数，并准确捕捉了先前方法遗漏的损失盆地。它还能进行外推：在$\leq$6.9B参数的Pythia模型和$\leq$180B令牌的数据上拟合后，可预测未见过的12B模型在多达307B令牌时的表现，合并$R^2$为0.847，而单调基线方法则完全失效。
从原始经验到技能消费：模型生成代理技能的系统性研究	Zisu Huang	2026-05-22	PDF	语言智能体通过复用从过往经验中提炼的结构化程序性产物——即"技能"——来持续提升自身能力。其中，领域级与模型生成型技能尤为值得关注：前者通过编码领域特有的重复性流程实现快速领域适配，后者则突破了人工精心设计的规模限制。然而，尽管技能提取方法层出不穷，学界对其理解仍十分有限——目前尚无一项研究能完整覆盖技能全生命周期（经验生成→技能提取→技能消费），系统回答这些技能是否真正有效、何时有效、以及决定其成败的关键因素。为填补这一空白，我们构建了基于实用性的评估框架，在涵盖五个多样化智能体任务领域的场景中，对多种提取器与目标智能体进行了系统性实验。研究发现：模型生成型技能虽整体有益，但存在显著的负迁移现象；提取器与目标智能体的表现并不统一——某模型可能成为强提取器却弱于消费技能，反之亦然，且技能效用与模型规模或基线任务强度无关。为解释这些现象，我们深入剖析生命周期各阶段：分析经验构成如何塑造技能质量、界定有用技能的特征属性、探究同一技能在不同消费主体间的迁移规律。最终，我们将研究发现转化为具体的元技能——该技能引导提取过程聚焦于与实用价值直接相关的特征，不仅持续提升跨领域技能质量，更显著降低了负迁移现象。
SPACENUM：重新审视视觉语言模型中的空间数值理解	Jianshu Zhang	2026-05-22	PDF	视觉-语言模型（VLMs）正越来越多地被部署在具身环境中，需要输出动作幅度和空间坐标等数值。尽管这些数字看似有意义，但目前尚不清楚这些数值输出是否真正基于空间感知。因此，在本研究中，我们通过SpaceNum这一统一框架重新审视空间数值理解，该框架涵盖两种互补场景：空间探索中的动态转换数值，以及空间推理中的静态布局数值。我们构建了Num2Space和Space2Num两个双向任务，以评估VLMs在视觉侧空间结构与语言侧数值表征之间的映射能力。我们系统研究了当前VLMs是否真正理解空间场景中的数值。在动态转换和静态布局两种场景中，我们发现模型大多未能将数值与空间含义建立关联，且表现常接近随机猜测。通过错误分析、推理轨迹分析和受控干预实验，我们表明当前VLMs严重依赖浅层空间线索，难以构建稳定的坐标感知表征，且无法从视觉观察中抽象出结构化空间布局。我们进一步证明，显式推理仅带来边际提升，而微调可部分改善空间数值理解能力，并迁移至外部空间推理基准测试。
ETCHR：编辑以澄清和利用推理	Beichen Zhang	2026-05-22	PDF	多模态大语言模型已推动视觉推理的进步，但纯文本思维链在处理需要精细聚焦或视角转换的问题时仍存在瓶颈。"以图像思考"范式缩小了这一差距，但现有方法要么受限于固定预定义工具包，要么因统一多模态方法产生噪声中间图像。我们探索第三种方案：使用专用图像编辑模型，并将其与理解模型解耦。然而，现成的图像编辑器作为推理助手存在两个互补性缺陷：语言侧缺陷——被训练为被动指令跟随者的编辑器无法将抽象问题映射到适当的视觉变换；生成侧缺陷——编辑正确性随推理深度增加而下降。基于此分析，我们提出ETCHR（编辑以澄清和驾驭推理），这是一种面向问题、具备推理感知能力的图像编辑器，与下游理解模型解耦，并通过两阶段训练策略针对上述缺陷：通过编辑轨迹的监督微调进行推理模仿，随后利用基于VLM的奖励进行推理增强，以提升编辑正确性和下游推理准确性。由于编辑器是解耦的，ETCHR可无训练地接入不同开源和闭源MLLM。在五类任务（细粒度感知、图表理解、逻辑推理、拼图复原和3D理解）中，ETCHR将Qwen3-VL-8B的平均Pass@1从55.95提升至60.77（+4.82），Gemini-3.1-Flash-Lite从65.08提升至70.55（+5.47），1T参数MoE模型Kimi K2.5从76.55提升至81.16（+4.61）。
从激活到因果：人类大脑中因果视觉表征的发现	Yuval Golbari	2026-05-22	PDF	识别人类大脑中哪些脑区表征视觉概念是神经科学的核心挑战。现有方法通过激活最大化定位粗略的功能区域（如面孔、场景），即识别出对目标概念相比其他概念激活更强的脑区。然而，仅凭强激活并不能证明该区域表征概念本身，因为这种反应可能由相关的视觉或语义线索驱动。我们提出BrainCause框架，该自动化系统结合生成模型与脑模型，通过合成受控刺激并进行针对性因果检验来验证神经表征。给定描述目标概念的查询后，该框架构建包含概念图像、移除目标概念但保留其他图像内容的反事实编辑图像、以及候选相关干扰物图像的针对性刺激集。随后使用图像到fMRI编码模型预测脑反应，并搜索对目标概念反应特异性高于相关替代物的表征。BrainCause返回经验证的候选表征，并提出后续fMRI实验以进一步检验或扩展其发现。该方法成功复现已知功能定位，并在数十个概念中识别出新的候选表征，这些结果在预测和实测fMRI数据中均得到验证。关键的是，我们证明未经因果验证的定位中很大比例属于假阳性，证实仅凭激活不足以作为表征证据。
Complete-muE：面向MoE模型的最优超参数迁移与缩放	Hongwu Peng	2026-05-22	PDF	我们提出Complete-muE，这是一个针对Transformer模块中密集FFN与任意混合专家（MoE）架构间超参数迁移的框架。现有工具如μP（需固定架构）或SDE（需固定每步token数）无法直接解决MoE架构中的超参数迁移问题，因为密集到MoE的迁移或MoE总专家数扩展会同时改变架构和每专家token数。Complete-muE通过双桥接系统解决这一挑战：桥接I通过激活宽度μP结合归一化路由器缩放，实现密集FFN与密集MoE之间的映射；桥接II通过激活专家缩放实现密集MoE与稀疏MoE之间的映射，其中一阶SDE学习率/权重衰减修正相互抵消，而保留有界残差σ₀偏移。由此产生的迁移规则（我们称之为Complete muE）覆盖了MoE模型的激活专家数、总容量、粒度、共享/组平衡混合体变化，以及通用Transformer模型的网络宽度/深度、批大小和训练时长变化。大量语言模型和扩散模型预训练实验证实，complete-muE在不同模型架构和参数量下能产生相对稳定的超参数最优值——仅存在与桥接II非严格SDE行为一致的微小漂移。实践中该漂移足够小，使得在单个密集参考模型上调优的超参数可近最优地迁移至所有MoE配置——"一次调优密集模型，迁移至所有配置"是Complete-muE核心的实用方案。这使得MoE模型在扩展模型容量时无需昂贵的超参数搜索，即可实现比密集模型更快的收敛速度提升。
《优质令牌搜寻：视觉几何变换器令牌选择的搭车指南》	Shuhong Zheng	2026-05-22	PDF	视觉几何变换器已成为多视图三维重建的强大架构，能够以前馈方式联合预测多个三维属性。然而，由于这些模型内部的全局注意力层，其计算成本随输入序列长度呈二次方增长，限制了可扩展性和效率。在本工作中，我们通过一种简单而通用的策略应对这一挑战：限制全局注意力中每个查询交互的键/值令牌数量。为实现有效的令牌选择，我们引入了一个两阶段框架。首先，帧间选择步骤在帧级别操作，识别应保留的帧。其次，帧内选择步骤进一步丢弃所选帧中更冗余的令牌。我们的分析强调了基于多样性的帧间选择策略的优势，该策略确保对场景的广泛覆盖。对于帧内选择，我们表明需要层感知稀疏化，选择过程由全局注意力模式的熵引导。与现有解决方案相比，我们的方法提供了更优的速度-精度权衡。大量实验表明，对于包含500张图像的场景，该方法可将视觉几何变换器加速超过85%，同时保持甚至提升基线性能，这暗示了我们的令牌选择策略在未来视觉几何变换器应用中的关键作用。我们的项目网站位于https://zsh2000.github.io/good-token-hunting.github.io。

bioRxiv

标题	作者	发布日期	PDF链接	摘要
伏隔核中的ANKS1B通过调控CBP-FoxO3复合物控制可卡因自我给药的升级行为	Yang, L.	2026-05-25	PDF	从可控到升级的药物摄入转变是可卡因使用障碍（CUD）的核心特征，然而这种行为升级背后的分子机制仍不明确。我们之前的全基因组关联研究（GWAS）发现ANKS1B是海洛因、甲基苯丙胺和酒精依赖的重要共享遗传风险因素，提示其在成瘾易感性中具有广泛作用。但ANKS1B在可卡因成瘾中的具体功能及其相关神经机制尚不清楚。本研究发现，在长期可卡因使用后，伏隔核（NAc）中ANKS1B表达水平下调，且调控ANKS1B可选择性影响长期可卡因自我给药大鼠模型中可卡因摄入的升级行为及后续的可卡因寻求行为。分子实验揭示，ANKS1B与组蛋白乙酰转移酶CBP相互作用，通过表观遗传抑制转录因子FoxO3来控制H3K27乙酰化及长期可卡因摄入。总体而言，这些发现表明ANKS1B是影响可卡因使用升级的关键因子。ANKS1B-CBP-FoxO3信号通路为控制长期可卡因使用的潜在治疗干预提供了有前景的靶点。
misosoup：一种用于识别最小微生物群落的代谢建模工具，为微生物生态学和生物技术应用提供了宝贵见解。	Ochsner, N.	2026-05-25	PDF	微生物的生存与功能往往依赖于群落内的代谢相互作用。因此，解析微生物组织的一个核心问题是确定哪些最小物种组合能在特定培养基中存活——即"最小群落"。回答这一问题对于理解微生物分布、优化实验室培养以及设计合成群落至关重要。本文介绍misosoup（最小供给群落搜索）这一Python工具包，通过基于基因组规模的约束性代谢建模，系统识别在单一物种无法独立存活的条件下支持微生物生长的群落。我们通过实验验证的最小群落对misosoup进行验证，证明其能预测已知的协同互作、共培养体系及具有生物技术潜力的联合体。进一步将misosoup应用于60种海洋微生物的生态学分析，揭示普遍存在的交叉喂养驱动的生态位扩张现象，并展示该工具提供的详细输出如何促进功能群识别等研究。总之，misosoup为微生物生态学与群落设计提供了强大工具，在科研与生物技术创新领域具有广泛应用前景。
读一致最小唯一子串：一种无参数、线性时间的基因组序列表示框架	Adu, A. F.	2026-05-25	PDF	固定长度的k-mer作为基因组序列表示的标准单位已有二十余年。然而，这种固定分辨率无法适应基因组不同位点间的复杂性差异。我们提出最小唯一子串（MUS），这是一种由基因组局部唯一性结构而非预设参数定义的变长序列单元。首先，我们通过形式化定义与碎片化测序读段一致的唯一性概念，将MUS理论从单一连续字符串扩展到碎片化测序读段。其次，我们提出基于广义后缀树的线性时间提取算法，其时间复杂度为O(n)。在此框架下，我们引入哨兵节点作为后缀树中的拓扑锚点，可精确定位碎片化测序读段中的MUS边界。最后，我们通过实验表征了大肠杆菌K-12和人类11号染色体中MUS长度的分布特征。结果表明，MUS长度能自然反映基因组结构复杂性，无需用户定义参数。值得注意的是，MUS框架实现了100%的唯一位置覆盖率，平均长度仅为36.08 bp。相比之下，固定长度k=61的覆盖率仅达69.4%，尽管其长度是MUS平均值的1.69倍。我们证明，将k从21增至61会使唯一k-mer数量从235万增至686万（增长3倍）。这种k值悖论源于重复序列被碎片化为伪唯一标记，却未提升真实基因组分辨率。MUS通过动态适应局部序列复杂性完全规避了这一伪影。这些结果确立了MUS作为无参数基因组组装、重复序列表征和无比对基因组学中具有生物学基础且计算可行的基础单元。
毒力进化的危险假说	Franz, M.	2026-05-25	PDF	多细胞生物经常接触微生物，但其中只有极少数具有致病性。由于缺乏关于非致病性与致病性微生物生活方式之间进化转变的理论，我们目前对这一现象的理解十分有限。为此，我们通过研究一个基于免疫学危险理论的宿主-微生物相互作用数学模型来填补这一空白。该理论认为，与宿主组织损伤相关的危险信号在激活免疫反应中起关键作用。我们通过假设免疫激活程度随微生物对宿主造成的代价增加而增强来正式实现这一观点，并将其与免疫激活仅取决于感染微生物存在与否或载量的情景进行比较。模型分析表明，基于代价的免疫激活（而非基于存在或载量的免疫激活）有利于无毒力及相关的非致病性微生物生活方式的进化。基于研究结果，我们提出了毒力进化的危险假说：进化方向既可能趋向无毒力，也可能趋向中等毒力——这取决于宿主能否准确评估微生物产生的代价。宿主基础免疫反应能够选择无毒力这一观点，为解释为何大多数微生物对特定宿主不具有致病性提供了新思路。
噬菌体OE33PA的动态粘附装置驱动革兰氏阳性宿主识别	Schmitt, L.	2026-05-25	PDF	感染革兰氏阳性菌的噬菌体必须穿过厚细胞壁与宿主受体结合才能启动感染，但其结构机制尚不明确。本研究报道了酒球菌噬菌体OE33PA的冷冻电镜结构，首次以原子分辨率揭示了感染这种对葡萄酒产业至关重要的细菌的噬菌体结构。尽管整体病毒粒子结构保守，但其黏附装置展现出独特特征。受体结合蛋白呈现多种取向，揭示了其内在的动态组装特性。原位冷冻电子断层扫描捕捉到宿主附着时的不同构象，为理解与革兰氏阳性宿主的相互作用提供了罕见的结构见解。此外，功能实验表明，远端尾部蛋白中高度移动的碳水化合物结合模块介导了宿主特异性结合。而作为噬菌体组装和感染性核心的卷尺蛋白采用六聚体结构，更新了长尾噬菌体中普遍存在的三聚体模型。这些发现揭示了感染革兰氏阳性菌的噬菌体动态黏附装置，并凸显了噬菌体的结构与功能多样性。
通过非平衡界面波动力学对治疗性抗体进行行为分析	Thomas, A. N.	2026-05-25	PDF	我们提出界面行为变化及其演化（VIBE）检测方法——一种受生物信号热力学启发的高维生物物理测量技术。每次检测中，抗体样本刺激处于热力学相变临界点的可激发液体界面，产生的响应会引发界面波现象（包括毛细波、重力波和Lucassen波），通过名为Liquid Brain®的专有技术栈编码为动态表面信号。每次VIBE检测仅需极少量材料（≤10微克）即可生成丰富的生物物理指纹图谱，该图谱由记录波形及其演化导出的描述符构成。本文贡献如下：1. 使用基准描述符VIBE1，我们证明该检测方法可识别236个临床阶段抗体队列中的可开发性风险。单一阈值（≥0.26）可识别出40个高风险候选抗体，其临床失败率达90.0%（队列整体失败率为72.9%），对应1.23倍的失败富集度。预先排除这些异常值可使整体临床成功率从27.1%提升至30.6%（相对提升约13%）。值得注意的是，VIBE1与现有检测方法仅呈弱相关性，能提供关于失败风险的独立见解，常标记出标准检测面板遗漏的抗体。与互补决定区（CDR）基于计算机模拟的结构描述符的相关性表明，VIBE1可能受静电和疏水表面特性驱动。2. 我们证实每次检测可产生多个高信噪比（SNR）描述符，这些描述符内部一致、部分重叠，并捕捉生物物理行为的不同维度。它们构成稳定且适用于机器学习的生物物理指纹图谱——适合预测建模、潜在属性推断和机制解释。虽然本文未进行机器学习模型训练，但定义了该新描述符空间的坐标结构，并公开了精选特征子集以供独立评估。综合这些结果，VIBE检测被定位为一种微量样本、多重检测的生物物理平台。VIBE1描述符可作为保守分诊工具供抗体开发者直接采用，而更广泛的描述符空间则为基于AI的分子分析新方法提供了数据层支持。
4-甲基伞形酮在APP/PS1小鼠模型中减轻淀粉样蛋白病理和学习缺陷	Amontree, M.	2026-05-25	PDF	4-甲基伞形酮（4-MU）可抑制透明质酸（HA）合成，目前在欧洲获批用于治疗胆道痉挛。4-MU给药可减少神经元周围网络（PNNs），而在阿尔茨海默病（AD）小鼠模型中，酶解PNNs可减轻记忆损伤。尽管4-MU在纤维化和癌症的啮齿动物模型中具有治疗效果，但尚未在AD模型中进行验证。本研究评估了长期4-MU治疗对APP/PS1淀粉样蛋白小鼠模型的影响。从3月龄开始，小鼠分别接受载体或4-MU补充饮食治疗70天或52周。短期和长期4-MU治疗均降低了可溶性实质Aβ1-42/1-40比值。治疗52周后观察到不溶性淀粉样斑块减少。延长4-MU给药还降低了APP/PS1小鼠的PNN强度，并改善了空间记忆缺陷。这些发现为靶向脑细胞外基质（ECM）作为AD治疗策略提供了支持。
果蝇卵巢中上皮吞噬细胞分化的活体成像揭示短暂且新颖的行为	Almeida Machado Costa, C.	2026-05-25	PDF	上皮细胞向非专职吞噬细胞（NPPs）的转化是一种保守且多功能的适应性过程，发生在免疫挑战、组织重塑和凋亡碎片清除等情境中。在果蝇卵巢中，滤泡细胞（FCs）在应激条件下获得吞噬能力，为研究这一过程提供了强有力的模型。通过延时活体成像，我们捕捉到了与FC向NPP分化相关的动态行为，这些行为因过于短暂而无法通过静态成像检测。我们的方法确认了已知特征，包括生殖细胞死亡、细胞质扩张和碎片吞噬，并揭示了此前未被认识的能力。这些包括JNK通路激活的逐渐增强，随后NPPs表现出向濒死生殖细胞的集体迁移、上皮分层、通过伪足延伸进行远程目标捕获，以及吞噬邻近FCs。这些发现表明，上皮来源的NPPs能够执行通常由巨噬细胞等专职吞噬细胞完成的复杂吞噬任务。我们的工作将果蝇卵巢确立为一个稳健的体内系统，用于揭示上皮可塑性和吞噬功能的保守及新颖方面，特别是那些因固定样本分析而遗漏的短暂行为。
量化细胞培养的环境影响	Taylor-Hearn, I. S.	2026-05-25	PDF	实验室研究产生大量塑料废物及相关温室气体排放，但研究人员往往缺乏实用工具来量化常规实验方案的环境影响，或识别切实可行的减排机会。我们在此提出一款开源计算器，通过物品重量、塑料成分及估算的"从摇篮到坟墓"碳足迹因子，可估算实验室方案中的塑料使用量和二氧化碳当量排放。将该工具应用于标准细胞培养流程后，我们展示了基于证据的方案调整如何在不影响实验设计或效率的前提下减少塑料消耗与排放。该计算器设计透明、可适配且可扩展，允许研究人员添加新耗材并根据自身实验室实践定制分析。本研究为将可持续性原则转化为可量化的方案级变革提供了定量框架，并支持生物医学研究中更具环境责任感的决策。
气候预测了果蝇中wMel Wolbachia频率的变化，但基因组变异反映了近期不完全的细胞质扫荡。	Ravikanthachari, N.	2026-05-25	PDF	母系传播的沃尔巴克氏体（Wolbachia）占据约半数陆生节肢动物物种，但维持其可变种群频率的因素尚不明确。在果蝇（Drosophila melanogaster）中，wMel型沃尔巴克氏体在全球呈现中等且可变的频率。我们在美国东部的实验果园和自然果园中记录到，连续数周内wMel频率快速变化幅度可达0.33，其频率在中等温度时达到峰值，在极端温度时下降。对宾夕法尼亚州某果园连续七年的季节性采样显示，wMel频率夏季始终高于秋季，这与温度依赖的母系传播特征一致。基于五大洲248个地点、42年采样数据的贝叶斯模型，证实了此前描述的澳大利亚东部wMel频率梯度，但未在其他大陆发现纬度模式。降水季节性和最干季度降水量成为最强的全球预测因子，吸收了纬度无法解释的洲际wMel频率变异。在澳大利亚，湿季温度可预测wMel频率——该地区最湿季度与夏季及宿主繁殖高峰期重合。对339个独立测序的wMel基因组分析发现38个与纬度相关的wMel单核苷酸多态性（SNP），但在考虑细胞质谱系结构后这些关联不再显著，且其中35个SNP为残留的西南欧谱系所特有。我们的研究结果表明，局部气候条件通过影响母系传播保真度（该保真度取决于温暖季节与宿主繁殖期的同步性）塑造了全球wMel频率。相比之下，wMel基因组变异反映的是wMel对祖先型wMelCS的不完全替代，而非局部适应。

medRxiv

标题	作者	发布日期	PDF链接	摘要
抗原优先级和血凝素趋同进化塑造了B/Yamagata流感灭绝前的免疫格局	Steventon, R.	2026-05-25	PDF	背景：2020年，乙型流感Yamagata谱系停止流行。了解该谱系消失前的免疫学条件，有助于解释其消失原因，并对病毒进化机制及现行疫苗政策具有启示意义。方法：我们检测了2020年、2023年和2025年收集的年龄和性别匹配的献血者队列（每组114人）中，针对覆盖79年进化历程的假型乙型流感病毒谱的中和抗体反应，并通过活病毒中和试验进行验证。使用B/Yamagata（B/Phuket/3073/2013）和B/Victoria（B/Washington/02/2019）谱系的全长及头部结构域HA蛋白进行抗体下拉试验，检测纯化抗体对时序不同的假型病毒的中和效力。采用贝叶斯网络分析和LASSO回归识别跨谱系中和的潜在分子决定因素，并通过定点突变和表位特异性肽段下拉试验进行验证。结果：2020年，人群免疫呈不对称性聚焦于B/Yamagata病毒。尽管2020年后B/Yamagata停止流行，2023年针对近期B/Yamagata毒株的中和反应仍增强，而B/Victoria反应保持不变，这与抗原原罪效应引导回忆反应偏向B/Yamagata的机制一致。至2025年该趋势逆转，B/Yamagata免疫力下降而B/Victoria免疫力上升。抗原特异性纯化抗体呈现谱系偏向性效力，对B/Yamagata病毒的中和效果优于B/Victoria病毒。我们鉴定出HA头部结构域的120-loop为关键跨谱系表位，其中第131位单一趋同进化残基的电荷状态决定了谱系间的交叉反应效力。解释：B/Yamagata获得与B/Victoria共有的第131位正电荷残基，可能在其消失前增强了Victoria诱导免疫对其的交叉中和作用。尽管抗原原罪效应在B/Yamagata灭绝后仍维持交叉反应，但该效应至2025年已减弱，提示人群对B/Yamagata的免疫力正在下降。这对乙型流感疫苗政策具有重要启示。
肯尼亚内罗毕县肯雅塔国家医院15岁及以上人群结核病诊断与治疗中患者及卫生系统延迟的决定因素与后果	Arnold, M. R.	2026-05-25	PDF	背景：在结核病高负担国家，诊断和治疗启动的延迟仍是有效控制结核病的主要障碍。患者相关延迟和卫生系统相关延迟共同导致传播时间延长、发病率增加及治疗效果恶化。本研究评估了15岁及以上人群在结核病诊断和治疗中患者与卫生系统延迟的决定因素及后果。方法：在肯尼亚内罗毕县肯雅塔国家医院接受治疗的结核病患者中开展了一项基于医疗机构的观察性研究。通过结构化问卷和患者病历审查收集数据，评估从症状出现到诊断及治疗启动的时间线。采用描述性和推断性统计分析，识别与诊断和治疗延迟相关的决定因素。结果：研究发现，患者层面因素和卫生系统限制共同导致了显著的结核病诊断和治疗启动延迟。关键决定因素包括就医意识低下、经济障碍、病耻感、诊断前多次就诊于不同医疗机构以及诊断系统效率低下。这些延迟与就诊时疾病严重程度增加及持续传播风险相关。结论：患者和卫生系统延迟显著影响结核病的及时诊断与治疗。加强社区意识、改善诊断服务可及性、提升卫生系统响应能力，是减少延迟、改善高负担地区结核病预后的关键策略。
2025年斯里兰卡基孔肯雅热大规模暴发期间的病毒基因组特征揭示了一种独特的印度洋谱系毒株的出现	Jayadas, T.	2026-05-25	PDF	基孔肯雅病毒（CHIKV）已在全球范围内重新出现，2025年多个地区报告了大规模疫情。斯里兰卡在经历了近二十年的低水平传播后，爆发了大规模疫情。本研究旨在鉴定此次疫情中CHIKV的基因组特征，并与历史毒株及全球毒株进行比较。对2025年4月至9月期间出现的急性发热患者，采用定量PCR进行CHIKV筛查，并利用牛津纳米孔技术进行全基因组测序。通过整合全球参考数据集及病毒基因组、时间和地理数据，开展了系统发育、突变、结构和系统动力学分析。所有2025年斯里兰卡序列均属于东中南非洲基因型的印度洋谱系（IOL），并形成独特的单系分支。相比之下，巴西、中国、留尼汪和马约特岛的疫情则与遗传学上不同的谱系相关。斯里兰卡及其他南亚毒株在结构蛋白和非结构蛋白中均存在独特突变。E1和E2蛋白的关键突变位于与蚊媒传播能力相关的位点、MXRA8受体结合界面以及已知的中和抗体结合区域。与2006至2008年IOL流行毒株相比，2025年病毒呈现出显著不同的分子特征。2025年斯里兰卡基孔肯雅疫情由新近出现的IOL毒株引起，该毒株在功能重要位点携带突变。这些发现凸显了持续开展基因组监测对于深入理解病毒进化、传播动态及其对毒力和免疫潜在影响的重要性。
双胞胎与单胞胎的跨代生育率：芬兰全人口研究	Niemi de Paiva, S.	2026-05-25	PDF	研究问题：与单胎相比，双胞胎状态及卵型（同卵vs异卵；同性vs异性）能否预测生育结局及代际生殖模式？简要回答：女性中，异卵双胞胎的完成生育率略高于单胎和同卵双胞胎，且更可能生育双胞胎。男性中生育率无显著差异。这些差异仅限于双胞胎一代，未延续至下一代，表明存在性别特异性和世代特异性效应，而非代际传递。已知信息：异卵双生与遗传性超排卵及较高自然生育率相关，但关于双胞胎身份或卵型是否影响跨代生殖结局的研究较少。研究设计、规模、时长：基于芬兰双胞胎队列部分数据及国家人口登记册的纵向队列研究。参与者包括1945-1957年间出生的同卵双胞胎（N=4,068）、同性异卵双胞胎（N=8,890）、异性异卵双胞胎（N=8,474）、单胎对照（N=1,193,404），总计1,254,103人（女性占49.1%），及其母亲、子女和孙辈。参与者/材料、设置、方法：生育结局（亲生子女数、初育年龄、无子女率、多胎生育）来自芬兰人口登记册。分析遵循预注册计划（https://osf.io/qbwv3）。主要结果与偶然性作用：单胎与双胞胎的生育差异较小，且因性别和卵型而异。差异主要出现在双胞胎母亲及女性双胞胎自身，而双胞胎后代与单胎后代相比差异有限。双胞胎初育年龄略高，总亲生子女数较少，但更可能生育双胞胎。异卵双胞胎与同卵双胞胎及单胎的差异尤为显著。局限性及注意事项：研究仅限于20世纪中期出生的芬兰人群，因此对当代人群或非北欧背景的普适性可能受限。此外，分析为观察性研究，由于社会或文化因素等生育率背后的其他动机，因果推断有限。研究结果的广泛意义：这些发现表明卵型和性别相互作用塑造生殖结局，为生育力的遗传和环境贡献提供了见解。研究凸显了大型双胞胎队列在代际生殖趋势研究中的价值，以及双胞胎在基于人群的生育研究中的代表性。研究资助/利益冲突：作为现有研究项目的支持活动，本项目由麻省理工学院与哈佛大学博德研究所的“广泛创伤倡议”资助。
深度代理变体优先级排序用于专家级遗传诊断	Kara, M.	2026-05-25	PDF	罕见遗传病的诊断关键在于从数千个候选变异中识别致病突变，尽管基因组测序技术已普及，但全球3亿患者中绝大多数仍未能获得确诊。我们提出DAVP（深度智能体变异优先级排序）系统，这是一个分层式智能体-大语言模型（LLM）流水线，整合了基因预筛选、知识图谱驱动的变异报告，以及通过迭代LLM锦标赛对每个患者表型进行变异排序的机制。我们在四个数据集的709个诊断案例中评估DAVP，包括LIRDB-47——一个包含47名土耳其罕见病患者、63个临床确诊致病变异的新队列。DAVP在完整基准测试中实现了85.5%的变异级前三召回率；在LIRDB-47队列中，76.2%患者的致病变异位列前三（88.9%位列前二十），较最佳表型驱动基线方法（Exomiser，47.6%）提升1.6倍。我们的研究表明，将证据综合与患者特异性推理相结合的智能体LLM系统，有望重塑临床基因组工作流程。
人工智能增强心电图的测试-重测信度：一项多中心研究	Dhingra, L. S.	2026-05-25	PDF	背景：人工智能增强心电图（AI-ECG）可检测结构性心脏病（SHD）。然而，其作为临床检测手段的实用性要求重复检测结果具有一致性。目的：评估当代AI-ECG模型在不同医疗系统中的重测信度，识别与结果不一致相关的因素，并确定筛查状态变化的预测意义。方法：我们选取了耶鲁-纽黑文医疗系统（YNHHS）、马萨诸塞总医院（MGH）和埃默里大学医院（EUH）中同一患者间隔1-30天记录的心电图配对数据。评估了内部开发的基于心电信号和图像的SHD模型，以及EchoNext-Mini模型（包括疾病特异性组件和集成复合模型）。通过一致性相关系数（CCC）和分类一致性百分比量化信度。在无既往心力衰竭（HF）且间隔30-90天进行系列心电图检查的患者中，评估了筛查状态不一致与新发HF风险的关联。结果：共纳入731,466对心电图（中位间隔5-6天）。在YNHHS，基于信号和图像模型家族的疾病特异性模型CCC范围为0.77-0.86，EchoNext-Mini输出节点的CCC范围为0.50-0.97。复合SHD模型的CCC分别为0.90（基于信号）、0.90（基于图像）和0.81（EchoNext-Mini）。基于图像的集成模型在三个医疗系统中实现了87-89%的分类筛查状态一致性（疾病特异性模型为80-84%）。年龄较小（<65岁）是结果不一致的主要相关因素（OR 1.69 [95% CI, 1.65-1.74]），住院期间心电图也显示较高风险（ORs 1.30-1.41）。在预测队列的65,838名患者中，筛查状态从阴性转为阳性与新发HF风险升高相关（各中心调整后风险比1.67-2.37）。结论：当代AI-ECG模型具有高重测信度，其中集成复合模型稳定性最佳。AI-ECG筛查状态的系列变化对新发HF具有预测价值。
局部校准的错误率提高了AI评分的可解释性，并影响了放射科医生的决策。	Chung, M.	2026-05-25	PDF	引言：放射学中的人工智能（AI）系统通常生成病例级别的数值评分，旨在反映潜在病理的可能性。然而，这些评分在临床实践中往往难以解读。我们提出一个框架，通过在每个评分阈值下提供相应的错误发现率（FDR）和错误遗漏率（FOR），将AI评分转化为具有临床意义、经局部校准的错误概率。方法：使用开源乳腺X线摄影AI模型（Mirai），我们基于130,712份数字筛查乳腺X线摄影（907份阳性，129,805份阴性）的回顾性队列，估计了不同阈值下的评分特异性FDR和FOR。随后开展决策研究，评估与单独呈现AI评分相比，同时呈现FDR/FOR是否会影响放射科医生的召回建议和信心。结果：FDR和FOR在不同AI评分阈值间差异显著，在评分分布低端分别为60.87%和0.03%，在高端分别为99.26%和0.65%。在决策研究中（n=21；每位放射科医生评估20次），两种条件下召回率均随AI评分升高而增加；但单独呈现AI评分时的召回率高于同时呈现FDR/FOR的情况（比值比2.9，95%置信区间[1.331, 6.417]，p=0.0077）。信心与评分呈U型关系，在提供FDR/FOR时信心更高，尤其在中等评分区间。结论：局部校准的FDR和FOR为将AI评分转化为临床可解读概率提供了实用方法。在AI评分旁同时呈现这些指标可提高可解释性，并与放射科医生决策变化相关，支持将其作为AI临床实施的框架。
全球问题性互联网使用负担：一项伞状综述与荟萃分析	Schwarze-Taufiq, T.	2026-05-25	PDF	重要性：问题性网络使用（PUI）行为，包括问题性游戏、社交媒体使用、智能手机使用及一般性网络使用，在全球范围内受到日益广泛的研究。目前，PUI的全球流行率尚不明确。目的：对现有关于PUI行为流行率的系统综述和荟萃分析进行批判性评估，并整合不同表现形式和定义下的全球汇总流行率估计值。数据来源：检索MEDLINE（Ovid）、Embase（Ovid）、Scopus、Web of Science、CINAHL及Cochrane Review Library，时间范围从数据库建库至手稿撰写前的最新可用检索。检索目标为报告PUI相关行为流行率的系统综述和荟萃分析。研究选择：纳入报告问题性游戏、问题性网络使用、问题性智能手机使用、问题性社交媒体使用或色情短信行为流行率的观察性研究系统综述和荟萃分析。范围综述仅保留用于描述性综合。数据提取与综合：采用伞状综述方法。数据提取和方法学评估使用AMSTAR-2工具，截至2026年2月评估纳入系统综述的质量。提取每篇综述中的原始研究，并通过随机效应荟萃分析进行合并。分析旨在估计汇总流行率及其95%置信区间（CI），并评估非重叠原始研究间的异质性。同时检验小研究效应。主要结局与测量指标：PUI行为的全球汇总流行率估计值，包括问题性游戏、问题性网络使用、问题性智能手机使用、问题性社交媒体使用及色情短信。结果：11篇综述（包括10篇系统综述和1篇范围综述）符合纳入标准，代表3,145,428名个体的数据，其中3,030,023人纳入汇总流行率分析。按区域划分，问题性游戏的汇总流行率为6%（95% CI，5%-7%），问题性网络使用为16%（95% CI，15%-17%），问题性智能手机使用为32%（95% CI，28%-35%），问题性社交媒体使用为23%（95% CI，19%-28%）。原始研究间存在显著异质性（I² > 99%），反映了研究方法、抽样人群及PUI行为定义的差异。结论与相关性：PUI行为似乎影响全球相当比例的人口。然而，方法学问题普遍存在，10篇系统综述中有9篇根据AMSTAR-2被评为低或极低置信度。证据仍集中于东亚和欧洲地区，且许多综述合并了异质性人群和抽样策略。需要更多高质量流行病学研究（包括在代表性不足地区开展的研究）以完善流行率估计、明确风险因素，并支持制定PUI行为的标准化标准。
大语言模型在潜在卒中症状分诊行为中的跨模型变异性	Dworkis, D. A.	2026-05-25	PDF	背景：卒中是一种时间敏感的神经急症，早期启动紧急医疗服务（EMS）并尽快接受确定性治疗是有效治疗的核心。公众越来越多地使用大型语言模型（LLM）获取医疗建议，但商用模型对潜在卒中症状的指导准确性尚不明确。方法：我们开展了一项跨模型基准测试研究，比较三种前沿LLM（Claude Sonnet 4.6、GPT-4o和Llama 3.3-70b-versatile）对描述晨起单侧手臂症状的第一人称情景的分诊选择。研究涵盖10种症状描述词、两个临床阶段（部分令人安心的自我检查前后），以及有无临床干扰因素（每种条件50例）。结果：Claude最常建议紧急就医，Llama最少，GPT-4o居中；在检查后阶段差异最显著：Claude在100%的测试中呼叫911，Llama在100%中建议非紧急求助，GPT-4o则取决于症状描述。干扰因素在几乎所有条件下都使行为偏离紧急就医：检查后情景中呼叫911的比例从37.9%降至14.6%，等待观察的比例从0%升至45.9%。回答对症状用词敏感：虚弱、无力、沉重和笨拙引发更高警觉，而麻木、刺痛、异常、奇怪和怪异则导致较不紧急的响应。结论：LLM在医疗建议中的日益普及具有重大公共卫生影响。面对潜在卒中症状时，商用LLM表现出显著的模型间差异和措辞敏感性，包括对CDC标准警示描述词的识别不足，这凸显了随着这些工具成为神经急症患者事实上的首要接触点，进行系统性基准测试的必要性。
实时地理起源识别中累积上下文学习与简单历史加权方法的比较评估：基于日本八次COVID-19疫情波次的实证研究	Nakagawa, S.	2026-05-25	PDF	背景：早期确定疫情波次的地理起源对于针对性公共卫生响应至关重要。传统统计方法通过固定算法处理病例数时间序列数据，并独立分析各波次。大语言模型通过累积学习——将先前波次已确认的流行病学发现整合到后续波次预测中——提供了新方案。目前尚不清楚该方法在早期检测中是否优于传统统计基线，以及相同累积学习原理能否通过透明统计方法实现。方法：我们比较了三种计算方法在日本八次新冠流行波次（第2-8波，2020-2023年）中的表现：（1）非累积统计基线，独立处理各波次；（2）累积学习大语言模型，接收所有先前波次已确认起源作为上下文历史知识；（3）累积计算统计基线，通过透明算术评分实现相同历史加权机制。此外，我们评估了仅接收当前波次数据的非累积大语言模型条件，以分离大语言模型内在地理推理能力与累积历史知识的贡献。所有方法在波次开始后第7、14、21和28天进行评估，并与基因组学确认的波次起源进行验证。结果：累积计算统计基线在波次开始后第14天平均F1=0.51，与累积学习大语言模型表现相当（F1=0.52），优于所有非累积统计基线（F1=0.41-0.46）。第7波（奥密克戎BA.5）在14天时被两种方法正确识别（F1=1.00）。第6波（奥密克戎BA.1）所有方法均无法检测（F1=0.00），这与该波次起源超出国内监测系统范围一致。结论：性能提升源于累积历史加权机制而非大语言模型推理本身，因为透明算术实现达到了与大语言模型相当的准确率。然而，非累积大语言模型在无历史上下文时仍达到F1=0.46，表明其具备显著的内在地理推理能力。这些发现深化了对上下文学习何时及为何具有优势的理解，并提供了一种无需人工智能基础设施、可通过电子表格部署的实时疫情起源识别方法。