2026-06-12 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	发布日期	PDF链接	摘要
EvoArena：在动态环境中追踪记忆演化以实现鲁棒的大语言模型智能体	Jundong Xu	2026-06-11	PDF	大型语言模型（LLM）智能体在多项基准测试中展现出强劲性能，但多数评估仍假设静态环境。相比之下，现实部署本质上是动态的，要求智能体持续调整其知识、技能和行为以适应变化的环境与更新的任务条件。为填补这一空白，我们提出EvoArena——一个将环境变化建模为终端、软件和社交领域渐进式更新序列的基准套件。我们进一步提出EvoMem，一种基于补丁的记忆范式，将记忆演化记录为结构化的更新历史，使智能体能够通过记忆变化推理环境演化。实验表明，当前智能体在EvoArena上表现不佳，在演化的终端、软件和社交偏好领域平均准确率仅39.6%。EvoMem持续提升性能，在EvoArena上平均提升1.5%，同时将GAIA和LoCoMo等标准基准测试分别提升6.1%和4.8%。除单个任务外，EvoMem还将EvoArena上的链级准确率提升3.7%，该场景要求成功完成一系列连续相关的演化子任务。机制分析显示，EvoMem改善了记忆中的证据捕获能力，表明能更完整地保留演化环境状态。我们的结果凸显了在评估和记忆中对演化建模对于可靠智能体部署的重要性。
通过检索增强的强化微调学习类比推理	Zilin Xiao	2026-06-11	PDF	检索增强生成（RAG）已成为将语言模型锚定于外部知识的标准机制，但基于词汇或语义相似性的传统检索方法难以胜任复杂推理任务：语义相似的问题可能需要完全不同的解决策略，而表面不同的问题却可能共享相同的底层推理模式。我们提出检索增强强化微调（RA-RFT），这是一种通过类比推理训练语言模型的后训练框架。RA-RFT利用黄金相关性蒸馏训练检索器，使其根据预期推理收益而非语义重叠对上下文进行排序，随后通过强化微调方法结合检索到的类比演示对策略模型进行微调，使模型学会在可验证结果奖励下利用推理轨迹。我们进一步分析了检索上下文的多样性，发现推理感知检索能呈现互补的解决策略，为不同问题提供独特的推理支架。在具有挑战性的数学推理基准测试中，RA-RFT始终优于标准强化微调方法。例如，在AIME 2025平均@32准确率上，针对Qwen3-1.7B和Qwen3-4B模型，RA-RFT分别比GRPO提升7.1和2.8个百分点——这表明推理感知检索是独立的改进维度，与奖励设计或训练课程方面的进展正交。
InterleaveThinker：强化智能体交错生成	Dian Zheng	2026-06-11	PDF	近期图像生成器在单图生成与编辑中展现出惊人的照片真实感与指令遵循能力。然而受限于架构设计，它们无法实现交错生成（文本-图像序列），而这一能力在视觉叙事、引导与具身操控中具有关键应用。即便最新的开源统一多模态模型在此方面表现也有限。本文提出InterleaveThinker——首个旨在赋予任意现有图像生成器交错生成能力的多智能体流水线。具体而言，我们采用规划智能体组织图像-文本输入序列，指导图像生成器执行每一步所需操作。随后引入批评智能体评估生成器输出，识别偏离规划指令的样本，并优化指令以重新生成。为实现该流水线，我们构建了Interleave-Planner-SFT-80k与Interleave-Critic-SFT-112k数据集进行格式冷启动，进而开发Interleave-Critic-RL-13k数据集，利用GRPO强化生成轨迹内逐步指令修正能力。由于单次交错生成轨迹可能涉及超过25次生成器调用，优化完整轨迹在计算上不可行。因此我们提出准确率奖励与逐步奖励，使单步强化学习能有效引导整个生成轨迹。实验表明，InterleaveThinker提升了多种图像生成器的性能。在交错生成基准测试中，其表现与Nano Banana及GPT-5相当。令人惊讶的是，该方法在基于推理的基准测试中也显著增强了基础模型——例如在4步FLUX.2-klein上，我们在WISE与RISE指标中观察到大幅提升。
Mana：灵巧操作关节工具	Zhao-Heng Yin	2026-06-11	PDF	关节工具操作由于需要协调内部自由度与接触丰富的交互，仍是灵巧机器人领域的主要挑战。尽管先前研究主要聚焦于刚体物体，但关节工具的使用因其物理复杂性以及功能性抓取与操作策略的学习难度，至今仍未被充分探索。我们提出Mana（操作动画师），这是一个通用的仿真到现实框架，将灵巧操作重新诠释为动画问题。受计算机动画启发，Mana采用从粗到细的流水线，通过运动规划与强化学习，将程序化生成的抓取关键帧转化为操作轨迹。数据生成过程基本实现自动化，仅需数次鼠标点击即可指定功能可供性（每件工具耗时<1分钟）。在涵盖不同尺度与关节类型的四种关节工具上，Mana实现了抓取与手内操作的零样本仿真到现实迁移，为灵巧关节工具使用提供了可扩展的解决方案。
面向可扩展空间生成的模态强制	Bardienus Pieter Duisterhof	2026-06-11	PDF	文本到图像（T2I）模型包含丰富的空间先验知识。合成逼真且杂乱的场景需要理解几何结构，包括透视和相对尺度。先前的研究通过调整T2I模型利用这一先验进行深度预测，但需要密集的深度数据并涉及复杂的方案。我们提出模态强制（Modality Forcing），这是一种简单、可扩展的后训练方案，使用在稀疏深度数据上训练的单一DiT模型实现图像与深度的联合生成。模态强制通过为每个模态分配独立的噪声水平，支持图像和深度以任意排列进行条件生成与联合生成。每个模态的解码器使我们能够在稀疏的真实世界深度数据上训练，并实现强泛化能力的深度预测。我们进一步证明模态强制继承了T2I预训练的可扩展性：通过从头训练一组T2I模型（参数规模从3.7亿到33亿），我们发现使用更多图像数据训练的更大模型能产生更精确的深度。我们的最强模型与最先进的单目深度估计器性能相当，相比现有的图像-深度联合生成模型，绝对相对误差（AbsRel）降低了57%。这些结果有力证明，图像生成是空间感知任务中可扩展的预训练目标。https://modality-forcing.github.io/
RepWAM：基于表征视觉-动作分词器的世界动作建模	Junke Wang	2026-06-11	PDF	本文提出RepWAM，一种基于表征视觉-动作分词器的表征中心世界动作模型。现有世界动作模型通常继承自预训练视频生成模型的重建导向分词器。尽管这些分词器能保持视觉保真度，但仅靠像素重建对学习连接未来预测与机器人控制的指令遵循动态提供的指导有限。为此，我们探索了用于表征中心世界动作建模的语义视觉-动作潜在空间。具体而言，我们训练了一个表征视觉-动作分词器，将视觉输入映射为对齐的视觉与潜在动作标记。随后预训练世界动作模型，使其在语言指令下联合建模未来视觉状态及连接这些状态的潜在动作，并通过适配真实机器人轨迹实现闭环操作。在真实世界操作任务与仿真基准上的实验表明，RepWAM在多种操作场景中均展现出强劲性能，而消融实验凸显了语义视觉-动作分词相较于重建导向方案的优越性。这些结果确立了表征视觉-动作分词作为世界动作模型的有前景基础，并朝着通用机器人策略迈进一步。代码与权重将发布于https://github.com/wdrink/RepWAM。
SpatialClaw：重新思考智能体空间推理的动作接口	Seokju Cho	2026-06-11	PDF	空间推理——即确定物体位置、相互关系及三维运动的能力——仍是视觉语言模型（VLM）面临的基础性挑战。工具增强型代理试图通过为VLM配备专业感知模块来解决这一问题，但其有效性受限于调用这些工具的动作接口。本研究探讨了该接口设计如何塑造代理进行开放式空间推理的能力。现有空间代理要么采用单次代码执行策略（在观察到任何中间结果前就确定完整分析方案），要么依赖结构化工具调用接口（通常缺乏自由组合操作或针对任务定制分析的灵活性）。这两种设计均难以支持开放式的复杂三维/四维空间推理。为此我们提出SpatialClaw——一种无需训练的空间推理框架，采用代码作为动作接口。SpatialClaw维护着预加载输入帧及感知与几何原语集合的有状态Python内核，让基于VLM的代理能根据所有先前输出逐步骤编写可执行代码单元，从而灵活组合操作感知结果，并根据中间文本/视觉观察及具体问题需求动态调整分析策略。在涵盖静态与动态三维/四维空间推理任务的20项基准测试中，SpatialClaw取得59.9%的平均准确率，较最新空间代理提升11.2个百分点，且在两个模型家族的六种VLM骨干网络上均实现一致性提升，无需针对特定基准或模型进行适配。
$\texttt{WEAVER}$：更好、更快、更长——一种有效的机器人操作世界模型	Arnav Kumar Jain	2026-06-11	PDF	世界模型（WMs，即学习型模拟器）对机器人技术的潜在影响深远——策略评估、策略改进和测试时规划——所有这些都只需有限的真实世界交互。为解锁这些下游能力，世界模型需同时满足三个必要条件：$\textit{(i)}$ 保真度（即生成与真实世界相关的模拟轨迹）、$\textit{(ii)}$ 一致性（即生成在长时间跨度内保持连贯的模拟轨迹）以及$\textit{(iii)}$ 效率（即快速生成模拟轨迹）。我们提出$\texttt{WEAVER}$（面向具身推理的多视角世界估计）：一种同时实现这三个必要条件的世界模型架构，在机器人操作任务上取得了最先进成果。$\texttt{WEAVER}$是一种多视角世界模型，通过流匹配损失训练以预测未来潜在状态和奖励值。我们提炼了模型架构、记忆和预测目标中的关键设计决策，这些决策对于解锁此前世界建模方法难以处理的长时间动态操作任务至关重要。我们将$\texttt{WEAVER}$应用于机器人硬件，展示了其在策略评估（与真实世界成功率的相关系数$ρ$=0.870）、策略改进（在$π_{0.5}$机器人基础模型基础上真实世界成功率提升$38\%$）和测试时规划（真实世界成功率提升$14\%$，且速度较先前世界模型快$5-10$倍）方面的有效性。$\texttt{WEAVER}$在分布外场景评估中也展现出优于先前世界模型的性能。代码、模型和视频见：https://arnavkj1995.github.io/WEAVER/。
理解用于图神经网络的截断位置编码	James Flora	2026-06-11	PDF	位置编码（PEs）在理论和实践上均能增强图神经网络（GNNs）的能力。两类最主流的PEs——谱类（如拉普拉斯特征空间、有效电阻）和游走类（邻接矩阵的多项式）——在表达能力上理论等价，其表达能力介于1-WL与3-WL测试之间。然而，这种等价性假设GNN使用这些PEs的"完整"版本，这需要$O(n^3)$的时间和空间复杂度。实际应用中，研究者通常使用这些编码的截断变体，例如前$k$个特征空间或邻接矩阵的幂次。但截断PEs的理论性质尚不明确。本研究首次系统探究截断PEs。理论上，我们证明在截断条件下，多类PEs在表达能力上存在根本性差异。作为推论，我们表明截断谱类PEs不再强于1-WL测试。我们还研究了一类谱PEs——$k$阶调和距离，以揭示即使密切相关的截断PEs在表达能力上的差异。最后，实验证明在真实数据集上，混合使用截断PEs优于任何单一类型。
使用大型语言模型进行社会与行为科学的自动化可重复性评估	Tobias Holtdirk	2026-06-11	PDF	在社会科学与行为科学中，可重复性通常由独立研究人员通过重新分析原始数据来评估，以判断已发表的研究结果能否复现。然而，这类方法资源消耗大且难以规模化。本研究证明，大型语言模型（LLMs）能够自动化可重复性评估。我们选取了行为与社会科学领域N=76项已发表研究（含预设结论），将LLM生成的分析结果与原始发现及人类重新分析结果进行对比。其中7项研究中，LLM无法生成有效的效应量估计值。在其余研究中，我们的LLM流程在Cohen's d值±0.05容差范围内，成功复现了41%研究的原始效应量。此外，在96%的案例中，LLM流程得出了与原始研究一致的定性结论（即重新分析是否支持原始主张）。作为对比，人类重新分析者在34%的研究中复现了原始效应量，并在74%的案例中得出相同定性结论。综合来看，这些结果表明LLM可作为自动化可重复性评估的可扩展工具，为社会科学与行为科学实证结果的系统性审计奠定基础。

bioRxiv

标题	作者	发布日期	PDF链接	摘要
入侵性软珊瑚伞形伞花软珊瑚已在古巴水域得到确认。	Schizas, N. V.	2026-06-12	PDF	2022年9月和2023年10月，在古巴哈瓦那以东的两个沿海区域发现形态异常的八放珊瑚群体，初步鉴定为Unomia stolonifera。U. stolonifera是一种源自印度-太平洋的入侵性八放珊瑚，于2000年代首次在委内瑞拉附近的加勒比海域被报道，此后迅速扩散，覆盖珊瑚礁并显著改变底栖生物群落。在获取古巴八放珊瑚群体的组织样本后，我们通过三个线粒体区域（16S/ND2、mtMutS、COI）和核大核糖体亚基（28S rRNA）的分子条形码技术重新检测标本，明确鉴定其为Xenia umbellata。X. umbellata原产于红海，于2023年10月在波多黎各南部首次被发现，随后在该岛南部沿海的多种海洋生态系统中出现。由于这两种入侵性八放珊瑚具有已知的耐受性、全能性、繁殖能力，并对当地底栖动物群产生显著负面影响，其在古巴或加勒比其他地区的存在将引发严重的环境担忧。目前已在古巴水域启动根除入侵软珊瑚群体的行动，并取得初步成效，有助于控制其进一步扩散。最可能的引入途径是水族贸易的意外或有意释放，但通过压舱水运输的可能性也无法排除。我们不能忽视波多黎各和古巴在一年内通过不同路线发生独立入侵事件的可能性。而我们认为极不可能的从古巴向波多黎各或反向传播的情况，可能意味着软珊瑚群体也已在伊斯帕尼奥拉岛建立种群，但至今未在多米尼加共和国和海地被发现。
社会性驱动啮齿类动物听觉脑干处理的性别差异。	Joseph, L.	2026-06-12	PDF	尽管已有研究预测社会行为与发声信号的复杂性增加相关，但其与两性听觉敏感度的关系仍不明确。本研究采用系统发育比较分析方法，探究了代表不同社会生活方式策略的啮齿类动物在听觉处理过程中的性别特异性差异。我们发现，在不同社会性群体中，雌性啮齿动物对短声和频率诱发的听觉脑干反应（ABR）阈值显著低于独居雄性。雄性通常表现出比雌性更高的ABR波I和波IV振幅比，而各社会群体中两性的峰间潜伏期相似。在测试的不同耳间时间差（ITDs）条件下，雌性表现出显著高于雄性的双耳交互成分（BIC）相对振幅和更快的BIC标准化潜伏期。这些发现共同表明，社会性在塑造雌雄啮齿动物听觉生理差异中起重要作用，并凸显了社会行为对哺乳动物听觉系统进化的潜在影响。
中国安徽蛙属一新种（无尾目，蛙科）	He, Z.	2026-06-12	PDF	由于林蛙属（Rana）物种形态特征高度相似，其多样性可能被低估。基于采自中国安徽省六安市金寨县天马国家级自然保护区的8号标本，本研究界定了一个林蛙属新物种。基于三个线粒体基因（12S、ND2和Cyt b）及一个核基因（BDNF）的系统发育分析表明，该新物种形成独立分支，与库莱蛙（R. culainensis）亲缘关系密切且获得强支持。此外，形态分化结果证实了系统发育分析结论，两者共同支持日本林蛙种组（R. japonica species group）中一个新物种（天马林蛙 Rana tianmaensis sp. nov.）的有效性。该新物种的发现提升了人们对林蛙属生物多样性的认知，可为保护区建设、生态保护及物种多样性科学决策提供重要基础数据。随着本研究新描述物种的纳入，中国林蛙属已知物种数量已达31种。
早期视觉皮层中的多彩预测模板	Bartsch, M. V.	2026-06-12	PDF	预测处理理论认为，我们的大脑会持续预测即将到来的感官信息，尽管这些预测的精细程度和具体感官内容仍存在争议。本研究探讨视觉皮层区域是否能在预期刺激出现前携带颜色信息。37名人类参与者观看以可预测序列呈现的彩色圆盘刺激，使大脑能够形成对后续颜色的预期，同时通过高时空分辨率技术（脑电图与脑磁图联合记录）追踪大脑反应。基于独立颜色定位数据集训练的解码模型，成功在仅有灰色占位符的刺激前阶段重建了预测颜色。因此，我们的研究结果表明，大脑早期视觉区域在缺乏外部颜色输入的情况下，能够形成颜色信息的预期表征，且其表征格式与真实感官输入相似。
感觉刺激在背侧中脑被盖区的血清素和多巴胺神经元中引发不同的尖峰反应。	Földi, P.	2026-06-12	PDF	背侧中脑被盖区，包括中缝背核（DRN）和腹外侧导水管周围灰质（vlPAG），包含多种神经元群体。在该区域中，5-羟色胺（5-HT）和多巴胺（DA）神经元是主要的单胺能细胞类型，对脑回路产生广泛影响。尽管5-HT和DA神经元在感觉整合中的作用已得到充分证实，但其刺激驱动的尖峰活动特征仍不完全清楚。通过在小鼠中使用硅探针记录，我们发现超过57%的DRN/vlPAG神经元对足部电击和机械刺激有反应，而少于15%的神经元在光或声刺激后表现出尖峰活动变化。在群体水平上，使用近细胞记录法获得了类似结果，该方法可对5-HT和DA神经元进行事后鉴定。在足部电击刺激下，5-HT神经元表现出异质性反应，包括兴奋和抑制，而DA神经元通常增加其放电频率。我们发现缺乏血管活性肠肽（VIP）的DA神经元在足部电击后第一秒内放电，而表达VIP的DA神经元在后期最为活跃。综合来看，我们的结果表明DRN/vlPAG神经元对足部电击和机械刺激最为敏感。此外，5-HT和DA神经元在接收厌恶输入后表现出不同的激活模式，表明它们在感觉信息处理中发挥不同作用。
早期资源匮乏导致女性前额叶皮层持续的转录变化和血管重塑。	Andrews, E. R.	2026-06-12	PDF	早期贫困是精神疾病和神经退行性疾病的环境风险因素，但资源匮乏如何通过细胞机制导致大脑持续脆弱仍不清楚。内侧前额叶皮层（mPFC）作为调控执行功能和动机行为的关键脑区，对早期环境条件高度敏感。为揭示早期资源匮乏与mPFC持续功能障碍之间的关联机制，我们采用大鼠有限垫料筑巢（LBN）模型——该模型可复现贫困的核心特征。既往研究表明，LBN会破坏成年期mPFC介导的行为，且常呈现性别特异性。本研究通过单细胞核RNA测序（snRNAseq），鉴定出生后短暂LBN暴露或对照饲养条件下成年大鼠mPFC中性别与细胞类型特异性的转录组改变。结果显示，LBN在雌性多个锥体神经元簇中诱导的差异表达基因（DEGs）数量多于雄性。出乎意料的是，LBN引发的最大转录变化出现在雌性血管细胞中，而雄性血管细胞未检测到DEGs。这些雌性特异性血管基因富集于调控血管生成和内皮结构的转录程序改变。通过三维血管重建正交验证该分子特征，发现LBN导致成年雌性mPFC血管覆盖率降低，其机制为血管体积减小和血管长度缩短，而雄性未受影响。血管覆盖率降低可能限制该区域的代谢支持。出生后时期是血管成熟的关键窗口期，综合这些发现，我们鉴定出持续性、雌性特异性的血管改变是一种此前未被认知的新机制，早期资源匮乏可能通过该机制持续影响脑功能与脆弱性。
出生后人类神经干细胞的分离	Liu, D. D.	2026-06-12	PDF	过去曾认为神经发生在出生时即已完成，但如今已明确人类大脑在出生后仍会持续产生新的神经元，至少持续至儿童期。尽管出生后诞生的神经元备受关注，但其假定的前体细胞——出生后神经干细胞（NSC）——仍缺乏系统表征。我们通过索引分选技术，从出生后人类大脑中鉴定并前瞻性分离出两类NSC亚群，并利用克隆条形码和体内异种移植技术描述其分化动态。研究证实存在偏向中间神经元和少突胶质细胞命运的A2B5+EGFR+群体（NINO），以及偏向星形胶质细胞命运的A2B5-EGFRhi群体（NAC）。对全生命周期人类大脑的谱系分析显示，NSC频率在生命前二十年呈指数级下降，此后趋于稳定，甚至在90岁捐赠者的大脑中仍可检测到。本研究为出生后人类NSC的功能研究及其在发育、衰老和疾病中的潜在作用提供了框架。
外侧隔核中VGLUT3阳性轴突末梢的解剖学组织与起源。	Elvers, L. I.	2026-06-12	PDF	外侧隔核（LS）整合来自多个脑区的传入信号，包括中缝核。这些传入信号的组织方式有助于LS功能的区域化，例如背侧LS的空间编码和腹侧LS的情绪调节。中缝核-LS投射包含表达囊泡谷氨酸转运体3型（VGLUT3）的谷氨酸能轴突，这些轴突常围绕LS神经元形成篮状结构。本研究对LS中VGLUT3阳性（VGLUT3+）中缝核传入信号的组织结构和起源进行了解剖学表征。我们绘制了LS头尾轴方向上VGLUT3+轴突末梢密度分布图，并通过免疫组化定量分析了其与5-羟色胺（5-HT）的共定位情况。结果显示，VGLUT3密度在腹侧LS最高，而VGLUT3/5-HT共定位在背侧LS最强。逆行病毒载体示踪发现，主要传入信号来自中缝核和B9神经元群。值得注意的是，已知也接收中缝核VGLUT3传入信号的功能相关区域——腹侧海马，与LS存在侧支投射。此外，来自脚间核、终纹床核、不确定核和脑桥中央灰质的VGLUT3+传入信号也投射至LS。顺行示踪显示，这些脑区的传入信号靶向LS中不同且基本不重叠的区域。我们的研究揭示了LS中VGLUT3+传入信号的多源性（不仅限于中缝核），并提示不同的VGLUT3环路可能参与LS的功能特化。
突触前和突触后神经元的协同效应在体内产生三阶段短时程可塑性。	Teh, K. L.	2026-06-12	PDF	短时程可塑性（STP）是指两个神经元之间连接强度的短暂波动，其变化取决于近期神经活动历史。STP随时间塑造神经递质传递，并在神经回路计算中发挥重要作用。经典离体研究中，STP的量化通常基于突触水平或从突触前神经元到突触后神经元的脉冲传递水平。然而，在体条件下，STP过程中突触后树突反应与脉冲传递之间的确切关系仍不明确。本研究在小鼠视网膜-上丘通路中，同步表征了突触后树突反应（通过突触后场电位PFP测量）与脉冲传递的STP特征。我们发现主要表现为易化型STP：当第二个突触前脉冲在25毫秒内发生时，会诱发更大的PFP，进而导致比首个突触前脉冲反应更高的突触后放电频率。PFP与脉冲传递均呈现短时程易化，但程度不同——脉冲传递的易化幅度大于PFP。两者易化衰减的时间常数也存在差异，表明二者呈非线性关系。有趣的是，当后续接收到突触前输入时，先前的突触后脉冲可诱发幅度相似但持续时间更长的脉冲传递易化。然而，PFP的STP并不依赖于先前的突触后脉冲，提示这种更持久的突触后易化具有非突触起源。总体而言，我们的结果表明视网膜-上丘通路的STP呈现三个不同阶段：1）突触后树突反应的弱突触易化，2）脉冲传递的强突触易化，3）脉冲传递的持久非突触易化。通过计算模型，我们证明第二阶段STP直接继承自第一阶段，而第三阶段STP的出现需要两种时间常数相反的非突触机制共同作用。这些发现为突触性与非突触性STP在体共存提供了直接证据，为大规模测量这些STP奠定基础，并提供监测行为动物神经回路信息传递的手段。
RAI1保障人类神经发育基因表达的保真度与节奏	Zhou, B.	2026-06-12	PDF	与其他物种相比，人类大脑发育的时间线异常漫长，这一特征被认为有助于形成高级认知能力。视黄酸诱导基因1（RAI1）编码一种核小体结合蛋白，其单倍体剂量不足会导致史密斯-马吉利综合征（SMS），这是一种以认知障碍伴自闭症特征为表现的神经发育疾病。然而，RAI1在人类神经发育中的作用尚未通过实验探究。本研究构建了等基因杂合和纯合RAI1功能缺失的人类胚胎干细胞系，并探究了RAI1在神经发育基因调控中的作用。通过体外皮层发育过程中的纵向转录组分析发现，RAI1缺失会加速发育基因表达进程，包括突触基因的提前诱导。单细胞RNA-seq分析显示，RAI1缺陷的神经祖细胞会短暂获得中胚层样基因表达特征，随后在分裂后神经元中表达促神经元成熟基因。出乎意料的是，在NGN2诱导的兴奋性神经元分化过程中，发育加速特征进一步加剧，提示RAI1与NGN2驱动的程序之间存在功能互作。综上，这些结果将RAI1鉴定为中胚层谱系程序的抑制因子，以及减缓人类神经发育基因表达节奏的新型制动器。

medRxiv

标题	作者	发布日期	PDF链接	摘要
同居伴侣减少夜间智能手机使用：基于健康行为社会控制理论的纵向研究	Klasson, T. A.	2026-06-12	PDF	目的：本研究基于健康行为社会控制理论，探讨与伴侣同居与夜间智能手机使用之间的关联。背景：夜间使用智能手机是睡眠问题的行为风险因素。既往研究主要关注睡眠障碍的个体层面风险，但社会情境的作用尚未充分探索。健康行为社会控制理论框架表明，社会关系会调节健康相关行为，但尚不清楚这种调节作用在夫妻间的现代数字行为中能延伸多远。方法：我们分析了SmartSleep研究三轮调查数据（2018年、2020年和2023年；总样本量N=25,028），包括纵向随访子样本（N=1,003）。通过拟合广义线性混合效应模型，检验了与伴侣同居、同居状态变化与频繁夜间使用智能手机之间的多变量关联。此外，我们采用非线性相关层次聚类法，绘制了社会融合指标、社会支持、智能手机使用与睡眠质量之间的复杂交互关系。结果：与独居者相比，同居参与者频繁夜间使用智能手机的几率更低（OR=0.66；95% CI: 0.61, 0.72）。这种较低风险主要由与伴侣同居驱动（OR=0.49；95% CI: 0.36, 0.66）。纵向分析支持这些发现，显示持续同居与较低频率的夜间使用相关（OR=0.56；95% CI: 0.38, 0.82）。聚类分析表明，社会融合与支持指标与良好睡眠质量聚类。结论：我们的发现表明，与伴侣同居的健康保护效应可延伸至数字行为。与健康行为社会控制理论一致，伴侣的存在似乎能减少频繁的夜间智能手机使用，这凸显了在解决数字健康卫生和促进睡眠时考虑社会情境的关键重要性。
解析2024-2025年留尼汪岛基孔肯雅病毒疫情的流行病学与传播动态	Frumence, E.	2026-06-12	PDF	留尼汪岛在2024-2025年间爆发了大规模基孔肯雅病毒疫情，确诊病例超过5.4万例。这是该岛继20年前首次疫情高峰后遭遇的第二次重大基孔肯雅疫情。据称此次新疫情源于单一病毒引入事件，这为利用病毒基因组数据解析引入传播链的流行病学特征和扩散动态提供了契机。我们对疫情期间采集的3000余份病毒基因组进行了测序。借助这一基因组数据集，我们运用多种系统地理学和系统动力学方法，揭示了传播链的扩散路径，以及可能影响其在岛上传播和流行病学动态的外部因素。分析显示，其扩散模式符合重力模型动态特征——病毒传播事件在人口密集区域间的发生频率更高。研究还表明，该传播链在空间上整体呈现混合状态，居民区之间存在频繁的病毒交换。此外，我们发现疫情的时间动态和强度与气候变量（即温度和降水量）存在关联。研究结果同时表明，理论上，本次疫情与上次疫情（2005-2006年）共同形成的群体免疫力，可能足以单独解释导致疫情结束的传播率下降现象。尽管不能排除短期复发的可能性，但在未来几个季节中，病毒在人群中大规模传播的风险似乎相对有限。
美国健康青少年中经生化验证的物质使用的加权流行率	Wade, N. E.	2026-06-12	PDF	背景与目标：青少年物质使用是重要的公共卫生问题，但由于依赖自我报告的物质使用信息，问题的实际范围难以确定。近期针对青少年和年轻成人的大型队列研究表明，物质使用存在漏报现象。本研究旨在通过毛发样本分析，评估自我报告物质使用与生化验证结果的一致性，并估算美国青少年最常报告的三种物质的使用率。研究设计：采用观察性纵向队列研究设计。通过液相色谱和气相色谱串联质谱法（LC或GC/MS-MS）检测毛发样本中的生化验证物质使用情况，并将结果与自我报告的物质使用数据进行比较。采用多步骤加权方法估算大麻、酒精和尼古丁使用随时间变化的全国流行趋势，并校正因招募人口学特征、失访及毛发样本检测导致的样本代表性偏差。研究场所与参与者：数据来自美国全国性青少年脑认知发展研究（样本量n=11,868；基线年龄9-10岁，第6波年龄15-16岁）。参与者每年接受随访，数据采集时间为2016年至2024年。测量指标：通过毛发样本客观检测部分参与者（样本量nsamples=11,865；n=6,133名独立参与者）至少数日的物质使用情况。参与者自我报告过去3个月的物质使用情况。将社会人口学、个体及环境层面因素纳入逆概率权重，以估算青少年大麻、酒精和尼古丁使用的全国流行率。研究结果：自我报告与毒理学数据的一致性随年龄增长而提高（大麻：11-12岁<1%；15-16岁=45%）。基于生化验证的加权估计显示，15-16岁青少年中7.1%（95%CI: 6.0-8.3）存在生化检测到的大麻使用，0.2%（95%CI: 0.1-0.4）使用酒精，4.7%（95%CI: 3.7-6.0）使用尼古丁。结论：青少年自我报告的物质使用模式显示，其与生化验证的一致性随年龄增长而提高。生化验证表明，15-16岁青少年中大麻和尼古丁的使用率显著，支持在条件允许时结合毒理学与自我报告数据以更准确识别青少年物质使用情况。
解读部分接种人群中的同配混合现象对突破性感染的影响	Harris, M. J.	2026-06-12	PDF	全美疫苗接种覆盖率下降，增加了疫苗可预防疾病暴发的风险。即使疫苗原发失败率较低，传统流行病学理论仍预测疫苗覆盖率与接种者中突破性感染比例之间存在强非线性正相关关系。这些突破性感染可能引发"疫苗无效"的误解，加速公众信心与接种覆盖率的下降。本研究旨在检验传统流行病学理论中关于个体随机混合（不考虑疫苗接种状态）的预测。与随机混合模型的预期相反，我们发现美国七个州麻疹暴发数据中的突破性感染比例远低于理论值。为探究这一差异，我们评估了考虑相同疫苗接种状态人群优先混合（"同配性"）的替代性房室疾病模型。该模型预测的突破性感染比例显著低于传统模型，与麻疹暴发数据观察结果一致（即使考虑病例报告潜在偏差）。随后，我们利用十六个州幼儿园的全州与学校层面MMR疫苗覆盖率差异，发现所有案例均存在显著同配性。考虑优先混合的模型预测突破性感染总数呈非线性特征，在低于疫苗诱导群体免疫的中间覆盖率处达到峰值。全国范围内，超过90%报告MMR覆盖率的县高于模型预测的突破性感染最大化覆盖率，表明若覆盖率下降，这些地区面临突破性感染增加的风险。疫苗接种推广与监测活动应制定前瞻性策略，在原发失败率较低阶段即对突破性感染进行情境化解读，以防可预防疾病在人群层面大规模增加。
免疫抑制方案与长期肾移植结局：一种双重生存建模框架	Apanisile, K.	2026-06-12	PDF	优化免疫抑制治疗仍是改善肾移植术后长期预后的核心策略。诱导治疗与维持治疗虽已广泛应用，但其在不同人群中的相对疗效仍需进一步评估。为此，本项全国性回顾性队列研究利用2000-2024年二十余年数据，分析了228,855例尸体供肾移植受者。我们采用多变量Cox比例风险模型进行临床推断，并应用四种机器学习生存模型：随机生存森林、支持向量机、惩罚Cox回归及基于Cox偏似然优化的极端梯度提升，评估死亡删失移植物衰竭与全因患者死亡率的预测性能。模型性能通过一致性指数和时间依赖性曲线下面积进行评价。含钙调磷酸酶抑制剂与霉酚酸酯的维持方案对移植物衰竭（CNI+MMF：风险比0.72，95%置信区间0.70-0.74；CNI+MMF+激素：HR 0.84，95%CI 0.82-0.87）和患者死亡率（CNI+MMF：HR 0.78，95%CI 0.76-0.81；CNI+MMF+激素：HR 0.90，95%CI 0.88-0.93）均显示保护效应。诱导治疗中，抗胸腺细胞球蛋白显示保护性关联（两种结局HR均为0.93），而白细胞介素-2受体拮抗剂和阿仑单抗呈中性效应。ATG联合IL-2R治疗相对增加移植物衰竭风险（HR 1.09）。受者糖尿病、透析依赖、高龄及更高肾脏供者风险指数是强不良预测因素。传统Cox回归达到稳健的区分能力（移植物衰竭C指数：0.685；患者死亡率C指数：0.704），与机器学习生存模型相当。这些发现强化了CNI与MMF维持方案作为当代免疫抑制基石的地位，同时揭示了不同诱导策略的差异化疗效。整合经典Cox比例风险模型与机器学习生存模型的双重分析框架表明，Cox模型在临床推断中仍具高度竞争力，而机器学习方法可为个体化移植后风险分层提供补充预测价值。
基于成人生物库的证据：基因组新生儿筛查优先基因中疾病变异的长程外显率	Gold, N. B.	2026-06-12	PDF	重要性：基因组新生儿筛查（gNBS）是一项潜在的公共卫生干预措施，但其阳性预测值（PPV）仍不确定。估算优先筛查基因中致病/可能致病（P/LP）变异体的患病率和外显率，可能有助于阐明gNBS的长期PPV和临床效用。目的：比较基于ICD的判定、电子病历（EMR）审查及临床评估在携带54个优先用于gNBS基因P/LP变异体的成人中的遗传病诊断效果。设计：基于医院队列的双队列观察性研究，结合EMR审查与临床评估。地点：英国生物银行（UKB）和马萨诸塞总医院布里格姆生物银行（MGBB）。参与者：UKB的451,877名成人和MGBB的53,371名成人，均具有外显子组测序数据。暴露：54个经专家共识优先用于gNBS的基因中，符合各基因遗传模式的P/LP变异体。主要结局与指标：主要结局是MGBB参与者中通过ICD与EMR判定为患病者比例的绝对差异。次要结局包括对未确诊MGBB参与者的临床评估结果、校正后的UKB外显率估计值，以及外推至美国年度出生队列和现存成人人群的结果。结果：在665名UKB参与者（0.15%）和82名MGBB参与者（0.15%）中检出P/LP变异体，约每650人中1例。在MGBB中，EMR审查显示58/82人（70.7%）未确诊，但其中25/58人（43.1%）有记录的症状。39.0%（32/82）的参与者存在疾病相关ICD编码，而EMR审查发现59.8%（49/82）有症状（McNemar检验P<.001）。将此校正应用于UKB后，外显率为28.4%（95% CI，18.6%至38.2%），提示除ICD编码识别的51人外，可能另有73至203名参与者存在疾病临床特征。外推至美国出生队列，每年约有4,900至5,700名新生儿携带这些基因的P/LP变异体并存活至成年。约355,000至410,000名美国成人可能携带这些基因的P/LP变异体。结论与相关性：优先用于gNBS基因中P/LP变异体的外显率显著高于ICD估计值。许多携带P/LP变异体的成人有症状但未确诊，这支持将这些基因纳入gNBS。
评估免疫介导炎症性疾病与神经退行性疾病患者的高频自动化认知任务。	Kaula, A. J.	2026-06-12	PDF	本分析基于大型国际研究“识别神经退行性疾病与免疫介导炎症性疾病中疲劳、睡眠及日常活动数字终点”（IDEA-FAST）的数据，评估了智能手机日常数字认知评估（DCAs）的可行性与心理测量学特性。我们分析的数据来自神经退行性疾病（NDDs）患者、免疫介导炎症性疾病（IMIDs）患者以及健康对照组（参与所有研究阶段的子集，总样本量N=977），均在受试者家中采集。这些数据与其他监测生理、运动学和睡眠质量的设备数据同步获取。在基线访视后，受试者在4个主动评估阶段（APs）中，每个阶段通过每日3次预定会话进行远程监测，每次持续6-7天。各AP间隔6周。每日日程包括：早晨的精神运动警觉任务（PVT）及电子日记、下午会话（仅电子日记）、傍晚的数字符号替换任务（DSST）及电子日记。我们采用逻辑混合效应模型评估会话覆盖率，通过组内相关系数（ICC）评估重测信度，使用线性混合效应ANCOVA评估疾病对表现的影响，并利用线性混合效应模型分析熟悉化效应。PVT总体覆盖率为67.5%，DSST为77.0%，健康志愿者与疾病队列间无显著差异。覆盖率因时段显著变化（傍晚>早晨>下午），且随年龄增长而提高，交互作用显示时段对老年受试者影响较小（所有p<0.001）。AP1覆盖率最高，后续AP中降低。AP-日效应与AP存在显著交互作用：AP1中覆盖率随天数小幅下降，而AP2-4中模式反转。所有队列中，PVT平均反应时间和DSST正确总数的基线信度良好（>0.70），DSST基于运动的测量指标范围为[0.55, 0.75]，其中帕金森病和原发性干燥综合征队列的数值较低。两项任务均显示显著队列效应，IMID队列的表现介于健康对照组与NDD之间。纵向分析显示DSST存在显著熟悉化效应，健康对照组效应最大，疾病队列中该效应显著减弱。PVT未观察到熟悉化效应。综合而言，这些结果支持在智能手机上进行居家认知评估的实用性。无论是疾病组还是对照组，均可通过远程方式采集简短认知指标，且具有良好的依从性和区分已知患者群体与健康对照的敏感性。
从聚合数据估计时变疫情严重率面临的挑战	Goldwasser, J.	2026-06-12	PDF	病死率和住院病死率等严重程度指标是公共卫生领域的关键指标。为应对新变异株或疫苗等变化而指导决策，必须实时了解这些比率的变化。实践中，时变严重程度率通常通过汇总计数的比率进行估算。我们证明这些估算器可能表现出较大的统计偏差，对公共卫生实践具有令人担忧的影响——它们可能无法检测到风险升高，或错误地发出不存在激增的信号。我们通过真实和模拟的COVID-19数据实验来补充数学分析。最后，我们讨论减轻这种偏差的策略，并与有效再生数估算建立联系。
使用语义对齐的协方差子空间，对异常多变量精神反应配置进行可审计的跨仪器检测	Periwal, V.	2026-06-12	PDF	背景：传统精神科筛查工具将症状总结为独立量表，并优先处理单一量表加和评分严重程度较高的病例。这种设计将各量表内的条目视为独立变量，忽略了跨量表的协方差结构，因此对回答分布在多个领域且组合异常、但每个单独量表均未达到阈值的受访者不敏感。方法：我们分析了涵盖老年和年轻成年人的两个队列。使用预训练句子编码器将抑郁、压力、焦虑和睡眠量表的条目提示嵌入共享语义空间。仅对条目提示嵌入进行主成分分析（此阶段不使用受访者数据），构建保留条目嵌入矩阵80%方差的低维子空间。将标准化后的参与者响应投影至该子空间，采用基于Jaccard的稳定性分析检验维度稳健性。使用Ledoit-Wolf协方差正则化的马氏距离量化与队列常态的多元偏差。候选异常值由队列特异性距离分布的经验第95百分位数定义。为排除传统单一量表极端值逻辑已捕获的响应配置，我们剔除了在任何量表上对任意条目选择李克特量表最大值的异常受访者。对剩余异常值，将异常成分回溯至原始条目载荷进行解释。结果：在老年人群的健康与退休研究（HRS）队列中，27个条目提示嵌入的主成分分析显示10维子空间能稳定表征跨量表语义结构。在年轻人群的新乡队列中，对应稳定解为16维。每个队列中均有7名受访者虽未达到任何单一量表极端值阈值，但仍被识别为多元异常值。这些病例并非表现为统一严重的症状评分，而是呈现仅在共享语义协方差子空间中可见的跨领域异常响应配置。保留配置的响应结构存在队列差异：老年病例更常表现为情绪标签条目弱认可伴随非零的身体和睡眠相关响应，而年轻病例更常涉及涵盖情绪、睡眠、压力和自伤相关条目的不完整响应配置。结论：语义对齐且可审计的协方差子空间为标记单一量表加和筛查可能遗漏的异常多元响应配置提供了实用工具。该方法可在原始条目贡献层面进行解释，应被视为生成异常响应配置假设的筛查手段（需进一步临床评估），而非诊断工具。其结局效度仍有待前瞻性研究验证。
高覆盖率，持续存在的差距：基于2024年人口与健康调查的赞比亚产前保健质量及其决定因素。	Tukamuhebwa, P. M.	2026-06-12	PDF	摘要背景评估产前保健（ANC）质量对降低孕产妇和新生儿死亡率至关重要。在赞比亚，尽管基础产前保健就诊率较高，但关于服务临床内容与质量的全国性综合证据仍然有限。本研究利用最新全国数据，评估了世界卫生组织推荐的产前保健干预措施的覆盖范围，并识别了与护理质量相关的因素。方法采用2018年赞比亚人口健康调查数据进行横断面分析。最终分析样本包括4829名年龄在15-49岁、过去5年内有活产经历的妇女。通过包含15项等权重的WHO推荐指标的综合指数，评估临床检查、咨询/筛查、预防性干预及服务利用情况。采用调查加权泊松回归估计产前保健服务项目数量的调整后发生率比（aIRR）。结果产前保健质量平均得分为12.5分（满分15分，95% CI: 12.4-12.6），78.5%（95% CI: 77.0-80.0）的妇女获得了充分产前保健（≥12/15项）。尽管单项临床检查和咨询覆盖率普遍超过90%，但仅有47.2%（95% CI: 45.3-49.0）的妇女在孕早期启动保健，仅4.8%（95% CI: 4.1-5.6）达到≥8次产前保健接触。在所有模型中，母亲教育程度是质量最稳定且最强的预测因子。与未受教育者相比，高等教育与预期质量评分提高8.0%相关（aIRR = 1.080, 95% CI: 1.051-1.110）。非意愿妊娠（aIRR = 0.970, 95% CI: 0.956-0.993）以及居住在西部省（aIRR = 0.923, 95% CI: 0.897-0.951）和西北省（aIRR = 0.966, 95% CI: 0.937-0.996）与较低产前保健质量显著相关。无距离障碍、居住在东部省、卢阿普拉省和铜带省与较高质量评分相关。结论尽管赞比亚产前保健项目平均覆盖率较高，但在早期启动和总接触频率方面仍存在关键差距。护理充分性受母亲教育程度、婚姻状况、妊娠意愿及区域不平等因素强烈影响。这些发现强调需针对未受教育妇女、预防非意愿妊娠以及西部省和西北省等欠发达地区采取干预措施。关键词：产前保健质量，产前保健内容，赞比亚，母亲教育程度