2026-05-08 每日论文
| 来源 | 独立页面 |
|---|---|
| arXiv | arXiv |
| bioRxiv | bioRxiv |
| medRxiv | medRxiv |
arXiv
| 标题 | 作者 | 发布日期 | PDF链接 | 摘要 |
|---|---|---|---|---|
| ActCam:面向视频生成的零样本联合相机与三维运动控制 | Omar El Khalifi | 2026-05-07 | 在艺术创作应用中,视频生成需要对表演和摄影进行精细控制,即演员的运动和摄像机轨迹。我们提出ActCam,一种零样本视频生成方法,能够将驱动视频中的角色运动联合迁移至新场景,并支持逐帧控制内外摄像机参数。ActCam基于任意预训练的图像到视频扩散模型,该模型接受场景深度和角色姿态的条件输入。给定包含运动角色的源视频和目标摄像机运动,ActCam生成在帧间保持几何一致的姿态和深度条件。随后我们采用两阶段条件调度进行单次采样:早期去噪步骤同时使用姿态和稀疏深度约束场景结构,之后移除深度,仅用姿态引导细化高频细节而不过度约束生成。我们在多个涵盖不同角色运动和挑战性视角变化的基准上评估ActCam。结果表明,与仅姿态控制及其他姿态与摄像机方法相比,ActCam提升了摄像机遵循度和运动保真度,并在人类评估中更受青睐,尤其在视角大幅变化时。我们的结果强调,精心设计的摄像机一致性条件与分阶段引导可在无需训练的情况下实现强大的联合摄像机与运动控制。项目页面:https://elkhomar.github.io/actcam/。 | |
| UniPool:面向混合专家模型的全局共享专家池 | Minbin Huang | 2026-05-07 | 现代混合专家(MoE)架构通过严格的逐层规则分配专家容量:每个Transformer层拥有独立的专家集合。这种设计将深度扩展与专家参数线性增长绑定,并假设每一层都需要独立的专家容量。然而,近期分析及我们的路由探测实验对这一分配规则提出质疑:在多个生产级MoE模型中,将深层学习型top-k路由器替换为均匀随机路由后,下游准确率仅下降1.0-1.6个百分点。受此冗余现象启发,我们提出UniPool架构,将专家容量视为全局架构预算,用独立逐层路由器访问的单一共享池替代逐层专家所有权。为实现共享下的稳定均衡训练,我们引入池级辅助损失以平衡整个池的专家利用率,并采用NormRouter为共享专家池提供稀疏且尺度稳定的路由。在基于LLaMA架构的五个模型规模(1.82亿、4.69亿、6.5亿、8.3亿和9.78亿参数)上,使用Pile数据集30B tokens训练后,UniPool在验证损失和困惑度指标上持续优于匹配的vanilla MoE基线。在这些规模下,UniPool相较vanilla MoE最高降低验证损失0.0386。除原始损失改进外,我们的结果将池规模确定为显式深度扩展超参数:仅使用vanilla专家参数预算41.6%-66.7%的缩减池UniPool变体,在测试规模下即可匹配或超越逐层MoE。这表明在共享池设计下,专家参数无需随深度线性增长,可在保持比vanilla MoE更高效的同时实现次线性增长。进一步分析显示,UniPool的优势可与更细粒度的专家分解协同作用。 | |
| BAMI:GUI 基础中的无训练偏差缓解 | Borui Zhang | 2026-05-07 | GUI接地是实现GUI代理执行点击、拖拽等任务的关键能力。然而,在ScreenSpot-Pro基准等复杂场景中,现有模型往往表现欠佳。通过采用提出的\textbf{掩码预测分布(MPD)}归因方法,我们识别出错误的主要来源有两方面:高图像分辨率(导致精度偏差)和复杂界面元素(导致歧义偏差)。为解决这些问题,我们提出\textbf{偏差感知操作推理(BAMI)},该方法包含两项关键操作——由粗到细聚焦和候选选择,以有效缓解这些偏差。大量实验结果表明,BAMI在无需训练的条件下显著提升了多种GUI接地模型的准确率。例如,将我们的方法应用于TianXi-Action-7B模型后,其在ScreenSpot-Pro基准上的准确率从51.9%提升至57.8%。此外,消融实验证实了BAMI方法在不同参数配置下的鲁棒性,凸显了其稳定性和有效性。代码已开源:https://github.com/Neur-IO/BAMI。 | |
| EMO:面向涌现模块化的专家混合预训练 | Ryan Wang | 2026-05-07 | 大型语言模型通常以整体系统的方式部署,即便应用场景仅需代码、数学或特定领域知识等狭窄能力子集,仍需加载完整模型。混合专家模型(MoE)看似提供了替代方案——每个输入仅激活部分专家,但实践中,针对特定领域限制推理时仅使用部分专家会导致严重的性能下降。这限制了其在内存受限场景中的实用性,尤其当模型规模更大、稀疏性更强时。我们提出EMO,一种专为模块化设计的MoE架构——支持专家子集的独立使用与组合,且无需人工定义先验知识。核心思路是鼓励来自相似领域的token依赖相似的专家。由于同一文档内的token通常共享领域,EMO限制它们从共享池中选择专家,同时允许不同文档使用不同专家池。这一简单约束使得在预训练过程中仅通过文档边界就能自然形成连贯的专家分组。我们在1T token上预训练了1B活跃参数、14B总参数的EMO模型。作为完整模型,其性能与标准MoE相当。关键在于,它支持选择性使用专家:仅保留25%(12.5%)的专家时,性能绝对下降仅1%(3%),而标准MoE在相同设置下完全失效。我们进一步发现,EMO中的专家子集在语义层面(如数学或代码等领域)实现专业化,这与标准MoE中观察到的低层级句法专业化形成鲜明对比。总体而言,我们的研究结果为大型稀疏模型的模块化、内存高效部署指明了路径,并为可组合架构开辟了新可能。 | |
| 基于验证器的数学推理难题生成 | Yuhang Lai | 2026-05-07 | 大型语言模型在解决科学和数学问题方面展现出强大能力,但在生成有效、具有挑战性且新颖的问题方面仍存在困难——这是推动大语言模型训练和实现自主科学研究的关键组成部分。现有问题生成方法要么依赖昂贵的人类专家参与,要么采用简单的自我博弈范式,这些方法常因奖励破解而产生无效问题。本研究提出VHG框架,这是一种基于三方自我博弈的验证器增强型难题生成框架。通过将独立验证器整合到传统的出题者-解题者二元结构中,我们的设计约束出题者的奖励由问题有效性(由验证器评估)和难度(由解题者评估)共同决定。我们实例化了两种验证器变体:硬符号验证器和基于软语言模型的验证器,并在不定积分任务和通用数学推理任务上进行了评估。实验结果表明,VHG在所有基线方法中均以明显优势胜出。 | |
| Relit-LiVE:通过联合学习环境视频实现视频重光照 | Weiqing Xiao | 2026-05-07 | 近期研究表明,大规模视频扩散模型可通过先将视频分解为内在场景表征,再在新光照条件下执行前向渲染,从而被重新用作神经渲染器。尽管前景可观,这一范式从根本上依赖于精确的内在分解,而这对真实世界视频而言仍高度不可靠,常导致重光照过程中出现外观扭曲、材质破损及累积的时间伪影。本文提出Relit-LiVE,一种新颖的视频重光照框架,无需预先获取相机位姿即可生成物理一致、时间稳定的结果。我们的核心洞察在于将原始参考图像显式引入渲染过程,使模型能够恢复内在表征中不可避免丢失或损坏的关键场景线索。此外,我们提出一种新颖的环境视频预测方法,在单一扩散过程中同步生成重光照视频及与各相机视角对齐的逐帧环境贴图。这种联合预测强化了几何-光照对齐,自然支持动态光照与相机运动,在显著提升视频重光照物理一致性的同时,降低了对已知逐帧相机位姿的要求。大量实验表明,Relit-LiVE在合成与真实世界基准测试中持续优于现有最优的视频重光照与神经渲染方法。除重光照外,本框架自然支持场景级渲染、材质编辑、物体插入及流式视频重光照等广泛下游应用。项目地址:https://github.com/zhuxing0/Relit-LiVE。 | |
| 全球大语言模型排行榜为何具有误导性:面向异构监督式机器学习的小型投资组合 | Jai Moondra | 2026-05-07 | 通过成对人工反馈对大型语言模型(LLM)进行排名,支撑了当前针对开放式任务(如创意写作和问题解决)的排行榜。我们分析了来自Arena的52个LLM在116种语言中的约8.9万次比较,发现最佳拟合的全局Bradley-Terry(BT)排名具有误导性。近三分之二的决定性投票相互抵消,即使全局BT排名前50的模型在统计上也无法区分(前50名模型间的成对获胜概率最多为0.53)。我们将这一失败归因于语言、任务和时间维度上强烈且结构化的意见异质性。此外,我们发现一个重要特征——语言起关键作用。按语言(及语系)分组能大幅提升投票一致性,使ELO分数的离散度提高两个数量级(即排名高度一致)。表面上的全局噪声实际上是多个一致但相互冲突的子群体的混合。为应对监督机器学习中的这种异质性,我们引入了(λ, ν)-组合框架,即通过小型模型集合实现预测误差不超过λ,并覆盖至少ν比例的用户。我们将此问题建模为集合覆盖问题的变体,并利用底层集合系统的VC维提供理论保证。在Arena数据上,我们的算法仅需5个不同的BT排名即可在适度λ下覆盖超过96%的投票,而全局排名覆盖率仅为21%。我们还构建了包含6个LLM的组合,其覆盖的投票数量是全局排名前6名LLM的两倍。进一步地,我们利用公平性正则化分类模型集成,在COMPAS数据集上为分类问题构建组合,并证明这些组合可用于检测数据盲点,这对政策制定者可能具有独立参考价值。 | |
| 优化器-模型一致性:使用与预训练相同的优化器进行全量微调时遗忘更少 | Yuxing Liu | 2026-05-07 | 在训练大型语言模型(LLMs)的预训练和微调阶段,优化器都扮演着重要角色。本文发现,在监督微调(SFT)阶段,使用与预训练阶段相同的优化器进行全参数微调,相比其他优化器以及(可能令人惊讶的)LoRA方法,能实现更好的学习-遗忘权衡——即在保持新任务性能相同或更优的同时遗忘更少。我们将这种现象称为"优化器-模型一致性"。为深入理解这一现象,通过控制实验和理论分析,我们证明:1)优化器通过正则化效应影响激活值来塑造模型,导致预训练检查点周围产生不同景观;2)针对这种正则化效应,SFT中的权重更新应遵循特定结构以降低预训练知识的遗忘,而使用相同优化器即可实现。此外,我们专门比较了Muon和AdamW在预训练与SFT全流程中的表现,发现Muon在推理任务微调时表现更差。通过合成语言建模实验,我们证明这源于Muon强烈的机械记忆倾向,这种倾向可能损害小样本数据下的模式习得能力——这正是SFT场景的特征。 | |
| 当无基准存在时:在没有真实标签的情况下验证大语言模型比较安全性评分 | Sushant Gautam | 2026-05-07 | 许多部署场景在相关语言、行业或监管体系的标注基准尚未建立时,就需要比较候选语言模型的安全性。我们将此场景形式化为无基准比较安全评分,并明确了基于场景的审计可作为部署证据的契约条件。评分仅在固定场景包、评分细则、审计员、评审员、采样配置和重跑预算下有效。由于缺乏标注数据,我们以工具有效性链替代真实标签一致性:即对受控安全与消融模型的响应差异、目标驱动方差对审计员和评审员人为因素的支配性、以及跨重跑的稳定性。我们在本地优先评分工具SimpleAudit中实例化该链条,并在挪威安全包上完成验证。安全与消融目标的AUROC值介于0.89至1.00之间,目标身份是主导方差成分(η²≈0.52),严重性分布曲线在十次重跑后趋于稳定。将该链条应用于Petri表明其兼容两种工具。实质性差异出现在链条上游的声明契约执行与部署适配环节。通过挪威公共部门采购案例(比较Borealis与Gemma 3)展示实际证据:更安全的模型取决于场景类别与风险度量。因此,评分、匹配差值、临界比率、不确定性以及所使用的审计员和评审员必须一并报告,而非简化为单一排名。 | |
| AI协同数学家:利用智能体AI加速数学家的工作 | Daniel Zheng | 2026-05-07 | 我们推出AI合作数学家——一个供数学家交互式利用AI智能体进行开放式研究的工作台。该AI合作数学家经过优化,能够为数学工作流程中探索性与迭代性的现实需求提供全方位支持,包括构思、文献检索、计算探索、定理证明及理论构建。通过提供异步、有状态的工作空间来管理不确定性、细化用户意图、追踪失败假设并输出原生数学成果,该系统模拟了人类协作工作流程。在早期测试中,AI合作数学家已帮助研究者解决开放性问题、发现新研究方向,并挖掘出被忽视的文献引用。除展示了一种高度交互的AI辅助数学发现范式外,该AI合作数学家还在高难度问题解决基准测试中取得了顶尖成果,包括在FrontierMath第四层级获得48%的得分——这是所有被评估AI系统中的最高纪录。 |
bioRxiv
| 标题 | 作者 | 发布日期 | PDF链接 | 摘要 |
|---|---|---|---|---|
| 鸣禽的双通路结构使得稳健的感觉运动学习成为可能 | Sankar, R. | 2026-05-08 | 感觉运动技能的习得关键依赖于基底节-丘脑-皮层回路。主流理论认为,基底节通过强化学习优化运动输出,利用内部绩效评估近似随机梯度上升。然而,这一框架在非凸绩效空间中难以有效运作,局部最优会阻碍高效学习。鸣禽为稳健的感觉运动学习提供了有力的生物学范例,它们通过专门化的基底节-丘脑-皮层结构中的试错过程掌握复杂发声。在此,我们提出一个受斑胸草雀鸣唱系统解剖学、生理学和发育轨迹约束的计算模型。该模型将基底节驱动的强化学习通路与并行皮层运动通路相结合,后者通过赫布可塑性逐步巩固成功的运动模式。此外,我们在基底节通路中引入突触波动性,在学习过程中产生结构化变异。通过使用生物物理鸣管模型和合成绩效空间进行发声学习模拟,我们证明这种双通路架构能可靠收敛至全局最优,并优于标准强化学习和噪声退火方法。该模型再现了鸣唱学习的关键实验特征,包括非单调学习轨迹、运动变异性的逐渐减少,以及运动控制从皮层下回路向皮层回路的发育性转移。机制上,皮层通路的延迟成熟为探索-利用权衡提供了隐性调节,而突触波动性则使系统能够逃离局部最优。这些结果凸显了神经回路架构与动力学在高效学习中的重要性,并为提升人工强化学习系统在复杂感觉运动领域的鲁棒性和样本效率提供了受生物学启发的设计原则。 | |
| 自发性网络活动将中间神经元迁移异常与皮层成熟障碍联系起来。 | Venkataramanappa, S. | 2026-05-08 | 皮质抑制性神经元(CIN)通过广泛的切向迁移定居于新皮层和海马体。这一过程极易受遗传和环境干扰影响,并与神经精神疾病相关。然而,短暂迁移异常如何转化为持续性功能缺陷的机制仍不清楚。本研究利用条件性Cxcr4基因敲除模型,探究迁移导向异常(精神分裂症遗传模型的特征)的后果。结果显示,尽管CIN迁移至异位皮层板层,但直至出生时其在新皮层的数量仍保持定量定殖,而边缘区域则出现CIN数量的永久性缺陷。此外,CIN未能定殖于新皮层边缘区——这一区域本是注定迁往浅层皮层的晚期CIN的临时储备库。因此,在出生后早期新皮层中,CIN的板层分布与分子特征、突触连接性及神经网络的自发活动均发生显著改变。尽管在成熟前CIN的异常板层分布逐渐得到代偿,但功能差异持续存在,表现为皮层区域间感觉刺激传播的易化。这些结果表明,CIN迁移是指导出生后早期活动依赖性网络成熟及CIN身份确立的关键过程,从而为迁移导向与成熟环路完整性之间提供了机制性联系。 | |
| 气候生态位分化伴随了Phyllotis darwini物种组(Sigmodontinae亚科,Cricetidae科)中叶耳鼠的辐射演化。 | Quiroga-Carmona, M. | 2026-05-08 | 目的:刻画Phyllotis darwini物种组在分化过程中气候生态位的演变特征,评估辐射分化过程中涉及的差异在多大程度上与气候生态位的保守性或分化模式相关,以及物种间气候生态位的差异是否与其系统发育关系存在关联。地点:南美洲中南部安第斯山脉、周边低地及巴塔哥尼亚地区。方法:通过采集物种分布点及整个分布区范围内的同期降水和温度条件数据,表征物种的气候生态位。采用多元统计(主成分分析、置换多元方差分析)、基于最大熵的算法,以及新开发的用于探索现实生态位与基础生态位分化程度(生态位重叠检验)和差异程度(生态位分化检验)的方法,对气候生态位进行分析与建模。应用时间校准的系统发育树,结合气候生态位数据,通过比较系统发育方法在地理与环境空间中估算祖先环境生态位。结果:比较显示,Phyllotis物种在现实生态位与基础生态位间的气候生态位重叠程度均较低,表明其分化过程中存在显著的生态位分化。生态位重叠的量化进一步表明,物种间观测到的差异主要源于气候生态位的多维特性(单维度量化显示重叠程度较高)。物种间气候生态位的演化差异更符合布朗运动演化模型,但缺乏系统发育信号,且与物种系统发育距离无显著关联。主要结论:祖先气候生态位的低分化程度表明,Phyllotis darwini物种组的早期辐射由地理隔离驱动,而现存物种的近期分化则伴随气候生态位分化,可能涉及对第四纪冰期区域生态气候变化的局部适应。姐妹种的空间分离、气候生态位的完全分化以及生态位差异缺乏系统发育信号,表明分化过程既受空间隔离驱动,也受区域气候差异产生的分化选择压力影响。 | |
| 草食作用诱导的木豆(Cajanus cajan)叶片胞质蛋白的变化 | S, A. | 2026-05-08 | 昆虫取食通过激活防御途径和调节关键代谢过程,触发细胞质蛋白质组重编程。我们发现,在木豆(Cajanus cajan)中模拟取食处理后12小时内,诱导了活性氧(ROS)产生和分子变化。我们采用二维聚丙烯酰胺凝胶电泳(2D-PAGE)结合质谱(MS)技术,比较了两个栽培基因型ICPL 332(中等抗性)和ICPL 87(易感)的叶片蛋白质组图谱。在ICPL 332中检测到超过220个蛋白点,ICPL 87中检测到200余个。比较分析揭示了75个差异积累蛋白(DAPs),其中40个在生物学重复中具有一致可重复性。这些蛋白包括ICPL 87特有的11个、ICPL 332特有的9个,以及两个基因型共有的10个。在共有DAPs中,ICPL 332有5个上调、5个下调,而ICPL 87仅显示2个上调、8个下调。功能分类将DAPs归入初级代谢、胁迫响应及生长发育。两个基因型中与初级代谢相关的蛋白大多下调,而胁迫相关蛋白在ICPL 87中较ICPL 332呈现显著下调。总体而言,研究结果揭示了木豆基因型防御反应背后的蛋白质组适应性变化。 | |
| 天然土壤来源的微生物群重塑了氮形态与植物矿质营养 | Dethier, L. | 2026-05-08 | 土壤中的氮形态对植物生长和矿质营养具有重要影响,然而在自然土壤中,微生物群落是否以及如何调控氮形态仍鲜为人知。本研究显示,在取自丹麦自然生态系统的高有机质土壤中,原生土壤微生物群落决定了氮形态,进而调控植物的矿质营养。通过灭菌消除微生物群落会抑制硝化作用,导致铵态氮积累和硝态氮流失,进而造成植物生长受阻、叶片镁钙含量显著降低并伴随失绿症状。重新引入简化的土壤源微生物群落可恢复硝化作用,重建平衡的NO₃⁻/NH₄⁺体系,从而恢复镁钙积累、缓解失绿症状并促进植物生长。对原土、根际及根际微生物群落的宏基因组分析显示,氮循环功能(包括硝化相关基因)显著富集,证实恢复的微生物群落具备调控土壤及根际氮形态的能力。此外,该微生物群落还能缓解有机农业土壤中的矿质缺乏症状。综合而言,本研究揭示了自然微生物群落依赖的机制:土壤微生物通过决定氮形态来调控植物矿质营养,特别是镁钙稳态。 | |
| CSLB4介导的细胞壁重塑将拟南芥中韧皮部通路与蚜虫表现解耦 | Moraga, F. | 2026-05-08 | 植物细胞壁是植物防御的关键决定因素;然而,细胞壁结构的自然变异在多大程度上影响对韧皮部取食昆虫的抗性仍不清楚。本研究结合全基因组关联分析与功能分析,鉴定了拟南芥对专食性蚜虫甘蓝蚜抗性的遗传决定因子。对200个自然品系进行的全基因组关联分析发现,2号染色体上存在一个与蚜虫表现相关的单一基因座。单倍型与表皮特异性表达数据的整合分析优先确定了纤维素合酶样B家族成员CSLB4。功能缺失型cslb4突变体产生的蚜虫后代减少,表明其对甘蓝蚜的抗性增强,而广食性蚜虫桃蚜的表现未受影响。电穿透图分析显示,尽管cslb4突变体上蚜虫表现下降,但其更早获得韧皮部通路,表明韧皮部通路与蚜虫成功取食之间存在解耦。生化与免疫定位分析表明,CSLB4功能缺失改变了细胞壁结构,包括叶肉细胞壁中木葡聚糖表位可及性增加,以及蚜虫侵染时胼胝质沉积减少。此外,CSLB4定位于高尔基体相关区室,计算机模拟分析结果与其参与非纤维素多糖生物合成的功能一致。综上,这些发现将CSLB4鉴定为通过解耦韧皮部通路与蚜虫表现来调控细胞壁结构的调节因子。 | |
| 共生受体样激酶(SymRK)胞内结构域的序列适应性促进了根瘤原基中侵染线的延伸。 | Spezzati, M. | 2026-05-08 | 固氮菌进入活体植物细胞以及丛枝菌根真菌在细胞内的容纳,需要定位于质膜的共生受体样激酶。丛枝菌根广泛存在于陆生维管植物谱系中,而固氮根瘤共生则仅限于真蔷薇类群中的一个分支。这种分布模式催生了"SymRK在进化过程中被征用以介导RNS"的概念。比较分析显示,来自真蔷薇类群的SymRK直系同源物支持RNS,而来自系统发育远缘物种番茄的SymRK则不具备此功能。为解析这种功能差异的分子基础,我们对无法形成AM或RNS的百脉根symrk-3突变体进行了互补分析。通过构建番茄与百脉根SymRK直系同源物的结构域交换嵌合体发现,百脉根SymRK的胞内结构域是接种21天后皮层侵染线和共生体发育所必需的。值得注意的是,这种信号特异性可通过番茄SymRK的异位表达被克服,提示蛋白剂量改变可能是功能决定因素。与此一致,SINA家族E3泛素连接酶能与百脉根SymRK相互作用并使其泛素化,但无法作用于番茄SymRK。在酵母双杂交分析中,SymRK与SINA2和SINA4的相互作用依赖于百脉根SymRK的C端固有无序尾部区域。我们得出结论:SymRK胞内结构域进化出与SINA E3连接酶相互作用的能力,这种能力与其支持RNS的功能相关。 | |
| 隐秘变异改变了基因剂量敏感性,从而塑造了番茄的花序结构。 | Swinnen, G. | 2026-05-08 | 表型多样性在很大程度上源于多个相互作用位点的遗传变异,其中许多变异改变基因剂量而非完全消除基因功能。剂量敏感型变异常产生非线性表型结果,可利用基因组编辑技术对其进行调控,从而优化作物的数量性状。然而,由于分离等位基因可能以不可预期的方式调节等位基因效应,单个变异在不同遗传背景下的表型结果可能存在显著差异。目前,遗传背景如何塑造基因剂量效应仍鲜有研究。本研究表明,可用于调控番茄花序结构以实现最佳果实产量的MADS-box基因剂量效应,在不同遗传背景间存在显著差异。我们定位了这种背景依赖性的遗传基础,并鉴定出隐性修饰位点sb2(抑制分枝基因2),该位点包含保守的花器官身份基因ANANTHA。研究显示,sb2的自然变异通过天然及工程化功能缺失突变,调控花序结构对MADS-box剂量效应的响应。我们的发现揭示了隐性遗传变异如何重塑基因剂量关系,并强调了表征此类隐藏变异对利用基因组编辑技术进行数量性状预测性工程改造的重要性。 | |
| 灵活且高通量的单细胞基因表达与染色质可及性同步分析 | Soltys, V. | 2026-05-08 | 基因调控是发育的基础,也是涉及转录的复杂生物过程,通常发生在可及染色质内的启动子区域。要理解细胞类型特异性调控网络,同时捕获转录和染色质可及性的能力至关重要。然而,联合测量在技术上具有挑战性,当前方法仍面临应用难题。在此,我们提出easySHARE-seq,这是对SHARE-seq的改进,用于在单细胞中同时测量ATAC-seq和RNA-seq。通过优化条形码和简化实验流程,我们解决了先前方法的若干局限性。改进后,easySHARE-seq文库的可读序列长度可达300bp(增加200bp),适用于等位基因特异性信号研究或变异发现等场景。此外,easySHARE-seq文库无需专用测序运行,从而节省成本。我们将easySHARE-seq应用于小鼠肝脏细胞核,成功回收了19,664个具有联合染色质和表达谱的细胞核。与其他基于组合索引的技术相比,我们证明该方法在保持高可扩展性和低成本的同时,每个细胞可回收超过1.5倍的转录本。为展示该方法,我们鉴定了细胞类型,利用多组学测量将顺式调控元件与其靶基因关联,并研究了肝脏特异性微尺度变化。我们得出结论:easySHARE-seq改进了先前方法,能够生成高质量的多组学数据集,并预期可适用于多种研究设计。 | |
| 较少采用的转折:利用大规模分子动力学数据研究β-转角动态模式 | Zhang, S. | 2026-05-08 | β-转角是蛋白质中最常见的结构基序之一,但其构象动力学和序列决定因素尚未完全阐明。本研究利用mdCATH数据库中的大规模分子动力学轨迹,对β-转角构象进行了数据驱动的分类和动态分析。通过跨键拉氏图表示法对主链二面角进行聚类,识别出六种β-转角类型,其中包括一种此前未表征的混合型I/I'簇,该簇融合了经典I型和I'型构象的几何特征。时间分辨分析表明,这种混合态是β-转角的瞬时中间态。分子动力学模拟中观察到的转变与核磁共振波谱集合及X射线晶体结构中检测到的替代构象高度吻合,其中最主要的交换发生在I型和II型之间,以及I'型和II'型转角之间。序列分析显示,每种转角类型在中心残基(i+1和i+2)处均表现出特征性的氨基酸偏好。在这些整体偏好中,特定残基对表现出对静态或动态行为的差异化倾向。通过靶向计算机模拟替换动态富集型和静态富集型残基对,可相应改变转角的构象行为,为这些序列-动力学关系提供了直接证据。对侧翼二级结构环境的分析表明,结构背景进一步调节转角柔性,其中链状和卷曲相关转角比螺旋相关转角具有更高的动态倾向。综上,这些结果揭示了序列组成和结构背景如何共同塑造β-转角的构象景观。 |
medRxiv
| 标题 | 作者 | 发布日期 | PDF链接 | 摘要 |
|---|---|---|---|---|
| 使用ISSAC进行的单细胞剪接分析将细胞类型特异性和细胞状态依赖的sQTL与神经系统疾病联系起来 | ZHANG, Y. | 2026-05-08 | 单细胞RNA测序能够在细胞分辨率下全面解析基因表达与剪接图谱,揭示细胞类型特异性及细胞状态依赖性调控(基于功能状态的细胞类型内变异)。尽管单细胞中表达遗传调控(eQTL)研究已较为成熟,但单细胞中可变剪接的遗传调控仍具挑战性。现有单细胞剪接QTL(sQTL)研究采用批量分析方法进行伪批量聚合,这降低了检测细胞类型特异性sQTL的能力,且无法捕获细胞状态依赖性剪接调控。本研究提出ISSAC方法,通过广义线性混合模型直接量化元细胞水平的剪接位点使用情况,并定位细胞类型及细胞状态特异性sQTL。在外周血单细胞数据的真实基准测试中,ISSAC检测到的细胞类型特异性sQTL数量是伪批量sQTL分析的1.4至2.5倍,并首次实现细胞状态依赖性sQTL的发现。我们将ISSAC应用于包含722名供体约300万背外侧前额叶皮层(DLPFC)单细胞核的整合化衰老脑资源数据集。ISSAC在7种主要细胞类型中鉴定出31,318个独立顺式sQTL,在67种亚细胞类型中鉴定出16,861个独立顺式sQTL,其中约67%的sGene与eGene无重叠。我们发现了369个遗传效应受树突发育和突触信号等细胞状态介导的独立sQTL。此外,我们识别出194个阿尔茨海默病偏向性sGene和207个性别偏向性sGene,以及142个与阿尔茨海默病、神经质、肌萎缩侧索硬化症、帕金森病、路易体痴呆和精神分裂症等神经系统疾病共定位的风险基因。特别地,我们通过功能验证证实因果变异rs11549690通过调控TRPT1基因第7外显子跳跃影响神经质风险。 | |
| R47H和R62H TREM2变异体增加阿尔茨海默病病理的机制 | Fancy, N. | 2026-05-08 | TREM2在小胶质细胞中发挥多种功能作用,其变异体与阿尔茨海默病风险增加相关。降低功能相关蛋白CD33表达的遗传多态性具有保护作用。本研究对比了有无AD的人死后脑组织细胞病理学,以检验R47H和R62H TREM2变异体携带者(无论是否携带保护性rs3865444 CD33多态性杂合子)的差异化遗传风险机制。CD33与TREM2之间的上位效应通过保护性CD33等位基因的TREM2var携带者中β-淀粉样蛋白负荷差异的相对正常化得到证实。这些功能差异与差异化的小胶质细胞转录组对β-淀粉样蛋白的反应相一致。在控制CD33基因型后,TREM2var(尤其是R47H)小胶质细胞对β-淀粉样蛋白增加的转录反应低于对照变异体,且TREM2var中神经可塑性通路表达降低。R62H小胶质细胞特征与R47H的区别在于吞噬作用相关基因的上调,与对照变异体的区别则在于炎症基因表达差异(包括参与NK-kappaB信号通路的基因)。随着β-淀粉样蛋白增加,差异基因表达还提示TREM2var杂合子中兴奋性神经元的β-淀粉样蛋白生成和结合通路上调。两种TREM2var在对照样本中抑制性神经元表达的病理适应性正向通路富集度均较低。探索性全组织蛋白质组学支持这些观察结果,在对照组织中发现对β-淀粉样蛋白病理的适应性可塑性证据,而TREM2var则未发现,反而显示β-淀粉样蛋白形成增加和神经可塑性改变。这些结果共同揭示了对照变异体与TREM2var之间以及TREM2var风险变异体之间的分子病理学差异,强调了通过星形胶质细胞和神经元功能的继发效应介导的AD风险机制。TREM2与CD33在AD中强上位效应的证明支持了CD33抑制或表达调节剂的治疗潜力。 | |
| 探索屏幕使用时间与青少年及成年早期抑郁症状关联中的遗传混杂因素 | Xu, J. | 2026-05-08 | 背景 数字设备已成为儿童生活的重要组成部分。屏幕使用时间与心理健康之间的关联已被观察到,但因果关系仍不明确。本研究旨在探讨屏幕使用时间与后期抑郁症状之间的关联,并在考虑遗传混杂因素后检验这些关联的稳健性。方法 本研究采用埃文亲子纵向研究队列数据,该队列为1991年至1992年间出生于英国的前瞻性儿童队列。通过自填问卷评估16岁、22岁和26岁时不同形式的屏幕使用时间及抑郁症状。计算日均屏幕使用时间,采用简短情绪与感受问卷测量抑郁症状,并计算抑郁多基因风险评分。使用线性回归模型分析16岁、22岁和26岁标准化屏幕使用时间与26岁抑郁症状的关联,调整社会人口学混杂因素及多基因评分。采用遗传敏感性分析检验这些关联中的遗传混杂效应。结果 共纳入3003名参与者。部分(而非全部)屏幕使用形式与较高SMFQ评分相关,例如22岁时使用手机、平板或电子书的时间(工作日β:0.10 [95%CI 0.07, 0.14];周末β:0.08 [0.04, 0.11])及26岁时看电视时间(工作日β:0.10 [95%CI 0.06, 0.14];周末β:0.09 [0.06, 0.13])。这些关联在调整社会人口学混杂因素和多基因评分后仍存在,但在遗传敏感性分析中减弱(22岁周末使用手机/平板/电子书时间关联β=0.03 [-0.01, 0.07];26岁周末看电视时间关联β=0.06 [0.01, 0.10])。结论 部分屏幕使用时间指标与抑郁症状无关联。存在关联的指标在遗传敏感性分析中减弱,表明青少年和年轻成人中屏幕使用时间与抑郁症状的关系存在遗传混杂。 | |
| 修订版人类个体二倍体基因组序列:一种用于扩展近端粒到端粒组装的优化组装工作流程 | Lok, S. | 2026-05-08 | 2007年发布的首个个人二倍体基因组草图(HuRef)是基因组学领域的里程碑。本文报告HuRef2.0版本,该版本采用可扩展的两步工作流程进行组装,仅使用Oxford Nanopore Technologies (ONT) Simplex读段和hifiasm组装工具。其连续性接近近期端粒到端粒(T2T)组装水平,但仅通过标准DNA样本完成组装,未使用超长读段或邻近连接等多种测序与图谱技术。从新鲜血液DNA中获取的三张ONT测序芯片(约103倍覆盖度)产生了包含26个重叠群的组装结果,其中23条染色体实现无缺口组装。通过局部组装填补Y染色体(ChrY)上的两个缺口,最终获得T2T完整组装体HuRef2.0,其碱基准确度超过Q60,包含2,393个相块,NG50值达2.36 Mb。单张ONT测序芯片(约35倍覆盖度)的组装结果在连续性上已超越GRCh38.p14,为后续优化与规模化应用奠定基础。通过染色体级别直接比对参考基因组、变异检测,以及对Chr22q11基因富集区、Chr6扩展MHC位点、核糖体RNA基因簇、Chr4q35亚端粒区和Y染色体等难组装区域的注释,完成了组装质量评估。相较于同等覆盖度的纠错ONT读段,更精确但更短的PacBio HiFi读段产生的组装连续性较低,表明读段长度的重要性。最后,我们将HuRef2.0与同一供体EB病毒转化的淋巴母细胞系组装结果进行比较,未发现显著结构差异,表明低传代次数的存档转化细胞系可作为可靠的基因组分析材料。 | |
| 加速心理健康精准试验:一种基于可视化驱动的有效工具,用于生物标志物研究设计中的统计功效与样本量估算 | Chen, D. Z. | 2026-05-08 | 精准医学催生了一系列生物标志物指导的试验设计,从简单的富集设计和策略设计,到更复杂的适应性框架。为满足用户对覆盖这一系列设计的易用工具的需求,我们开发了一个统一的R Shiny平台。该平台首先实现了三种标准设计:随机化全部设计、富集设计和生物标志物策略设计,使研究人员能够在每种框架下通过直观的输入和可视化输出进行统计功效和样本量计算。在此基础上,该平台进一步扩展,支持带有期中分析的两阶段通用随机篮子试验设计,这可以视为标准设计在多个生物标志物定义的亚组中的推广。通过与成熟的R流程和已发表公式的对比,该工具经过了严格验证,用户测试也证实了其界面直观性。通过在统一的输入输出框架下实现从标准设计到高级设计的无缝集成,我们的平台使研究人员能够在相同的基础假设下,直接比较不同设计选择所需的统计功效和样本量。最终成果是一个免费可用的工具,为生物标志物指导试验设计的完整系列提供有效的可视化,访问地址为https://ampt.obicloud.ca/。未来的改进可能进一步扩展该工具的功能,以适应研究界对日益复杂的试验设计的需求。 | |
| 一个文献扫描与优先级排序框架,用于指导世界癌症研究基金会国际全球癌症更新项目未来的系统综述。 | Markozannes, G. | 2026-05-08 | 背景:2018年世界癌症研究基金会(WCRF)/美国癌症研究所第三份专家报告(TER)关于饮食、肥胖、体力活动与19种癌症风险的研究可通过新数据加以完善。需建立框架以优先开展未来系统综述。方法:检索PubMed(2019年1月至2024年2月)中荟萃分析、合并分析、随机对照试验(RCT)、孟德尔随机化(MR)研究及大型(>10万参与者)队列研究。采用条件把握度(CP)和失效安全数(FSN)统计评估TER研究结果。通过考量关联的数量、统计学显著性、方向及新颖性进行加减分,建立基于暴露的优先评分(PS)系统。结果:将366项荟萃分析、121项合并分析、19项RCT、174项MR研究及391项队列研究(涵盖151种暴露因素与28种癌症)与1371项TER荟萃分析进行比较。基于CP分析,叶酸与结直肠癌、腰围与肺癌、总脂肪与卵巢癌、茶与卵巢癌、红肉与肾癌等非显著TER关联可能因新增证据转为显著。FSN显示多数显著TER关联不易因新增证据改变。PS中位数为6(范围:-15至163),最高评分见于人体测量指标(身高PS=40至BMI PS=163)、体力活动(PS=100)、久坐行为(PS=64)、酒精(PS=52)、茶(PS=36)、膳食纤维(PS=31)、乳制品(PS=29)、微量营养素(视黄醇PS=27至铁PS=38)、维生素(维生素B12 PS=22至维生素D PS=91)、大豆(PS=24)、异黄酮(PS=23)及含糖饮料(PS=22)。结论与影响:该优先框架可帮助识别具有影响力的系统综述,以补充TER结论并深化对新兴研究的理解。 | |
| 临床医生对单关节炎患儿莱姆病的怀疑与临床决策 | Geanacopoulos, A. | 2026-05-08 | 在这项针对莱姆病流行地区急诊科就诊儿童的大规模多中心队列研究中,我们评估了临床医生对单关节炎患儿的诊断准确性及后续临床决策。在1582例因单关节炎接受莱姆病评估的患儿中,623例(39%)确诊为莱姆关节炎,32例(2%)为化脓性关节炎。总体而言,313例(20%)接受了侵入性关节操作(关节穿刺或关节镜检查),194例(12%)接受了肠外抗生素治疗,376例(24%)住院治疗。临床医生对莱姆病的怀疑程度具有中等鉴别能力(受试者工作特征曲线下面积:0.75,95%置信区间:0.72-0.77)。尽管侵入性操作比例相近,但临床怀疑程度较高的患儿接受肠外抗生素治疗或住院的可能性更低。我们的研究结果凸显了临床区分莱姆关节炎与化脓性关节炎的挑战性。在莱姆病流行地区,需要更优的诊断工具来改善单关节炎患儿的及时诊断,并减少侵入性检查。 | |
| 《被利用的起点:早期暴力、制度背叛与结构性脆弱如何塑造进入色情行业的路径》 | Donevan, M. | 2026-05-08 | 拍摄色情影片的女性报告遭受广泛虐待并面临严重健康后果,然而进入色情行业的途径仍缺乏深入研究。我们采用嵌入式定性混合方法,探究瑞典境内影响这些途径的因素。25名曾参与色情影片拍摄的成年人(其中23名女性)完成了问卷调查并参与了以讲述者为中心的访谈。基于社会生态学框架,我们通过反思性主题分析提炼出核心主题"被预设的剥削",包含三个子主题:早期暴力印记、无人支持:关系与制度性背叛、以及叠加的结构性脆弱性。研究揭示童年虐待与暴力、关系与制度性背叛、物质匮乏以及色情化的文化环境如何共同塑造进入色情行业的路径。为预防并阻断这些路径,需早期识别性虐待、及时提供避免将暴力后果个体化与病理化的创伤知情照护,以及解决物质匮乏问题的实际支持。从社会生态学视角看,将进入色情行业简单归结为个人选择存在根本性缺陷:这既将深层社会过程个体化,又掩盖了累积暴力、反复的关系与制度性背叛以及交叉结构性制约的深远影响。 | |
| 重新审视脑龄:为何年龄预测模型无法作为脑衰老的衡量标准 | Grodem, E. O. S. | 2026-05-08 | 脑年龄模型——通过脑影像数据对实际年龄进行机器学习预测——被广泛解读为脑加速衰老的标志。本研究表明,这种解读无法成立。由于这些模型被训练用于预测实际年龄,它们会优先提取人群中变化一致的脑部特征,并主动降低能捕捉个体间差异轨迹的特征权重——而这恰恰是衰老速率生物标志物必须具备的特性。实际上,脑年龄模型被优化为忽略其本应研究的信号,从而可能将稳定的个体间差异转化为表面上的加速衰老。通过理论分析、模拟实验和纵向MRI数据,我们证实了两种预测的失效模式:脑年龄模型在低出生体重参与者中显示"加速衰老",但纵向数据并未支持这一结论;而单个海马体积测量值在检测tau蛋白相关神经退行性变时,比脑年龄差距更敏感。因此,在现有脑年龄研究文献中,无法判断所报告效应反映的是脑衰老还是稳定的解剖差异,脑年龄差距不应被解读为脑衰老或脑健康的标志。我们提出替代策略,将预测目标从共享的年龄相关模式转向个体差异的变化轨迹。 | |
| 面向影像遗传学的可解释深度学习框架:从MRI中提取脑-基因型评分以关联遗传变异、脑结构与认知 | Alhasani, K. T. | 2026-05-08 | 影像遗传学旨在理解遗传变异如何影响大脑结构与认知功能。传统方法通常依赖影像衍生表型(IDPs),需将高维脑影像降维为预设的汇总指标,因此可能遗漏细微或空间分布广泛的基因型相关效应。我们开发了一个融合深度学习与统计建模的两阶段框架,用于生成并利用脑-基因评分——直接从结构MRI中学习到的、基于影像的连续遗传变异表征。第一阶段,我们在英国生物银行(UK Biobank)这一大规模人群队列的T1加权MRI扫描数据上,训练了一个多任务三维卷积神经网络(CNN),用于预测单核苷酸多态性(SNP)变异,从而生成能够捕捉与特定遗传变异相关的分布式神经解剖模式的脑-基因评分。与传统IDPs不同,这些评分直接从原始影像中学习,旨在编码基因型相关的大脑结构,无需依赖预设的区域特征。我们使用基于梯度的显著性图来定位每个评分所贡献的神经解剖区域,为遗传变异与大脑解剖结构之间提供可解释的关联。第二阶段,我们将从保留测试集中获得的脑-基因评分作为定量神经解剖标记,用于与认知表现的关联分析。这些评分与多项认知指标(包括流体智力、反应时间和记忆表现)显示出稳健的、经Bonferroni校正的显著关联。相比之下,基于IDPs训练的传统机器学习模型未能生成具有同等信息量的评分。这一整合框架表明,脑-基因评分能够提供灵活且可解释的基因型相关神经解剖变异表征,从而发现传统影像遗传学方法难以检测的、遗传变异、大脑结构与认知之间具有生物学意义的关联。 |