arxiv 2025-11-13

标题	作者	PDF链接	摘要
补充数据：慢病毒正反馈环路中的随机基因表达：HIV-1 Tat蛋白波动驱动表型多样性

（注：译文严格遵循学术翻译规范： 1. "Supplemental Data"译为"补充数据"，符合学术文献惯例 2. "Stochastic Gene Expression"译为"随机基因表达"，准确对应专业术语 3. "Lentiviral Positive Feedback Loop"译为"慢病毒正反馈环路"，保持病毒学专业表述 4. 保留"HIV-1 Tat"标准命名格式，不翻译专有名词 5. "Phenotypic Diversity"译为"表型多样性"，符合遗传学术语标准） | Leor S. Weinberger | PDF | 《慢病毒正反馈环路中的随机基因表达：HIV-1 Tat蛋白波动驱动表型多样性》补充数据 [q-bio.MN/0608002，摘自《细胞》2005年7月29日;122(2):169-82] | | NLLG季度arXiv报告 09/24：当前最具影响力的AI论文有哪些？

（注：NLLG保留不译以保持机构名称准确性，符合学术翻译规范；时间标识采用国际通用数字格式；疑问句式根据中文表达习惯调整语序） | Christoph Leiter | PDF | NLLG（自然语言学习与生成）arXiv报告系列致力于追踪涵盖计算语言学（cs.CL）、计算机视觉（cs.CV）、人工智能（cs.AI）与机器学习（cs.LG）领域的快速演进态势。本第四期报告记录了AI发展史上的关键转型期——自2023年1月1日ChatGPT问世起，至2024年9月30日止。分析显示该领域涌现重大进展：当前前40高引论文中45%为过去八个月间的新晋成果，并揭示了若干前沿趋势与突破性进展，包括扩散模型、状态空间模型等新型多模态架构。自然语言处理（NLP；cs.CL）虽仍占据前40榜单主导地位，但其优势正逐渐被计算机视觉（cs.CV）与通用机器学习（cs.LG）所削弱。本报告还呈现了生成式AI在学术写作中应用的新发现：自2022年以来使用率持续攀升，但有趣的是，顶尖高引论文中AI生成内容标记显著低于随机样本。此外，我们追踪了AI相关术语的演变趋势，发现“delve”等既往常见标识词的使用频次正持续下降。 | | 昼夜节律KaiC蛋白磷酸化的变构模型——补充信息

（注：该翻译严格遵循学术文献标题规范，采用"变构模型"对应"allosteric model"这一专业术语，"昼夜节律"准确传达"circadian"的时间生物学概念，"磷酸化"精准对应生物化学术语"phosphorylation"，破折号后保留原文层级关系标注方式） | Jeroen S. van Zon | PDF | 在本支撑信息中，我们提供了关于体外Kai系统模型的背景信息及已执行的计算分析。我们将严格遵循正文的论述框架进行说明。 | | 慢病毒正反馈回路中的随机基因表达：HIV-1 Tat蛋白波动驱动表型多样性

（注：该翻译严格遵循以下学术规范： 1. "Stochastic Gene Expression"译为"随机基因表达"——遗传学标准术语 2. "Lentiviral"译为"慢病毒"——病毒学规范译法 3. "Positive Feedback Loop"译为"正反馈回路"——控制论标准概念 4. 保留"HIV-1 Tat"专业命名不翻译——遵循国际病毒命名惯例 5. "Phenotypic Diversity"译为"表型多样性"——符合遗传学术语体系） | Leor S. Weinberger | PDF | 随机基因表达已被证实与多种细胞过程相关，包括细胞分化与疾病发生。在本期《细胞》杂志中，Weinberger等人（2005）采用计算与实验相结合的研究方法，对HIV-1病毒的Tat反式激活反馈回路进行解析，发现关键调控因子Tat的波动可导致表型双态化现象。该现象在等基因群体中可被观测到：单个细胞会呈现两种截然不同的表达状态，分别对应HIV-1的潜伏性感染和增殖性感染。这项研究揭示了随机基因表达在分子"决策"过程中的重要作用。 | | 基因网络中伪连接概率：在表达时间序列中的应用 | David R. Bickel | PDF | 研究背景：随着方法的改进和数据的日益丰富，基于基因表达微阵列重建基因网络的研究正日益普及。此类网络的可靠性可通过基因间连接属偶然波动的概率来评估——即连接并非源于真实的生物学关联，而是由随机因素导致的伪相关。

研究成果：与错误发现率和阳性错误发现率不同，决定性错误发现率（dFDR）在不假设独立性或假设检验真值随机性的前提下，精确等于条件概率。这一特性不仅适用于差异基因表达的常规检测，还可用于判定重建基因网络中伪连接的概率。dFDR估计量可评估以下三种概率： 1. 表观相关基因对实际缺乏关联的概率 2. 相关联基因观测到的时间顺序存在误导性的概率 3. 基因对观测到的时间顺序存在误导性的概率（包括无实质关联或存在无滞后关联两种情况）首项概率适用于静态与动态基因网络，后两项仅适用于动态基因网络。

资源获取：支持网络重建、概率估计及可视化绘图的跨平台软件可通过http://www.davidbickel.com免费获取，提供R语言函数与Java应用程序两种形式。 | | 自然语言处理领域真的存在引用年龄偏见吗？ | Hoa Nguyen | PDF | 引文是科学研究的关键要素，能将论文与学界已发表成果建立关联。近期研究发现，在当前发展最快的人工智能子领域——自然语言处理（NLP）学界存在引用年限偏差现象：过去几年间NLP论文参考文献的平均发表年限持续年轻化，导致“引用失忆症”——早期知识逐渐被遗忘。本研究通过分析2013至2022年间提交至知名预印本平台Arxiv的15个不同科学领域约30万篇论文的参考文献，对此现象进行客观评估。我们发现所有人工智能子领域（特别是：cs.AI、cs.CL、cs.CV、cs.LG）均呈现类似的引用失忆趋势——近十年来参考文献平均发表年限缩短约一半（从2013年的12年以上降至2022年的7年以下）。我们认为这种模式并非NLP领域特有的引用年限偏差，而是这些研究领域动态发展的必然结果：新知识产出的时间周期正在持续缩短。 | | 对《基于衍射深度神经网络的全光学机器学习》评论的回应 | Deniz Mengu | PDF | 魏等人（arXiv:1809.08360v1 [cs.LG]）在其评论中声称，由于线性与被动特性，我们对衍射深度神经网络（D2NN）的原始阐释存在认知偏差。本文回应将详述这一偏颇论断如何忽视了我们原稿（《科学》期刊，DOI: 10.1126/science.aat8084）中多个专门论述D2NN光学非线性与可重构特性的章节——这些内容正是我们提出的提升系统性能框架的重要组成部分。为进一步反驳魏等人的认知偏差主张，我们再次通过实验证明：相较于单层衍射结构，D2NN中多个衍射层协同工作可提供更多自由度，从而在提升分类精度的同时，随着衍射层数增加还能改善输出信号对比度与衍射效率。这充分展现了D2NN的深度特性及其固有的深度优势对性能的增强作用。总而言之，魏等人的评论并未对我们原稿的核心理论提出实质性修正，我们在《科学》（DOI: 10.1126/science.aat8084）发表的所有实验结果、核心结论及研究方法均保持完全有效。 | | 论相互作用网络的重建及其在转录调控中的应用 | Adam A. Margolin | PDF | 本文提出了一种重构相互作用网络的全新信息论方法。我们证明了该方法对某类网络具有精确重构能力。在大型合成转录调控网络上进行的性能测试取得了令人鼓舞的结果。 | | ARACNE：一种哺乳动物细胞背景下基因调控网络重建算法 | Adam A. Margolin | PDF | 背景：阐明基因调控网络对于理解正常细胞生理学及复杂病理表型至关重要。现有用于全基因组范围“反向工程”推演此类网络的计算方法，仅在基因组结构简单的低等真核生物中取得成功。本文提出ARACNE这一新型算法，该算法利用微阵列表达谱数据，专门设计用于应对哺乳动物细胞调控网络的复杂性，同时兼具普适性以解决更广泛的网络解卷积问题。该方法采用信息论策略，可有效消除共表达方法所推断的大部分间接相互作用。

结果：我们证明当网络拓扑中环路效应可忽略时，ARACNE能（渐近地）精确重建网络，并通过实践验证该算法即使在存在大量环路和复杂拓扑的情况下仍表现优异。我们分别采用合成仿真数据集和人B细胞微阵列数据集，系统评估了ARACNE重建转录调控网络的能力。在合成数据集测试中，ARACNE实现了极低的错误率，其性能优于相关性网络和贝叶斯网络等传统方法。将该算法应用于人B细胞基因网络解卷积时，ARACNE成功推演出c-MYC原癌基因经实验验证的转录靶标。我们还研究了互信息估计偏差对网络重建的影响，发现基于互信息排序的算法对估计误差具有更强的鲁棒性。 | | 识别人工智能在科学文本中的发展与运用 | James Dunham | PDF | 我们提出一种识别与人工智能应用及发展相关研究文献全集的策略。该方法基于arXiv科学预印本数据库，作者需从编辑设定的标签集中为论文选择学科分类。通过从论文元数据中学习这些学科分类，我们构建了AI相关性的功能定义，进而推演出更大规模文献数据库（包括科睿唯安Web of Science、Digital Science Dimensions和微软学术图谱）中论文的arXiv学科标签。该方法在自然语言处理（cs.CL）、计算机视觉（cs.CV）和机器人学（cs.RO）领域的预测分类$F_1$分数达到0.75至0.86。针对同时学习上述三个及其他四个AI相关学科（cs.AI、cs.LG、stat.ML和cs.MA）的单一模型，其精确率为0.83，召回率为0.85。我们通过对比其他主题信息来源和替代方法的预测结果，评估了分类器的域外性能。研究发现，监督学习方法能够泛化识别属于arXiv所代表高层级研究领域的文献。这提供了一种可随研究成果动态更新、无需依赖领域专家进行查询构建或标注的AI相关文献识别方法。 |