arxiv 2026-01-05
| 标题 | 作者 | PDF链接 | 摘要 |
|---|---|---|---|
| AdaGaR:面向动态场景重建的自适应Gabor表征方法 | Jiewen Chan | 从单目视频重建动态三维场景需要同时捕获高频外观细节与时间连续运动。现有基于单一高斯基元的方法受限于其低通滤波特性,而标准Gabor函数存在能量不稳定问题。此外,时间连续性约束的缺失常导致插值过程中的运动伪影。我们提出AdaGaR框架,在显式动态场景建模中统一解决频率自适应性与时间连续性问题。通过引入自适应Gabor表征,我们扩展高斯函数为可学习频率权重与自适应能量补偿机制,实现细节捕获与稳定性的平衡。针对时间连续性,采用带时间曲率正则化的三次Hermite样条确保运动演化平滑性。结合深度估计、点跟踪与前景掩码的自适应初始化机制,在训练早期建立稳定的点云分布。在Tap-Vid DAVIS数据集上的实验表明,该方法在峰值信噪比(35.49)、结构相似性(0.9433)和学习感知图像块相似度(0.0723)指标上达到最优性能,并在帧插值、深度一致性、视频编辑与立体视图合成等任务中展现强大泛化能力。项目页面:https://jiewenchan.github.io/AdaGaR/ | |
| 两种用于电影心脏磁共振成像中左心室自动分割的深度学习方法 | Wenhui Chu | 左心室分割对于心脏影像的临床量化与诊断至关重要。本研究提出两种新型深度学习架构——LNU-Net与IBU-Net,用于短轴电影磁共振成像中的左心室分割。LNU-Net基于层归一化U-Net架构改进,而IBU-Net则源自面向医学图像分割的实例-批量归一化U-Net架构。两种架构均包含用于特征提取的下采样路径和实现精确定位的上采样路径。我们以原始U-Net作为基础分割方法,并与所提架构进行对比。两种网络采用不同的归一化策略:LNU-Net在每个卷积块中应用层归一化,IBU-Net则在首层卷积块中融合实例归一化与批量归一化,并将处理结果传递至后续层级。本方法采用仿射变换与弹性形变技术进行图像数据处理。评估数据集包含来自45名患者的805张左心室磁共振图像。实验结果表明,所提方法在戴斯系数和平均垂直距离指标上均优于现有先进方法。 | |
| 理性几何:有效数学推理的谱系特征 | Valentin Noël | 我们提出一种无需训练的方法,通过注意力模式的谱分析来检测大语言模型中有效的数学推理。该方法将注意力矩阵视为词元动态图的邻接矩阵,从中提取出四个可解释的谱诊断指标:费德勒值(代数连通性)、高频能量比、图信号平滑度与谱熵。这些指标在有效与无效数学证明之间表现出统计学显著差异。通过对四个独立架构家族(Meta Llama、阿里巴巴千问、微软Phi、Mistral AI)中七个Transformer模型的实验表明,该谱特征产生的效应量最高可达科恩d值3.30(p < 10⁻¹¹⁶),在严格评估下实现85.0%-95.6%的分类准确率,经校准的阈值在完整数据集上达到93-95%。该方法无需训练数据、微调或学习分类器:仅需对谱指标设置单一阈值即可实现高精度检测。 |
通过系统性标签校正,我们发现谱方法检测的是逻辑连贯性而非编译器接受度,能识别出因技术故障被形式化验证器拒绝但数学上有效的证明。我们进一步发现架构依赖性:Mistral-7B的滑动窗口注意力机制将判别信号从高频能量比转移至深层平滑度(d = 2.09,pₘᵥ = 1.16×10⁻⁴⁸),表明注意力机制设计会影响哪些谱特征捕捉推理有效性。这些发现确立了谱图分析作为推理验证的理论框架,可立即应用于幻觉检测与AI安全监控领域。 | | 融合自监督辅助任务:通过特征融合释放广义深度伪造检测中自监督辅助任务的潜力 | Shukesh Reddy | PDF | 本研究尝试释放自监督学习作为辅助任务的潜力,以优化广义深度伪造检测这一主要任务。为探索此问题,我们系统考察了不同任务训练方案的组合效果,以确定最具效能的配置方案。研究发现,融合自监督辅助任务的特征表征能够为当前问题提供强大的特征表示。这种表征方式既能充分发挥自监督任务与主要任务的终极潜力,又能融合二者独特的表征优势,从而显著提升主要任务的性能表现。我们在包含DF40、FaceForensics++、Celeb-DF、DFD、FaceShifter、UADFV等大规模数据集上进行了实验验证,结果表明:相较于当前最先进的检测器,我们的方法在跨数据集评估中展现出更优异的泛化能力。 | | 跨司法管辖区适应自然语言处理模型:加拿大癌症登记处的试点研究 | Jonathan Simkin | PDF | 基于人群的癌症登记系统主要依赖病理报告作为诊断信息来源,但人工提取工作资源密集且易导致癌症数据延迟。尽管基于Transformer的自然语言处理系统已优化登记工作流程,但其在不同报告规范辖区间的泛化能力仍不明确。本研究首次开展跨省评估,将不列颠哥伦比亚省癌症登记处开发的领域自适应Transformer模型BCCRTron与生物医学Transformer模型GatorTron应用于加拿大癌症监测。训练数据集分别包含来自纽芬兰与拉布拉多省癌症登记处约10.4万份(第一层级:癌症与非癌症分类)和2.2万份(第二层级:应报与非应报癌症分类)去标识化病理报告。通过整合结构化摘要与诊断导向的报告段落输入管道对两模型进行微调。在纽芬兰与拉布拉多测试集上,经适配的模型均保持高性能,证明在单一辖区预训练的Transformer模型可通过适度微调实现跨辖区本地化应用。为提升灵敏度,我们采用保守OR集成策略融合双模型:第一层级召回率达0.99,漏报癌症降至24例(单模型分别为48例和54例);第二层级召回率达0.99,漏报应报癌症降至33例(单模型分别为54例和46例)。研究表明,融合互补文本表征的集成方法能显著降低癌症漏报率并提升登记系统自然语言处理的错误覆盖能力。我们构建了隐私保护工作流程——仅跨省共享模型权重,这既支持可互操作的自然语言处理基础设施,也为未来建立全国统一的癌症病理与登记工作基础模型奠定基础。 | | FedHypeVAE:基于超网络生成条件变分自编码器的联邦学习框架,用于差分隐私嵌入共享 | Sunny Gupta | PDF | 联邦数据共享旨在实现数据效用而无需集中原始数据,但现有的嵌入级生成器在非独立同分布客户端异构性下表现不佳,且对梯度泄漏的正式保护有限。我们提出FedHypeVAE——一种基于差分隐私的超网络驱动框架,用于在去中心化客户端间合成嵌入级数据。该框架以条件变分自编码器为骨干,通过共享超网络从私有可训练的客户端代码生成客户端感知解码器和类条件先验分布,替代了原有的单一全局解码器和固定隐变量先验。这种双层设计在生成层(而非下游模型)实现个性化,同时将本地数据与通信参数解耦。共享超网络在差分隐私约束下优化,确保仅聚合经噪声扰动和裁剪后的客户端梯度。通过真实与合成嵌入间的局部最大均值差异对齐,以及超网络输出的利普希茨正则化,进一步增强了非独立同分布条件下的稳定性和分布一致性。训练完成后,中性元代码可实现领域无关的合成,而元代码混合则提供可控的多领域覆盖。FedHypeVAE在生成器层面统一了个性化、隐私保护与分布对齐,为联邦场景下的隐私保护数据合成奠定了理论基础。代码地址:github.com/sunnyinAI/FedHypeVAE | | 基于去噪扩散模型的分类重参数化 | Samson Gourevitch | PDF | 基于梯度的分类变量优化通常依赖于分数函数估计器,这类方法虽无偏但噪声较大;或依赖于连续松弛方法,即用平滑代理替代离散分布以获得路径式(重参数化)梯度,但代价是优化一个具有偏差且依赖温度参数的目标函数。本文通过引入基于扩散过程的分类分布软重参数化方法,拓展了此类松弛技术体系。对于分类分布,高斯加噪过程中的去噪器具有闭式解且可高效计算,由此产生无需训练的扩散采样器,支持反向传播。实验表明,所提出的重参数化技巧在多种基准测试中实现了具有竞争力或更优的优化性能。 | | 探究在多模态大语言模型应用于音频深度伪造检测中的可行性 | Akanksha Chuchra | PDF | 尽管视觉语言模型(VLMs)与多模态大语言模型(MLLMs)在图像和视频深度伪造检测中展现出强大的泛化能力,但它们在音频深度伪造检测领域的应用仍基本处于空白。本研究旨在探索MLLMs在音频深度伪造检测中的潜力。通过将音频输入与多种文本提示相结合作为查询,我们试图验证MLLMs能否学习跨模态的鲁棒表征以用于音频深度伪造检测。为此,我们尝试采用基于二元决策的文本感知、上下文丰富且以问答形式构建的提示方案。我们假设这种特征引导的推理机制将有助于促进更深层次的多模态理解,并为音频深度伪造检测实现鲁棒的特征学习。我们评估了Qwen2-Audio-7B-Instruct和SALMONN两种MLLM在两种评估模式下的性能:(a)零样本学习与(b)微调学习。实验结果表明,结合音频与多提示策略可能是推进音频深度伪造检测的有效路径。研究发现,未经任务特定训练的模型表现欠佳,且难以泛化至领域外数据;但在少量监督下,模型在领域内数据上取得了良好性能,这预示着其在音频深度伪造检测领域具有可观的应用潜力。 | | 组合效率前沿的LLM智能体:投资组合优化 | Simon Paquette-Greenbaum | PDF | 投资组合优化是所有主要金融机构都会执行的任务。其中基数约束均值-方差投资组合优化(CCPO)模型在组合优化领域应用广泛。这类混合整数二次规划问题因精确求解器难以处理,通常需借助启发式算法寻找近似组合解。CCPO涉及大量繁琐复杂的工作流程,其启发式算法开发也需投入大量精力——通过整合多组启发式解可提升有效前沿表现,因此业界普遍采用开发多种启发式算法的策略。
智能体框架在组合优化领域展现出巨大潜力:既能高效实现大型工作流程自动化,又在算法开发方面表现卓越,有时甚至超越人类水平。本研究针对CCPO问题构建了创新的智能体框架,并探索了多种具体架构。在基准问题测试中,该框架达到了当前最优算法的性能水平,显著降低了复杂工作流程与算法开发的工作强度,即使在最差情况下也仅产生较低且可接受的误差。 | | 进化与结构约束定义了E. coli丝氨酸羟甲基转移酶(SHMT)中抗突变的催化核心 | Deeptanshu Pandey | PDF | 丝氨酸羟甲基转移酶是大肠杆菌叶酸代谢途径中的关键酶,然而与二氢叶酸还原酶、二氢蝶酸合酶或胸苷酸合酶不同,该酶尚未被确立为抗菌靶点。为探究这一差异,我们构建了多尺度计算分析框架,整合了1000个同源蛋白的大规模序列分析、协同进化互作图谱、结构群落分析、内在无序性评估及适应性进化建模。各项分析结果共同指向一个结论:SHMT的催化核心形成了高度保守且紧密耦合的结构单元。该区域表现出密集的协同进化特征、强分子内连接性、极低的无序性以及极窄的突变容忍度。相比之下,外围环状结构与末端区域则具有显著更高的柔性。与已确立的叶酸途径抗菌靶点相比,SHMT活性位点表现出更强的结构刚性与进化约束性。这种极端约束可能限制了耐药性兼容突变的产生,为天然产物抑制剂的缺失提供了合理解释。适应性进化轨迹模型进一步支持这一解释,显示几乎所有活性位点残基仅能容忍罕见或中性替换。综合研究表明,SHMT是一种结构稳定且进化受限的酶,其催化结构域受到特殊保护机制。这使SHMT成为未被充分开发却极具潜力的靶点,为新一代抗菌药物的理性设计提供了新方向。 |