arxiv 2025-11-04
| 标题 | 作者 | PDF链接 | 摘要 |
|---|---|---|---|
| LifWavNet:基于提升小波的雷达非接触式心电信号重建网络 | Soumitra Kundu | 基于雷达信号的非接触式心电图重建技术为无感心脏监测提供了一种前景广阔的方法。本文提出LifWavNet——一种基于多分辨率分析与合成模型的提升小波网络,用于实现从雷达信号到心电图的转换。与采用固定小波方法的现有模型不同,LifWavNet通过可学习的提升小波结构,结合提升单元与逆提升单元,自适应捕捉雷达信号特征并合成具有生理意义的心电波形。为提升重建保真度,我们引入了多分辨率短时傅里叶变换损失函数,在时域和频域同时保证重建信号与真实心电图的一致性。在两个公开数据集上的评估表明,LifWavNet在心电重建及下游生命体征估计(心率和心率变异性)任务中均优于现有最优方法。此外,中间特征可视化凸显了多分辨率分解与合成在雷达-心电图转换过程中的可解释性。这些结果确立了LifWavNet作为基于雷达的非接触式心电图测量的稳健框架。 | |
| 连续自回归语言模型 | Chenze Shao | 大型语言模型(LLM)的效率从根本上受限于其顺序的、逐词元的生成过程。我们认为,突破这一瓶颈需要为LLM扩展引入新的设计维度:提升每个生成步骤的语义带宽。为此,我们提出连续自回归语言模型(CALM),这一范式实现了从离散下一词元预测到连续下一向量预测的转变。CALM采用高保真自编码器将包含K个词元的文本块压缩为单个连续向量,并能够以超过99.9%的准确率重建原始词元。该方法使我们将语言建模为连续向量序列而非离散词元序列,从而将生成步骤数量减少至原来的1/K。这种范式转变需要新的建模工具,因此我们开发了完整的无似然框架,支持在连续域中进行稳健训练、评估和可控采样。实验表明,CALM显著优化了性能与计算量的权衡,在显著降低计算成本的同时达到了强离散基线的性能水平。更重要的是,这些发现确立了下一向量预测作为实现超高效语言模型的有效可扩展路径。代码:https://github.com/shaochenze/calm 项目:https://shaochenze.github.io/blog/2025/CALM | |
| 分阶段DMD:基于子区间分数匹配的少步分布匹配蒸馏 |
(注:该翻译采用学术术语规范,其中: 1. "Phased"译为"分阶段"以体现阶段性特征 2." DMD"保留英文缩写对应"分布匹配蒸馏" 3. "Few-step"译为"少步"以区别于"零样本/少样本"等概念 4. "Score Matching within Subintervals"译为"子区间分数匹配"准确表达在划分区间内进行分数匹配的核心方法) | Xiangyu Fan | PDF | 分布匹配蒸馏(DMD)将基于分数的生成模型提炼为高效的单步生成器,且无需与教师模型的采样轨迹保持一一对应。然而受限的模型容量导致单步蒸馏模型在复杂生成任务中表现欠佳,例如文本到视频生成中合成精细物体运动的场景。直接将DMD扩展至多步蒸馏会显著增加内存消耗与计算深度,引发训练不稳定与效率下降。虽然已有研究提出随机梯度截断作为解决方案,但我们发现这会大幅降低多步蒸馏模型的生成多样性,使其退化至单步模型水平。
为突破这些局限,我们提出分阶段DMD——一种融合分阶段蒸馏与专家混合(MoE)思想的多步蒸馏框架,在降低学习难度的同时增强模型容量。该框架基于两大核心设计:渐进式分布匹配与子区间分数匹配。首先,模型将信噪比范围划分为多个子区间,通过逐步向更高信噪比层级精炼模型,以更精准捕捉复杂数据分布。其次,为确保各子区间训练目标的精确性,我们完成了严谨的数学推导。
我们通过蒸馏前沿图像与视频生成模型(包括200亿参数的Qwen-Image与280亿参数的Wan2.2)验证分阶段DMD的有效性。实验结果表明,该方法在保持关键生成能力的同时,比原始DMD能更好地维持输出多样性。相关代码与模型将开源发布。 | | 社会学习调节群体觅食中效率、稳定性和公平性之间的权衡关系 | Ze-Xu Li | PDF | 社会学习通过影响个体对同伴信息的使用方式,从而塑造集体搜索行为。实证与计算研究表明,既非过度局部化也非过度扩散的最优信息共享能够提升资源发现与协调效率。基于这些发现,我们构建了一个融合社会学习与区域限制搜索(ARS)的随机搜索模型,以探究交流距离如何影响集体觅食行为。该模型包含三种行为模式:探索、开发和定向移动,这些模式由单一参数$\rho$统一调控,该参数在群体层面实现探索与开发的平衡。我们量化分析了$\rho$对群体效率($\eta$)、时间变异性/突发性($B$)以及智能体在资源分布中的变异性/公平性($\sigma$)的影响,揭示了这些结果之间存在的显著权衡关系。当$\rho \to 0$时,智能体独立探索,实现集体探索最大化;随着$\rho$增大,个体优先开发其他成员发现的资源斑块:此时$\eta$呈现先升后降趋势,而$B$则表现出相反的变化规律。群体效率在平衡探索与开发的中间$\rho$值处达到最优。当$\rho$取最大值时,智能体间公平性最高,但效率下降且突发性达到峰值。最后,通过引入负奖励机制,我们探究了社会学习如何帮助规避风险。 | | PETAR:基于掩码感知视觉语言建模的PET自动报告局部发现生成
(注:此处采用学术翻译的常见处理方式: 1. 保留专业缩写"PETAR"作为专有技术名称 2. "Mask-Aware Vision-Language Modeling"译为"掩码感知视觉语言建模",准确传达其技术特性 3. "Localized Findings Generation"译为"局部发现生成",符合医学影像报告的术语习惯 4. "PET Automated Reporting"译为"PET自动报告",保持专业领域术语一致性 5. 整体采用"核心方法+应用目标"的中文学术标题常见结构) | Danyal Maqbool | PDF | 视觉语言模型(VLM)的最新进展已实现令人瞩目的多模态推理能力,然而当前医疗应用仍主要局限于二维成像。本研究将VLM扩展至三维正电子发射断层扫描与计算机断层扫描(PET/CT)领域——该领域具有大尺度三维数据、病灶分散且体积微小、影像报告篇幅长等特征。我们构建了大规模数据集,包含来自5,000余次PET/CT检查的11,000余个病灶级描述及其三维分割结果,这些数据通过基于规则与大型语言模型(LLM)的混合流程提取。基于此数据集,我们提出PETAR-4B模型:一种集成PET、CT与病灶轮廓的三维掩码感知视觉语言模型,能够生成空间定位准确的影像报告。该模型通过融合全局语境推理与细粒度病灶感知,生成临床逻辑连贯且具有空间定位特征的诊断结果。综合自动化评估与人工评估表明,PETAR显著提升了PET/CT报告生成质量,推动了三维医学视觉语言理解领域的发展。 | | 暗场X射线成像显著提升基于深度学习的临床前模型早期合成肺肿瘤检测效能 | Joyoni Dey | PDF | 低剂量计算机断层扫描(LDCT)是目前肺癌筛查的标准手段,但其普及程度与可及性仍然有限。许多地区缺乏LDCT基础设施,且即使接受筛查,早期癌症检测也常出现假阳性——国家肺部筛查试验(NLST)数据显示其敏感度为93.8%,假阳性率高达26.6%。本研究旨在探讨X射线暗场成像(DFI)技术结合深度学习分割能否显著提升早期肺部肿瘤的检测能力。该技术对肺泡微结构的小角散射敏感,且不易受器官阴影干扰。通过获取安乐死小鼠肺部的配对衰减(ATTN)与DFI影像,我们生成了具有不规则边界且强度分布符合实际肺部对比度的模拟肿瘤。采用U-Net分割网络对小尺寸图像块进行训练,分别输入ATTN通道、DFI通道及ATTN+DFI双通道数据。结果显示:纯DFI模型真阳性检测率达83.7%,显著优于纯ATTN模型的51%,同时保持相当的特异度(90.5% vs 92.9%);双通道输入实现79.6%的敏感度与97.6%的特异度。结论表明,相较于标准衰减放射成像,DFI技术显著提升了早期肿瘤的检测能力,在缺乏LDCT设备的临床前研究或资源有限场景中,展现出作为可及性高、低成本、低剂量筛查替代方案的潜力。 | | 复杂监控场景下基于视觉Transformer的鲁棒遮挡行人重识别 | Bo Li | PDF | 监控场景下的行人重识别技术面临遮挡、视角畸变和图像质量不佳等挑战。现有方法大多依赖复杂模块,或仅在清晰正面图像上表现良好。我们提出Sh-ViT(混洗视觉Transformer),一种面向遮挡行人重识别的轻量鲁棒模型。该模型基于ViT-Base架构,引入三大核心组件:首先,在最终Transformer层加入混洗模块,通过打破空间相关性增强对遮挡与模糊的鲁棒性;其次,采用场景自适应增强策略(几何变换、擦除、模糊及色彩调整)模拟真实监控条件;第三,基于DeiT的知识蒸馏技术提升有限标注数据下的学习效能。为支持真实场景评估,我们构建了MyTT数据集,包含基站巡检场景中10,000余位行人、30,000+张图像,涵盖频繁的设备遮挡与摄像机差异。实验表明:Sh-ViT在MyTT数据集上达到83.2% Rank-1准确率与80.1% mAP,优于CNN与ViT基线模型;在Market1501数据集上取得94.6% Rank-1准确率与87.5% mAP,超越现有最优方法。该模型无需外部模块即可显著提升对遮挡与模糊的鲁棒性,为监控场景下的人员监测提供了实用解决方案。 | | 关于为基于大语言模型的代码漏洞检测选择少样本示例的研究 | Md Abdul Hannan | PDF | 大型语言模型(LLMs)在多项代码任务中展现出卓越能力,包括代码摘要、翻译、补全与生成。然而,在检测代码漏洞方面,LLMs仍面临挑战。提升模型性能的有效途径之一是上下文学习(ICL)——通过提供与查询相似的少量示例及其正确答案,可增强LLM生成正确解决方案的能力。但如何恰当选择示例对提升模型性能至关重要。本文针对代码漏洞检测任务中的ICL应用,探索了两种少样本示例选择标准:首要标准关注LLM对样本是否(持续)存在误判,其核心思路是模型在样本上的表现能够反映该样本作为示例的有效性;另一标准则考量示例与待查询程序的相似度,基于$k$近邻算法选取与目标样本最接近的示例。我们采用开源模型在多个数据集上进行评估,分别验证这些标准的独立效用及其组合效果。 | | 文化制图学:描绘文化知识版图 | Caleb Ziems | PDF | 为安全高效地服务全球用户,大型语言模型需要具备预训练阶段可能未习得的特定文化知识。如何发现既(1)对群体内用户显著、(2)又未被模型掌握的知识?当前主流方案采用单向模式:要么研究者设计挑战性问题由用户被动回答(传统标注),要么用户主动生成数据供研究者构建评测基准(知识提取)。若采用混合协作模式,让用户引导流程以真实反映其文化特征,同时由模型主导提出符合研究目标的进阶问题,将显著提升该过程效能。我们提出名为"文化图谱构建"的混合协作方法:首先由大语言模型基于低置信度答案生成标注问题,明确呈现其先验知识与认知缺口,继而由人类参与者填补这些缺口并通过直接编辑引导模型聚焦关键议题。我们将该方法实现为"文化探索者"工具。相较于仅回答模型提问的基线方案,即便开启网络搜索,文化探索者能更有效地发现DeepSeek R1、GPT-4o等前沿模型缺失的知识。基于这些数据对Llama-3.1-8B进行微调后,其在相关文化基准测试中的准确率最高提升19.2%。 | | MolChord:面向蛋白质引导药物设计的结构-序列比对方法
(注:采用"结构-序列比对"的译法既准确体现技术特征,又符合生物信息学领域术语规范;通过添加"方法"二字明确工具属性,使中文表述更完整;"蛋白质引导药物设计"的译法精准传达"Protein-Guided Drug Design"的专业内涵,保持学术文本的严谨性) | Wei Zhang | PDF | 基于结构的药物设计(SBDD)是通过靶点蛋白映射候选分子配体的药物发现核心任务。如何有效对齐蛋白质结构表征与分子表征,并确保生成药物与其药理特性之间的匹配,仍是关键挑战。为此,我们提出MolChord系统,其整合两大关键技术:(1)为对齐蛋白质/分子结构与其文本描述及序列表征(如蛋白质FASTA与分子SMILES),我们采用统一文本、小分子和蛋白质的自回归模型NatureLM作为分子生成器,并耦合基于扩散的结构编码器;(2)为引导分子朝向目标特性,通过整合偏好数据构建属性感知数据集,并采用直接偏好优化(DPO)精调对齐过程。在CrossDocked2020数据集上的实验表明,本方法在关键评估指标上达到最先进性能,彰显其作为SBDD实用工具的潜力。 |