arxiv 2025-11-03
| 标题 | 作者 | PDF链接 | 摘要 |
|---|---|---|---|
| LifWavNet:基于提升小波的雷达非接触式心电信号重建网络 | Soumitra Kundu | 基于雷达信号的非接触式心电图重建技术为无干扰心脏监测提供了创新解决方案。本文提出LifWavNet——一种基于多分辨率分析与合成模型的提升小波网络,专门用于雷达信号到心电图的转换。与采用固定小波方法的传统模型不同,LifWavNet通过可学习的提升小波结构,结合提升与逆提升单元,自适应捕捉雷达信号特征并合成具有生理意义的心电波形。为提升重建保真度,我们引入多分辨率短时傅里叶变换损失函数,在时域和频域同时确保重建信号与真实心电图的一致性。在两个公开数据集上的实验表明,LifWavNet在心电重建及下游生命体征估计(心率和心率变异性)任务中均优于现有最优方法。此外,中间特征可视化揭示了多分辨率分解与合成在雷达-心电图转换过程中的可解释性。这些研究成果确立了LifWavNet作为基于雷达的非接触式心电图测量的稳健框架。 | |
| 连续自回归语言模型 | Chenze Shao | 大型语言模型(LLM)的效率从根本上受限于其顺序的、逐词元的生成过程。我们认为,突破这一瓶颈需要为LLM扩展引入新的设计维度:提升每个生成步骤的语义带宽。为此,我们提出连续自回归语言模型(CALM),这一范式实现了从离散下一词元预测到连续下一向量预测的转变。CALM采用高保真自编码器将包含K个词元的文本块压缩为单个连续向量,并能以超过99.9%的准确率重建原始词元。该方法使我们将语言建模为连续向量序列而非离散词元序列,从而将生成步骤数量减少至原来的1/K。这一范式转变需要新的建模工具,因此我们开发了完整的无似然框架,支持在连续域中进行稳健训练、评估和可控采样。实验表明,CALM显著优化了性能与计算量的权衡,以显著更低的计算成本实现了强离散基线的性能。更重要的是,这些发现确立了下一向量预测作为实现超高效语言模型的有效可扩展路径。代码:https://github.com/shaochenze/calm 项目:https://shaochenze.github.io/blog/2025/CALM | |
| 阶段性分布匹配蒸馏:基于子区间内分数匹配的少步分布匹配蒸馏 | Xiangyu Fan | 分布匹配蒸馏(DMD)将基于分数的生成模型提炼为高效的单步生成器,且无需与教师模型的采样轨迹保持一一对应。然而受限的模型容量导致单步蒸馏模型在复杂生成任务中表现欠佳,例如文本到视频生成中合成精细物体运动的场景。直接将DMD扩展至多步蒸馏会显著增加内存消耗与计算深度,引发训练不稳定与效率下降。虽然已有研究提出随机梯度截断作为解决方案,但我们发现该方法会大幅降低多步蒸馏模型的生成多样性,使其退化至单步模型水平。 |
为突破这些局限,我们提出分阶段DMD——一种融合分阶段蒸馏思想与专家混合系统(MoE)的多步蒸馏框架,在降低学习难度的同时提升模型容量。该框架基于两大核心设计:渐进式分布匹配与子区间分数匹配。首先,模型将信噪比(SNR)范围划分为若干子区间,通过逐步向更高SNR层级精炼模型,以更精准捕捉复杂数据分布。其次,为确保各子区间训练目标的精确性,我们完成了严谨的数学推导。
我们通过蒸馏前沿图像与视频生成模型(包括200亿参数的Qwen-Image与280亿参数的Wan2.2)验证分阶段DMD的有效性。实验结果表明,该方法在保持关键生成能力的同时,比原始DMD更好地保留了输出多样性。我们将公开相关代码与模型。 | | 社会学习调节群体觅食中效率、稳定性和公平性之间的权衡关系 | Ze-Xu Li | PDF | 社会学习通过影响个体对同伴信息的使用方式,从而塑造集体搜索行为。实证与计算研究表明,既非过度局部化也非过度扩散的最优信息共享能够提升资源发现与协调效率。基于这些发现,我们构建了一个融合社会学习与区域限制搜索(ARS)的随机搜索模型,以探究交流距离如何影响集体觅食行为。该模型包含三种行为模式:探索、开发和定向移动,这些模式由单一参数$\rho$统一调控,该参数在群体层面实现探索与开发的平衡。我们量化分析了$\rho$对群体效率($\eta$)、时间变异性/突发性($B$)以及智能体在资源分布中的变异性/公平性($\sigma$)的影响,揭示了这些结果之间存在的显著权衡关系。当$\rho \to 0$时,智能体独立探索,实现集体探索最大化;随着$\rho$增大,个体优先开发其他成员发现的资源斑块:此时$\eta$呈现先升后降趋势,而$B$则表现出相反的变化规律。群体效率在平衡探索与开发的中间$\rho$值处达到最优。当$\rho$取最大值时,智能体间公平性最高,但效率下降且突发性达到峰值。最后,通过引入负奖励机制,我们探究了社会学习如何帮助规避风险。 | | PETAR:基于掩码感知视觉语言建模的PET自动报告局部发现生成系统
(注:该翻译采用学术论文标题的典型结构,通过冒号分隔主副标题。将"Localized Findings Generation"译为"局部发现生成"以突出医学影像的区域性特征分析,"Mask-Aware Vision-Language Modeling"译为"掩码感知视觉语言建模"准确传达模型核心技术特征,"PET Automated Reporting"译为"PET自动报告"符合医学影像诊断报告的行业术语规范。) | Danyal Maqbool | PDF | 视觉语言模型(VLM)的最新进展已实现令人瞩目的多模态推理能力,然而当前医疗应用仍主要局限于二维成像。本研究将VLM扩展至三维正电子发射断层扫描与计算机断层扫描(PET/CT)领域——该领域具有大尺度三维数据、病灶分散且体积微小、影像报告篇幅长等特征。我们构建了大规模数据集,包含来自5,000余次PET/CT检查的11,000余个病灶级描述及其三维分割结果,通过基于规则与大语言模型(LLM)的混合流程进行提取。基于此数据集,我们提出PETAR-4B模型:一种集成PET、CT及病灶轮廓的三维掩码感知视觉语言模型,可实现基于空间定位的影像报告生成。该模型通过融合全局上下文推理与细粒度病灶感知,生成具有临床连贯性与空间定位特征的诊断结果。综合自动化评估与人工评估表明,PETAR显著提升了PET/CT报告生成质量,推动了三维医学视觉语言理解领域的发展。 | | 暗场X射线成像显著提升基于深度学习的临床前模型早期合成肺肿瘤检测能力 | Joyoni Dey | PDF | 低剂量计算机断层扫描(LDCT)是目前肺癌筛查的标准手段,但其应用与可及性仍受限。许多地区缺乏LDCT基础设施,且如国家肺部筛查试验(NLST)所示,即使在接受筛查的人群中,早期癌症检测也常出现假阳性——该研究显示敏感度为93.8%,假阳性率高达26.6%。本研究旨在探讨X射线暗场成像(DFI)这一对肺泡微结构小角散射敏感且不易受器官阴影干扰的技术,结合深度学习分割能否显著提升早期肺肿瘤检测能力。通过使用安乐死小鼠肺部的配对衰减(ATTN)与DFI影像,我们生成了具有不规则边界且强度分布符合实际肺部对比度的模拟肿瘤。采用U-Net分割网络对小尺寸图像块进行训练,分别使用ATTN通道、DFI通道及双通道组合。结果显示:纯DFI模型真阳性检测率达83.7%(纯ATTN模型为51%),同时保持相当的特异度(90.5% vs 92.9%);双通道输入则实现79.6%的敏感度与97.6%的特异度。结论表明,相较于标准衰减放射成像,DFI技术显著提升早期肿瘤检测能力,在缺乏LDCT设备的临床前或资源有限筛查场景中,展现出作为可及性强、低成本、低剂量替代方案的潜力。 | | 复杂监控场景下基于视觉Transformer的鲁棒遮挡行人重识别 | Bo Li | PDF | 监控场景下的行人重识别技术面临遮挡、视角畸变和图像质量不佳等挑战。现有方法大多依赖复杂模块,或仅在清晰正面图像上表现良好。我们提出Sh-ViT(乱序视觉Transformer),一种面向遮挡行人重识别的轻量鲁棒模型。该模型基于ViT-Base架构,引入三大核心组件:首先,在最终Transformer层加入乱序模块,通过打破空间关联性增强对遮挡与模糊的鲁棒性;其次,采用场景自适应增强策略(几何变换、擦除、模糊及色彩调整)模拟真实监控条件;第三,基于DeiT的知识蒸馏技术提升有限标注下的学习效能。为支持真实场景评估,我们构建了MyTT数据集,包含基站巡检场景中1万余名行人、超3万张图像,涵盖频繁的设备遮挡与摄像头差异。实验表明,Sh-ViT在MyTT数据集上达到83.2%首位命中率与80.1%平均精度均值,优于CNN与ViT基线模型;在Market1501数据集上取得94.6%首位命中率与87.5%平均精度均值,超越现有最优方法。该模型无需外部模块即可显著提升对遮挡与模糊的鲁棒性,为基于监控的人员巡检提供了实用解决方案。 | | 关于为基于大语言模型的代码漏洞检测选择少样本示例的研究 | Md Abdul Hannan | PDF | 大型语言模型(LLMs)在多项代码任务中展现出卓越能力,包括代码摘要、翻译、补全和生成。然而,在检测代码漏洞方面,LLMs仍面临挑战。提升模型性能的有效途径之一是上下文学习(ICL)——通过提供与查询相似的少量示例及其正确答案,能够增强LLM生成正确解决方案的能力。但如何恰当选择这些少量示例对提升模型性能至关重要。本文针对代码漏洞检测任务中的ICL,探索了两种少量示例的选取标准:首要标准关注LLM对样本是否(持续)产生误判,其核心思路是模型在样本上的表现可反映该样本作为示例的有效性;次要标准则基于示例与待查询程序的相似度,通过$k$近邻算法选取与目标样本最接近的示例。我们使用开源模型在多个数据集上进行评估,分别验证了这两项标准的独立作用,并考察了不同组合方式下的综合效果。 | | 文化制图学:描绘文化知识版图 | Caleb Ziems | PDF | 为安全高效地服务全球用户,大语言模型需要具备预训练阶段可能未习得的特定文化知识。如何发现既(1)对群体内用户显著、(2)又未被大语言模型掌握的知识?现有方案多为单向模式:要么研究者设计挑战性问题由用户被动回答(传统标注),要么用户主动生成数据供研究者构建测试基准(知识提取)。若采用混合主动协作模式——既让用户引导流程以真实反映其文化特征,又让大语言模型推动生成符合研究目标的挑战性问题——将显著提升该过程效能。我们提出名为“文化图谱构建”的混合主动方法论:大语言模型通过标注其低置信度答案的问题,显式呈现既有知识及认知缺口,人类参与者据此填补空白并通过直接编辑引导模型聚焦关键议题。基于该方法开发的CultureExplorer工具显示:相较于仅回答模型提问的基线方案,该工具能更有效地挖掘DeepSeek R1和GPT-4o等前沿模型即使联网搜索仍缺失的知识。利用这些数据对Llama-3.1-8B进行微调后,其在相关文化基准测试中的准确率最高提升19.2%。 | | MolChord:面向蛋白质引导药物设计的结构-序列比对算法
(注:采用"结构-序列比对"准确对应"Structure-Sequence Alignment"的学术表述,通过"面向...的"介词结构明确应用领域,补充"算法"二字体现计算生物学方法论特征,符合中文科技文献标题的表述规范) | Wei Zhang | PDF | 基于结构的药物设计(SBDD)是通过靶点蛋白映射候选分子配体的药物发现核心任务。如何有效对齐蛋白质结构表征与分子表征,并确保生成药物与其药理特性之间的匹配,仍是关键挑战。为解决这些问题,我们提出MolChord系统,其整合两大关键技术:(1)为对齐蛋白质/分子结构与其文本描述及序列表征(如蛋白质FASTA与分子SMILES),我们采用统一文本、小分子和蛋白质的自回归模型NatureLM作为分子生成器,并搭配基于扩散的结构编码器;(2)为引导分子朝向目标特性,我们通过整合偏好数据构建属性感知数据集,并采用直接偏好优化(DPO)精调对齐过程。在CrossDocked2020数据集上的实验表明,本方法在关键评估指标上达到最先进性能,彰显其作为SBDD实用工具的潜力。 |