arxiv 2026-01-06
| 标题 | 作者 | PDF链接 | 摘要 |
|---|---|---|---|
| 大型语言模型的异构低带宽预训练 | Yazan Obeidi | 预训练大型语言模型(LLM)日益依赖分布式计算,但带宽限制使得在资源充足的数据中心之外进行扩展变得困难——尤其是在模型并行化要求频繁进行大规模设备间通信时。我们研究能否通过激活值与激活梯度压缩技术,将基于低频同步与稀疏伪梯度交换的低通信数据并行方法SparseLoCo,与低带宽流水线模型并行化相结合。我们提出一种异构分布式训练框架:部分参与者通过高带宽互连网络托管完整模型副本,而资源受限的参与者则被分组,通过采用子空间投影级间通信的流水线并行化技术共同实例化一个模型副本。为使近期提出的子空间流水线压缩方法与SparseLoCo兼容,我们探索了多种适配方案。通过在标准预训练语料上进行大规模语言建模实验(1.78亿至10亿参数),我们发现激活值压缩能以可控代价与SparseLoCo协同工作,而选择性(异构)压缩相较于压缩所有副本,能持续改善损失-通信权衡关系——在采用激进压缩比时尤为显著。这些结果表明,将低带宽模型并行化与异构参与者纳入LLM预训练具有可行的实践路径。 | |
| ExposeAnyone:个性化音频到表情扩散模型作为鲁棒的零样本人脸伪造检测器 | Kaede Shiohara | 检测未知的深度伪造操作仍然是人脸伪造检测领域最具挑战性的问题之一。当前最先进的方法难以泛化至未见过的伪造手法,因为它们主要依赖于对现有深度伪造或伪伪造数据的监督训练,这导致模型过度拟合特定的伪造模式。相比之下,自监督方法具有更强的泛化潜力,但现有研究难以仅通过自监督学习获得具有判别性的表征。本文提出ExposeAnyone方法,这是一种基于扩散模型的完全自监督方案,能够从音频生成表情序列。其核心思想在于:当模型通过参考集完成对特定对象的个性化适配后,可通过扩散重建误差计算可疑视频与个性化对象之间的身份距离,从而实现针对特定目标的人脸伪造检测。大量实验表明:1)在DF-TIMIT、DFDCP、KoDF和IDForge数据集上,本方法的平均AUC比先前最优方法提升4.22个百分点;2)本模型能够有效检测Sora2生成的视频,而现有方法对此类视频检测效果不佳;3)本方法对模糊和压缩等干扰具有高度鲁棒性,凸显了其在现实世界人脸伪造检测中的适用性。 | |
| VINO:一种具有交错全模态上下文的统一视觉生成器 | Junyi Chen | 我们提出VINO——一个统一的视觉生成器,可在单一框架内完成图像与视频的生成及编辑任务。与依赖任务专用模型或独立模态模块的传统方法不同,VINO采用共享的扩散主干网络,通过文本、图像和视频进行联合条件控制,使单一模型能够支撑广泛的视觉创作与编辑需求。具体而言,VINO将视觉语言模型(VLM)与多模态扩散变换器(MMDiT)相结合:多模态输入被编码为交错排列的条件标记,进而引导扩散生成过程。该设计支持多参考基准对齐、长指令序列跟随以及静态与动态内容间的连贯身份保持,同时避免了针对特定模态的架构组件。 |
为训练这一统一系统,我们提出了多阶段训练流程:从视频生成基础模型出发,逐步扩展为能够同时处理图像与视频输入输出的统一多任务生成器。在多样化的生成与编辑基准测试中,VINO展现出卓越的视觉质量、精准的指令跟随能力、增强化的参考与属性保持特性,以及更可控的多身份编辑效果。我们的研究成果为可扩展的统一视觉生成指明了实践路径,并揭示了交错式上下文计算作为通用视觉创作基础架构的巨大潜力。 | | DARC:基于细粒度节奏控制的鼓点伴奏生成 | Trey Brosnan | PDF | 在音乐创作中,快速原型构建对于探索和完善创意至关重要,然而当用户既需要结构控制又要求风格灵活性时,现有的生成工具往往难以满足需求。现有的音轨到音轨生成方法虽然能基于其他音乐音轨进行条件生成,但对节奏的控制有限;而音色转换方法虽允许用户指定具体节奏,却无法结合音乐上下文进行条件生成。为此,我们提出DARC模型——一种能同时结合其他音轨的音乐上下文与显式节奏提示(如口技节拍或敲击音轨)的生成式鼓伴奏模型。通过参数高效微调技术,我们在保持音乐上下文感知能力的同时,为当前最先进的鼓音轨生成模型STAGE增加了细粒度节奏控制功能。 | | Talk2Move:基于强化学习的场景中文本指令对象级几何变换 | Jing Tan | PDF | 我们提出Talk2Move——一种基于强化学习的扩散框架,用于实现场景中物体基于文本指令的空间变换。通过自然语言对场景中的物体进行空间操控,是多模态生成系统面临的一项挑战。现有基于文本的操控方法虽能调整物体外观或风格,但由于缺乏配对监督数据且受限于像素级优化,难以实现物体层面的几何变换(如平移、旋转或缩放)。Talk2Move采用群体相对策略优化(GRPO),通过输入图像与轻量级文本变体生成多样化推演轨迹来探索几何动作,无需依赖昂贵的配对数据。空间奖励引导模型将几何变换与语言描述对齐,同时离轨步长评估与主动步长采样机制通过聚焦信息丰富的变换阶段提升学习效率。此外,我们设计了以物体为中心的空间奖励函数,直接评估位移、旋转和缩放行为,从而实现可解释且连贯的变换效果。在精选基准测试上的实验表明,Talk2Move能够实现精确、一致且语义保真的物体变换,在空间准确性与场景连贯性方面均优于现有文本引导编辑方法。 | | 元学习引导的剪枝技术:面向边缘设备的少样本植物病理学应用 | Shahnawaz Alam | PDF | 偏远地区的农民需要快速可靠的方法来识别植物病害,但他们往往难以获得实验室或高性能计算资源。深度学习模型能够通过叶片图像高精度检测病害,但这些模型通常规模过大、计算成本过高,无法在树莓派等低成本边缘设备上运行。此外,收集数千张带标签的病害图像用于训练既昂贵又耗时。本文通过将神经网络剪枝(移除模型中不必要的部分)与小样本学习相结合,解决了这两大挑战,使模型能够从有限样本中学习。本文提出疾病感知通道重要性评分方法,该方法能识别神经网络中哪些部分对区分不同植物病害最为关键,并将其整合到"剪枝-元学习-再剪枝"的三阶段流程中。在PlantVillage和PlantDoc数据集上的实验表明,该方法在保持原始精度92.3%的同时,将模型体积缩小了78%,压缩后的模型在树莓派4上能以每秒7帧的速度运行,为小农户实现实时田间诊断提供了可行方案。 | | Falcon-H1R:通过混合模型推动推理前沿,实现高效测试时扩展 | Falcon LLM Team | PDF | 本研究推出Falcon-H1R模型,这是一个拥有70亿参数、专为推理任务优化的模型,其成功验证了小型语言模型(SLMs)同样能够实现具有竞争力的推理性能。该模型在参数效率方面表现突出,在多项推理密集型基准测试中,其性能持续匹配甚至超越参数量为其2至7倍的最先进推理模型。这些成果凸显了精细数据筛选与针对性训练策略(通过高效监督微调与强化学习规模化实现)的重要性——无需扩大模型规模即可显著提升性能表现。
此外,Falcon-H1R通过融合更快的推理速度(依托混合并行架构设计)、更高的标记效率与更优的准确率,将推理效率的三维边界推向新高度。这种独特优势使Falcon-H1R-7B成为扩展高级推理系统的实用基础架构,尤其适用于需要大量思维链生成与并行测试规模化的场景。借助最新提出的DeepConf方法,该模型实现了最先进的测试时扩展效率,在准确率与计算成本方面均取得显著提升。
综上所述,Falcon-H1R证明:通过针对性的模型训练与架构设计,紧凑型模型同样能够提供鲁棒且可扩展的推理性能。 | | 在三维高斯建模中,通过各向异性局部编码实现语义与渲染的联合增强 | Jingming He | PDF | 近期研究提出通过扩展3D高斯泼溅(3DGS)的语义特征向量,实现语义分割与图像渲染的同步处理。然而,现有方法通常将语义分支与渲染分支独立处理,仅依赖二维监督而忽略了三维高斯几何特性。此外,当前自适应策略仅依据渲染梯度调整高斯集合,在细节模糊或纹理缺失区域往往效果有限。本研究提出一种协同增强的三维语义高斯建模框架,实现语义与渲染分支的深度融合。首先,区别于传统点云形状编码方法,我们引入基于拉普拉斯-贝尔特拉米算子的各向异性三维高斯切比雪夫描述符,以捕捉细粒度三维形状细节,从而有效区分外观相似的物体并降低对可能存在噪声的二维引导的依赖。其次,我们突破仅依赖渲染梯度的局限,结合局部语义与形状信号自适应调整高斯分布与球谐函数,通过选择性资源分配提升渲染效率。最后,设计跨场景知识迁移模块持续更新学习到的形状模式,使模型在新场景中无需重新学习形状信息即可实现快速收敛与鲁棒表征。在多数据集上的实验表明,该方法在保持高渲染帧率的同时,显著提升了分割精度与渲染质量。 | | 通过提示优化与学习集成实现稳健的人物感知毒性检测 | Berk Atil | PDF | 毒性检测本质上具有主观性,其判断标准受到不同人口群体多元视角与社会先验认知的塑造。尽管经济学和社会科学中采用的"多元主义"建模方法旨在捕捉不同情境下的观点差异,但当前大型语言模型(LLM)的提示技术在不同角色设定和基础模型间会产生差异化结果。本研究对角色感知的毒性检测进行了系统性评估,结果表明:包括我们提出的自动提示优化策略在内,没有任何单一提示方法能在所有模型-角色配对中保持绝对优势。为利用互补性误差,我们探索了四种提示变体的集成方法,并提出一种轻量级元集成策略:基于四维提示预测向量的支持向量机(SVM)集成。实验结果表明,所提出的SVM集成方法在各类角色设定中持续优于单一提示方法及传统多数投票技术,实现了跨角色场景下的最优综合性能。本研究首次系统比较了角色条件提示在毒性检测中的应用,并为主观性自然语言处理任务中的多元评估提供了稳健方法。 | | BEDS:贝叶斯涌现耗散结构 | Laurent Caraffa | PDF | 我们提出贝叶斯涌现耗散结构理论框架,该理论框架统一了非平衡热力学、贝叶斯推断、信息几何与机器学习中的核心概念。核心论点指出:跨越物理、生物与计算系统的学习过程,本质上是通过熵输出将通量转化为结构的过程。基于普里高津的耗散结构理论,我们建立了热力学过程与贝叶斯更新的形式同构,证明可持续的学习系统必须遵循耗散模式——其中结晶化的后验分布将成为后续涌现层级的先验分布。
我们从最小公理出发,推导出基本数学常数(自然常数e、圆周率π、黄金比例φ)作为贝叶斯推断的不动点,表明这些常数必然涌现于任何能够表征并更新不确定性的系统。进一步地,我们提出一个将哥德尔不完备性定理与热力学约束相联系的猜想,假设形式系统的病理特征(不完备性、不可判定性)在结构上类似于物理系统中的耗散缺陷。
作为实践验证,我们设计了一种实现贝叶斯涌现耗散结构原理的对等网络架构。该架构在实现持续学习的同时,相比现有分布式共识系统实现了六个数量级的能效提升。本研究连接了基础物理学、数理逻辑与实用系统设计,既为学习与计算的本质提供了理论洞见,也为实现可持续人工智能提供了具体路径。 |