| WARDEN:仅用6小时训练数据实现濒危土著语言的转录与翻译 |
Ziheng Zhang |
2026-05-13 |
PDF |
本文介绍WARDEN,一个能够将濒危澳大利亚原住民语言Wardaman转写并翻译为英语的早期语言模型系统。我们面临的核心挑战是缺乏大规模训练数据:实际上仅有6小时带标注的音频。因此,虽然使用大规模数据集(如英语到法语)训练单一模型进行转写和翻译是常见做法,但在Wardaman到英语的场景中已不再可行。为解决低资源挑战,我们设计WARDEN采用分离的转写与翻译模型:首先将Wardaman音频输入转换为音素转写,再将转写结果翻译为英语。此外,我们提出两项提升性能的技术:在转写方面,使用与Wardaman共享相似音素的巽他语初始化Wardaman词元,加速转写模型微调;在翻译方面,从专家标注中编译Wardaman-英语词典,为大型语言模型提供领域知识以推理并决定最终输出。实验证明,在极端低数据场景下,这种两阶段设计优于数据饥渴的统一方法。仅使用6小时标注数据,WARDEN即超越更大规模的开源及专有模型,建立了强基准。数据和代码已公开。 |
| EVA-Bench:一个用于评估语音智能体的全新端到端框架 |
Tara Bogavelli |
2026-05-13 |
PDF |
语音代理(Voice Agents)——通过语音对话完成任务的AI系统——正越来越多地部署于企业应用中。然而,现有基准测试未能同时解决两大核心评估挑战:生成逼真的模拟对话,以及全面衡量语音特有故障模式的质量。我们提出EVA-Bench,一个端到端评估框架,同时应对这两大挑战。在模拟方面,EVA-Bench通过动态多轮对话编排机器人间的音频对话,并配备自动模拟验证机制,可检测用户模拟器错误并在评分前适当重新生成对话。在测量方面,EVA-Bench引入两个复合指标:EVA-A(准确性),涵盖任务完成度、忠实度及音频级语音保真度;EVA-X(体验),涵盖对话推进、口语简洁性及话轮切换时序。两项指标均适用于不同代理架构,支持直接跨架构比较。EVA-Bench包含覆盖三个企业领域的213个场景、用于口音和噪声鲁棒性测试的受控扰动套件,以及区分峰值能力与可靠能力的pass@1、pass@k、pass^k测量指标。通过对覆盖三种架构的12个系统进行测试,我们发现:(1)没有任何系统能在EVA-A pass@1和EVA-X pass@1上同时超过0.5;(2)峰值性能与可靠性能存在显著差异(EVA-A上pass@k与pass^k的中位数差距为0.44);(3)口音和噪声扰动暴露出显著的鲁棒性差距,其影响因架构、系统和指标而异(均值最高达0.314)。我们以开源许可协议发布完整框架、评估套件及基准数据。 |
| 在Valiant的可学习性理论中,可学习指的是存在一种算法,能够在多项式时间内,以高概率从训练样本中近似学习到目标概念,且样本复杂度也是多项式级别的。 |
Steve Hanneke |
2026-05-13 |
PDF |
Valiant 1984年的论文被广泛认为是PAC学习模型的奠基之作,但实际上该论文提出了一个不同的模型:与PAC学习不同,学习者仅接收正例样本,可发起成员查询,且必须输出无假正例的假设。先前的研究已刻画了该模型的各种变体,包括无查询的情况。我们重新审视Valiant的原始模型并提出问题:哪些概念类在该模型中是可学习的? 对于每个有限域(包括Valiant的布尔超立方体设定),我们证明一个概念类可学习当且仅当每个可实现的阳性样本都能通过一个多项式大小的自适应查询压缩方案进行认证。这是一种新型的样本压缩,其中学习者通过与成员查询预言机的简短交互来认证样本。我们的刻画表明,Valiant模型中的可学习性严格介于PAC模型的可学习性与Valiant模型无成员查询变体的可学习性之间。这是少数几个引入成员查询会改变可学习概念类集合(而不仅是样本或计算复杂度)的案例之一。接下来,我们研究该模型在任意域上的自然扩展。虽然未能获得精确刻画,但我们的技术可轻易推广,并表明相同的严格夹逼关系依然成立。最后,我们证明$d$维半空间(无查询时不可学习)在有查询时是可学习的:我们给出一个$\mathrm{poly}(d) \tilde{O}(1/ε)$样本复杂度和$\mathrm{poly}(d) \mathrm{polylog}(1/ε)$查询复杂度的算法,并证明至少需要$Ω(d)$个样本或查询。据我们所知,这是Valiant模型中首个针对半空间的算法。这些结果共同揭示了Valiant原始可学习性概念背后令人惊讶的丰富理论,并引入了可能在机器学习理论中具有独立价值的思想。 |
| 好的代理朋友不仅提供口头建议:他们还能更新你的权重 |
Wenrui Bao |
2026-05-13 |
PDF |
多智能体大语言模型系统通常通过交换自然语言消息进行协作。这种接口简单且可解释,但迫使每个发送方的中间计算被序列化为令牌,再由接收方重新处理,从而增加了生成令牌成本、预填充开销和KV缓存内存。我们研究了一种替代通信接口:不将发送方的消息附加到接收方的上下文中,而是将发送方的隐藏状态编译为瞬态、接收方特定的权重扰动。我们提出了TFlow(思想流),一种针对已知且固定接收方架构的权重空间通信框架。对于每个查询,冻结角色提示的发送方智能体处理输入,学习到的参数生成器将其内部激活映射为针对接收方模块的低秩LoRA扰动。这些扰动在接收方生成期间融合并应用,实现了实例级自适应,而无需永久改变模型或扩大接收方的文本上下文。使用三个Qwen3-4B智能体,TFlow在五个基准测试上相比独立接收方提升了最多8.5个准确率点,同时将处理令牌减少了最多32.69%。与基于文本的三智能体基线相比,它将总处理令牌减少了最多83.27%,将端到端推理时间减少了最多4.6倍,同时在五个基准测试中的四个上保持了具有竞争力的准确率。这些结果表明,瞬态低秩权重扰动可以作为高效多智能体大语言模型协作的可执行通信媒介。 |
| R-DMesh:通过修正动态网格流实现视频引导的三维动画 |
Zijie Wu |
2026-05-13 |
PDF |
视频引导的3D动画在内容创作领域潜力巨大,能够对动态资产进行直观且精确的控制。然而,实际部署中面临一个关键却常被忽视的障碍:姿态错位困境。在真实场景中,用户提供的静态网格初始姿态极少与参考视频的起始帧对齐。若强行让网格遵循不匹配的运动轨迹,必然导致严重几何畸变或动画失败。为此,我们提出修正动态网格(R-DMesh),这是一个统一框架,旨在生成与视频上下文对齐的"修正"高保真4D网格。与标准运动迁移方法不同,我们的方法引入新型VAE,将输入显式解耦为条件基础网格、相对运动轨迹以及关键的修正跳跃偏移量。该偏移量通过自动学习,将输入网格的任意姿态变换为与视频初始状态匹配的形态。我们通过三流注意力机制处理这些组件,该机制利用逐顶点几何特征调节三个正交流,确保修正与动画过程中的物理一致性和局部刚性。在生成阶段,我们采用基于修正流的扩散Transformer,以预训练视频潜变量为条件,有效将丰富的时空先验迁移至3D领域。为支撑该任务,我们构建了Video-RDMesh数据集,包含超50万条动态网格序列,专门模拟姿态错位场景。大量实验表明,R-DMesh不仅解决了对齐问题,还支持姿态重定向和整体4D生成等鲁棒下游应用。 |
| 基于霍奇分解的拓扑保持神经算子学习 |
Dongzhe Zheng |
2026-05-13 |
PDF |
本文从函数空间视角研究几何网格上物理场方程的解算子。我们揭示霍奇正交性通过将不可学习的拓扑自由度与可学习的几何动力学分离,从根本上解决了谱干扰问题,从而实现了局限于结构保持子空间的加性逼近。基于霍奇理论和算子分裂,我们推导出原理性的算子级分解,最终形成一种混合欧拉-拉格朗日架构,其代数级归纳偏置称为霍奇谱对偶。在该框架中,我们利用离散微分形式捕捉拓扑主导分量,并通过正交辅助环境空间表示复杂的局部动力学。本方法在几何图上实现了更优的精度与效率,同时增强了对物理不变量的保真度。代码开源于 https://github.com/ContinuumCoder/Hodge-Spectral-Duality |
| 解锁基于CLIP的类增量学习中的补丁级特征 |
Hao Sun |
2026-05-13 |
PDF |
类增量学习(CIL)使模型能够持续整合新知识,同时缓解灾难性遗忘。受CLIP卓越泛化能力的驱动,利用预训练的视觉-语言模型已成为CIL的主流范式。然而,当前研究主要聚焦于将全局图像嵌入(即[CLS]标记)与对应文本提示(即[EOS]标记)对齐。尽管性能优异,但我们发现这些方法丢弃了CLIP编码器中蕴含的丰富补丁级语义信息。例如,识别兔子时,局部补丁可能编码其独特特征(如长耳朵和蓬松尾巴),这些特征能为识别提供补充证据。基于上述观察,我们提出面向CLIP-CIL的SPA(语义引导的补丁级对齐)方法,旨在唤醒CLIP中长期被忽视的局部表征。具体而言,我们首先为每个类别构建具有代表性和多样性的视觉样本,并将其输入GPT-5作为视觉引导以生成类别级语义描述。这些描述用于指导判别性补丁级视觉特征的选择。基于所选补丁,我们进一步采用最优传输将选定的补丁标记与类别级描述中的语义标记对齐,形成结构化跨模态对齐以提升识别性能。此外,我们引入任务特定投影器以有效适应下游增量任务,并从存储的类别级高斯统计中采样伪特征来校准旧类别表征,从而缓解灾难性遗忘。大量实验表明,SPA实现了最先进的性能。 |
| QLAM:一种用于长序列令牌建模的量子长注意力记忆方法 |
Hoang-Quan Nguyen |
2026-05-13 |
PDF |
在序列数据中建模长程依赖关系仍是机器学习领域的核心挑战。Transformer通过注意力机制应对这一挑战,但其与序列长度呈二次方关系的复杂度限制了长上下文场景的可扩展性。状态空间模型(SSM)通过循环更新演化隐状态,以线性时间计算提供高效替代方案,但其记忆通常通过加法或线性转换形成,这可能限制其捕捉跨令牌复杂全局交互的能力。本研究首次探索利用量子系统的叠加特性增强基于状态的序列建模。具体而言,我们提出量子长程注意力记忆(QLAM),这是一种可视为状态空间模型量子扩展的混合量子-经典记忆机制。QLAM不维护通过加法动力学更新的经典隐状态,而是将隐藏状态表示为量子态,其振幅编码历史信息的叠加态。该状态通过基于输入条件化的参数化量子电路演化,实现非经典的全局更新机制。通过这种方式,QLAM在保留SSM循环与线性时间结构的同时,通过量子叠加从根本上丰富了记忆表征。与显式计算成对交互的注意力机制不同,QLAM通过量子态演化隐式捕捉全局依赖关系,并通过基于查询的测量检索任务相关信息。我们在标准图像分类基准的序列化变体(包括sMNIST、sFashion-MNIST和sCIFAR-10,其中图像被展平为令牌序列)上评估QLAM。在所有任务中,QLAM均持续优于循环基线模型和基于Transformer的模型。 |
| 有效训练长上下文视觉语言模型,实现超越128K上下文的泛化能力 |
Zhaowei Wang |
2026-05-13 |
PDF |
长上下文建模正成为现代大型视觉语言模型(LVLMs)的核心能力,支持在长文档理解、视频分析以及智能体工作流中的多轮工具使用等场景中实现持续的上下文管理。然而,实用的训练方案仍缺乏充分探索,尤其是在设计和平衡长上下文数据混合方面。本文对LVLMs的长上下文持续预训练进行了系统研究,将7B模型从32K上下文扩展至128K,并对长文档数据进行了大量消融实验。我们首先发现,长文档VQA比OCR转录显著更有效。基于这一观察,我们的消融实验进一步得出三个关键发现:i)在序列长度分布上,平衡数据优于聚焦目标长度(如128K)的数据,表明长上下文能力需要跨不同长度和位置的可泛化关键信息检索;ii)检索仍是主要瓶颈,倾向于采用检索密集型混合数据并辅以适量推理数据以增加任务多样性;iii)纯长文档VQA在很大程度上保留了短上下文能力,表明指令格式的长数据减少了对短数据混合的需求。基于这些发现,我们提出了MMProLong,该模型通过从Qwen2.5-VL-7B进行长上下文持续预训练获得,仅使用5B token预算。MMProLong将长文档VQA得分提升7.1%,并在无需额外训练的情况下,在超出其128K训练窗口的256K和512K上下文中保持强劲性能。它还能泛化至基于网页的多模态针检索、长上下文视觉文本压缩以及长视频理解,无需任务特定监督。总体而言,本研究为推进长上下文视觉语言模型建立了实用的LongPT方案和实证基础。 |
| 量化树集成的敏感性:一种符号化与组合方法 |
S. Akshay |
2026-05-13 |
PDF |
决策树集成(DTE)是广泛应用于各类AI分类任务的流行模型,在多个安全关键领域均有应用,因此验证这些模型的属性已成为近十年的研究热点。其中一项验证问题是敏感性分析,即给定一个DTE,判断特征子集的微小变化是否会导致输入被错误分类。本研究旨在针对DTE构建一种量化的敏感性概念,通过离散化模型的输入空间并枚举易受敏感性影响的区域来实现。我们提出了一种新颖的算法技术,能够在保证认证误差和置信度边界的前提下高效完成计算。该方法将问题编码为代数决策图(ADD),并进一步将其分解为可高效求解的子问题,使计算具备组合性与可扩展性。我们通过不同规模(以决策树数量和深度为指标)的基准测试评估了该技术的性能,并与基于相同问题编码的模型计数方法进行了对比。实验结果表明,我们的工具XCount相比其他方法实现了显著的加速,且能随集成规模的扩大保持良好的可扩展性。 |