arXiv 2026-05-04

标题	作者	发布日期	PDF链接	摘要
后增强流匹配	George Stoica	2026-05-01	PDF	流匹配（FM）通过训练一个时间相关的向量场，将样本从简单先验分布迁移至复杂数据分布。然而对于高维图像，每个训练样本仅监督单一轨迹和中间点，导致训练信号极度稀疏且方差极大。这种欠约束的监督方式可能引发流坍塌——学习到的动力学过程会记忆特定的源-目标配对，将多样化的输入映射到过度相似的输出，从而丧失泛化能力。我们提出后验增强流匹配（PAFM），这是FM的一种理论严谨的泛化形式，通过用给定中间状态和条件下有效目标补全的近似后验期望替代单目标监督。PAFM将这一难以处理的的后验分解为：(i) 假设终点下中间状态的可能性，以及(ii) 该终点在条件约束下的先验概率，并采用重要性采样方案构建多个候选目标的混合分布。我们证明PAFM在保持原始FM目标无偏估计的同时，通过聚合每个中间状态对应的多条合理延续轨迹信息，显著降低了训练过程中的梯度方差。最后，我们展示PAFM在不同模型规模（SiT-B/2和SiT-XL/2）、不同架构（SiT和MMDiT）以及类别/文本条件基准测试（ImageNet和CC12M）中，相比FM实现了最高3.4 FID50K的提升，且计算开销增量可忽略不计。代码：https://github.com/gstoica27/PAFM.git
HyCOP：用于PDE可解释学习的混合组合算子	Jinpai Zhao	2026-05-01	PDF	我们提出HyCOP，这是一个模块化框架，通过以查询条件化的方式组合简单模块（平流、扩散、学习型闭合模型、边界处理）来学习参数化偏微分方程解算子。不同于学习单一映射，HyCOP学习一个关于短程序（即应用哪个模块以及持续多长时间）的策略，该策略以工况特征和状态统计量为条件。模块可以是数值子求解器或学习型组件，从而支持在任意查询时间点评估混合代理模型，无需自回归展开。在多个偏微分方程基准测试中，HyCOP生成可解释的程序，在分布外场景下相比单一神经算子实现数量级提升，并通过字典更新（例如边界替换、残差增强）支持模块化迁移。我们的理论刻画了表达能力，并给出误差分解方法，将组合误差与模块误差分离，同时可作为过程级诊断工具。
当大语言模型停止遵循步骤：语言模型中程序执行过程的诊断研究	Sailesh Panda	2026-05-01	PDF	大型语言模型（LLMs）在推理基准测试中常表现优异，但仅凭最终答案的准确率无法判断模型是否忠实执行了提示中指定的流程。我们通过一个受控的诊断性基准测试来研究这一问题：该测试要求模型根据给定的分步算术算法和两个数值输入，返回最终计算结果。基准测试采用简单算术运算，但通过算法长度和中间变量的回溯依赖关系增加复杂度。在14个模型和55个数据集上，平均首次答案准确率从5步流程的61%下降至95步流程的20%。生成层面分析显示，失败案例常表现为答案缺失、过早输出答案、初始错误后的自我修正、执行轨迹不完整以及幻觉性额外步骤。这些发现表明，表面上的推理能力可能掩盖了忠实执行指令方面的重大缺陷。
持久视觉记忆：在LVLMs中维持感知以支持深度生成	Siyuan Huang	2026-05-01	PDF	自回归大型视觉语言模型（LVLMs）在多模态任务中展现出卓越能力，但面临"视觉信号稀释"现象——文本历史积累会扩展注意力分配函数，导致视觉注意力随生成序列长度呈反比衰减。为解决此问题，我们提出持久视觉记忆（PVM），这是一种轻量级可学习模块，旨在确保持续按需的视觉感知。PVM作为并行分支集成于LVLMs的前馈网络（FFN）中，构建了与距离无关的检索通路，可直接提供视觉嵌入以实现精准视觉感知，从而从结构上缓解深度生成固有的信号抑制问题。在Qwen3-VL模型上的大量实验表明，PVM以可忽略的参数开销带来显著性能提升，在4B和8B两种规模下均实现一致的平均准确率增益，尤其在需要持续视觉感知的复杂推理任务中表现突出。进一步深度分析揭示，PVM能抵抗长度引发的信号衰减并加速内部预测收敛。
让ViT说话：生成式语言-图像预训练	Yan Fang	2026-05-01	PDF	本文提出生成式语言-图像预训练（GenLIP），一种面向多模态大语言模型（MLLMs）的视觉Transformer（ViT）极简生成式预训练框架。为更好地对齐视觉编码器与LLM的自回归特性，GenLIP采用标准语言建模目标，直接通过视觉token预测语言token，无需对比批次构建或额外文本解码器。该设计具备三大优势：（1）简洁性：单一Transformer联合建模视觉与文本token；（2）可扩展性：随数据与模型规模有效扩展；（3）性能：在多种多模态基准测试中取得具有竞争力或更优的结果。基于Recap-DataComp-1B中80亿样本训练的GenLIP，尽管预训练数据量显著减少，仍能匹配或超越强基线模型。在原生宽高比的多分辨率图像上继续预训练后，GenLIP进一步提升了OCR与图表理解等细节敏感任务的性能，成为MLLM视觉编码器的坚实基础。
编码代理能否复现计算材料科学中的发现？	Ziyang Huang	2026-05-01	PDF	大型语言模型正越来越多地被部署为自主编码代理，并在软件工程基准测试中展现出极为强劲的性能。然而，尚不清楚这种成功是否能迁移到计算科学工作流中——这类任务不仅要求强大的编码能力，还需要驾驭复杂、领域特定的流程，并在科学论断的语境中解读结果。为探究此问题，我们提出AutoMat基准，用于评估基于LLM的代理复现计算材料科学论断的能力。AutoMat提出三项相互关联的挑战：恢复未充分指定的计算流程、驾驭专业工具链，以及判定所得证据是否支持某一论断。通过与领域专家紧密合作，我们从真实材料科学论文中精选一组论断，测试编码代理能否恢复并执行支持（或反驳）这些论断所需的端到端工作流。随后，我们在多个基础模型上评估了多种代表性编码代理配置。结果表明，当前基于LLM的代理在AutoMat上的整体成功率较低，最佳配置的成功率仅为54.1%。错误分析进一步揭示，当工作流必须仅从论文文本重建时，代理表现最差，失败主因包括流程不完整、方法偏差及执行脆弱性。综合来看，这些发现使AutoMat既成为计算科学可复现性的基准，也成为诊断当前AI for Science场景中代理系统局限性的工具。
使用验证驱动的大语言模型工作流生成统计图表	Pavlin G. Poličar	2026-05-01	PDF	从表格数据生成多样化、可读性强的统计图表对大型语言模型而言仍具挑战性，因为许多失败在渲染后才会显现，且无法仅通过数据或代码检测。现有图表数据集也极少提供完全对齐的工件，如可执行代码、数据集上下文和问答对。我们提出一种基于LLM的结构化工作流，将图表生成分解为数据集筛选、绘图提案、代码合成、渲染、验证驱动的优化、描述生成和问答对生成。通过引入渲染输出验证，该工作流解决了可视化特有的失败模式，如可读性和语义不匹配。它将图表生成视为可检查的过程而非一次性提示到代码的任务，为每个图表保留其代码、数据集上下文、描述和问答对。应用于UCI数据集后，该工作流从74个数据集生成了1,500个图表，涵盖24种图表类型，并配以30,003个问答对。我们在这些图表-问答对上评估了16个多模态大语言模型（MLLM）。结果表明，图表语法问题几乎饱和，而数值提取、比较和推理仍更具挑战性，这展示了该工作流在基于图表的诊断性多模态推理研究中的实用性。
GMGaze：基于MoE的上下文感知注视估计方法，结合CLIP与多尺度Transformer	Xinyuan Zhao	2026-05-01	PDF	视线估计方法通常利用面部外观来预测人的注视方向。然而，先前研究表明，基于卷积神经网络（CNN）、Transformer和对比语言-图像预训练（CLIP）的方法存在三大挑战：图像特征的晚期融合、缺乏因子感知条件化以及不切实际的容量扩展。为解决这些问题，我们提出全局条件多尺度视线估计方法（GMGaze），该方法采用多尺度Transformer架构。具体而言，模型首先引入语义原型条件化机制，通过四个学习到的原型库（即光照、背景、头部姿态和外观）对CLIP全局图像嵌入进行调制，生成两个互补的上下文偏置全局标记。这些标记与CLIP图像块标记和CNN标记在第一层进行融合。这种早期统一融合避免了晚期合并中常见的信息损失。最后，每个标记通过稀疏混合专家模块，在不均匀增加密集参数的情况下提供条件计算容量。针对跨域适应，我们引入对抗域适应技术，并采用特征分离损失，促使两个全局标记保持去相关。在四个公开基准（MPIIFaceGaze、EYEDIAP、Gaze360和ETH-XGaze）上的实验表明，GMGaze的平均角度误差分别为2.49°、3.22°、10.16°和1.44°，在所有域内设置中均优于先前基线。在跨域评估中，该方法在两个标准迁移路径上取得了最先进（SOTA）结果。
RunAgent：基于约束引导执行的自然语言计划解析	Arunabh Srivastava	2026-05-01	PDF	人类通过执行有针对性的计划来解决问题，然而大型语言模型在结构化工作流执行方面仍不可靠。我们提出RunAgent，一个多智能体计划执行平台，该平台能够解析自然语言计划，同时通过约束和评分标准强制执行逐步执行。RunAgent通过一种包含显式控制结构（如IF、GOTO、FORALL）的智能体语言，弥合了自然语言的表达力与编程的确定性之间的鸿沟。除了基于每个步骤的具体指令对步骤输出进行语法和语义验证外，RunAgent还能根据任务描述及其在每个步骤中的实例，自主推导并验证约束条件。RunAgent还动态选择基于LLM的推理、工具使用以及代码生成与执行（例如Python），并集成错误纠正机制以确保正确性。最后，RunAgent通过在每个步骤执行期间仅保留相关信息来过滤上下文历史。在Natural-plan和SciBench数据集上的评估表明，RunAgent优于基线LLM和最新的PlanGEN方法。
当RAG聊天机器人暴露其后端：面向患者的医疗AI隐私与安全风险匿名案例研究	Alfredo Madrid-García	2026-05-01	PDF	背景：基于检索增强生成（RAG）的患者面向医疗聊天机器人正被越来越多地推广，以提供可获取且基于可靠来源的健康信息。人工智能辅助开发降低了构建此类系统的门槛，但仍需严格的安全、隐私和治理管控。目的：报告对一款公开可访问的患者面向医疗RAG聊天机器人进行的匿名化、非破坏性安全评估，并总结在医疗领域安全部署生成式人工智能的治理经验。方法：我们采用两阶段策略。首先，Claude Opus 4.6支持了探索性提示测试和结构化漏洞假设。其次，使用Chrome开发者工具手动验证候选发现，检查浏览器可见的网络流量、载荷、API模式、配置对象及存储的交互数据。结果：大语言模型辅助阶段识别出一个关键漏洞：敏感系统及RAG配置通过客户端-服务器通信暴露，而非限制在服务器端。手动验证确认，普通浏览器检查即可收集系统提示、模型与嵌入配置、检索参数、后端端点、API模式、文档与分块元数据、知识库内容以及最近1000条患者与聊天机器人的对话记录。该部署还与其隐私保证相矛盾：包括健康相关查询在内的完整对话记录无需认证即可检索。结论：使用标准浏览器工具即可识别患者面向RAG聊天机器人的严重隐私与安全故障，无需专业技能或认证；独立审查应作为部署的前提条件。商业大语言模型加速了本次评估，包括在虚假开发者身份下进行；审计人员可获得的辅助手段同样可被攻击者利用。