arXiv 2026-05-06

标题	作者	发布日期	PDF链接	摘要
一种用于认证点云和图分类的闭式自适应地标核	Sushovan Majhi	2026-05-05	PDF	我们提出PALACE（持久性自适应地标分析分类引擎），作为PLACE的数据自适应配套方法，通过三个参数（预算、半径、带宽；每个参数≤5种选择）引入一个轻量级交叉验证层。基于覆盖理论的核心（地标覆盖的勒贝格数准则）给出了四个闭式保证。（i）在跨图非干扰条件下，关于$\mathcal{D}n$的结构性下界失真$λ(τ;ν)$，当图集中时，与均匀网格相比，预算减少$(D/L)^2$。（ii）等权重$w_k = K^{-1/2}$最大化$λ$，最远点采样位置$2$-近似最优$k$-中心覆盖半径；两者仅从训练标签推导，无需梯度训练。（iii）核-RKHS分类速率$O((k-1)\sqrt{K}/(γ\sqrt{m$具有选择一致性速率，来自（i）的$\widehatλ$提供独立的数据级信号（在COX2和PTC上为正）。（iv）每个预测的认证，包括非渐近Pinelis形式和渐近高斯形式，无需校准分割。实验上，PALACE是Orbit5k上最强的闭式基于图方法（$91.3 \pm 1.0\%$，与Persformer持平），在COX2和MUTAG上领先所有基于图的竞争者，在DHFR上具有竞争力（与ECP相差1个百分点以内）。在$8\times$域膨胀下，自适应放置保持$94\%$，而均匀网格崩溃至随机水平（4类数据上为$25\%$）。}}))$，二元必要性阈值$m = Ω(\sqrt K/γ)$来自匹配的Le Cam下界，以及闭式过滤选择规则。核-马氏距离边际$\hatρ_{\mathrm{Mah}}$是化学图池中最强的闭式排序器（平均斯皮尔曼$ρ\approx +0.60$）；各向同性替代量$\hatγ/\sqrt{K
大型基础模型中的视听智能	You Qin	2026-05-05	PDF	视听智能（AVI）已成为人工智能的核心前沿领域，通过连接听觉与视觉模态，使机器能够在多模态现实世界中感知、生成和交互。在大规模基础模型时代，音频与视觉的联合建模日益关键——不仅用于理解，更需实现对动态时序信号的可控生成与推理。Meta MovieGen和Google Veo-3等最新进展表明，工业界与学术界正聚焦于从海量多模态数据中学习的统一视听架构。然而，尽管发展迅速，现有文献仍呈现碎片化特征：任务类型多样、分类体系不一致、评估标准各异，阻碍了系统性比较与知识整合。本综述首次通过大规模基础模型的视角对AVI进行全面梳理。我们建立了涵盖AVI任务全景的统一分类体系，包括理解（如语音识别、声音定位）、生成（如音频驱动视频合成、视频转音频）及交互（如对话、具身或智能体接口）。在方法论层面，系统整合了模态分词化、跨模态融合、自回归与扩散生成、大规模预训练、指令对齐及偏好优化等基础技术。此外，我们梳理了代表性数据集、基准测试与评估指标，对各类任务进行结构化对比，并指出同步性、空间推理、可控性及安全性等开放挑战。通过将这一快速发展的领域整合为统一框架，本综述旨在为大规模AVI的未来研究提供基础性参考。
UniCorrn：跨2D和3D的统一对应变换器	Prajnan Goswami	2026-05-05	PDF	图像到图像（2D-2D）、图像到点云（2D-3D）以及点云到点云（3D-3D）的几何匹配构成了众多3D视觉任务的基础。尽管问题结构相似，现有方法仍采用任务特定设计，为每种模态组合使用独立模型。我们提出UniCorrn，首个共享权重的对应模型，统一了所有三种任务的几何匹配。核心洞察在于Transformer注意力机制天然捕捉跨模态特征相似性。我们设计双流解码器，分别维护外观和位置特征流。该设计通过可堆叠层实现端到端学习，同时支持跨异构模态的灵活查询式对应估计。架构采用模态特定主干网络，后接共享编码器和解码器组件，在融合深度图伪点云与真实3D对应标注的多样化数据上联合训练。UniCorrn在2D-2D匹配上达到竞争性能，并在7Scenes（2D-3D）和3DLoMatch（3D-3D）的配准召回率上分别超越先前最优方法8%和10%。项目网站：https://neu-vi.github.io/UniCorrn
大型语言模型是视觉生成的通用推理器。	Sucheng Ren	2026-05-05	PDF	文本到图像生成技术随着扩散模型的发展取得了快速进步，从基于CLIP和T5的条件控制演进到统一系统——由单个大语言模型主干同时处理视觉理解与生成任务。尽管架构实现了统一，这些系统在合成过程中仍频繁出现无法准确对齐复杂提示词的问题，即便它们在验证图像是否符合相同提示词时保持着极高的准确性。我们将此现象形式化为"理解-生成鸿沟"，并提出UniReasoner框架，该框架利用大语言模型作为通用推理器，将其理解能力转化为直接的生成引导。给定提示词后，大语言模型首先生成由离散视觉标记构成的粗略视觉草稿，随后通过评估草稿与提示词的一致性进行自我批判，生成定位修正需求的具象化文本评估。最终，扩散模型在提示词、视觉草稿和评估结果的联合条件下进行生成，确保生成过程受显式修正信号的引导。每个信号都弥补了另一方的局限性：视觉草稿提供了具体的场景级锚点，减少了纯文本条件控制中的欠指定问题；而评估则将验证转化为具象化、可操作的约束条件，修正了遗漏、幻觉和关系错误。实验表明，在相同扩散模型主干下，UniReasoner在保持图像质量的同时提升了组合对齐度和语义忠实度，展示了利用大语言模型推理能力弥合理解-生成鸿沟的实用方法。
在临床大语言模型中，安全性与准确性遵循不同的扩展规律。	Sebastian Wind	2026-05-05	PDF	临床大语言模型（LLM）的扩展通常通过增加模型规模、上下文长度、检索复杂度或推理时计算量来实现，其隐含假设是更高的准确率意味着更安全的行为。这一假设在医学领域并不成立——在医学中，少数自信的、高风险或与证据相矛盾的错误可能比平均基准性能更为关键。我们提出SaFE-Scale框架，用于衡量临床LLM安全性如何随模型规模、证据质量、检索策略、上下文暴露程度及推理时计算量变化。为实例化该框架，我们引入RadSaFE-200基准测试，包含200道放射学安全聚焦的多选题，并配有临床专家定义的清晰证据、矛盾证据以及高风险错误、不安全答案和证据矛盾的选项级标签。我们评估了34个本地部署的LLM在六种部署条件下的表现：闭卷提示（零样本）、清晰证据、矛盾证据、标准RAG、智能体RAG及最大上下文提示。清晰证据带来了最显著的改进，平均准确率从73.5%提升至94.1%，同时高风险错误从12.0%降至2.6%，矛盾从12.7%降至2.3%，危险过度自信从8.0%降至1.6%。标准RAG和智能体RAG未能复现这一安全表现：智能体RAG相比标准RAG提升了准确率并减少了矛盾，但高风险错误和危险过度自信仍居高不下。最大上下文提示增加了延迟却未缩小安全差距，而额外推理时计算量仅带来有限收益。最差情况分析显示，临床后果严重的错误集中在少数题目中。因此，临床LLM安全性并非扩展的被动结果，而是由证据质量、检索设计、上下文构建及集体失败行为共同塑造的部署属性。
OpenSeeker-v2：利用信息丰富且高难度的轨迹推动搜索智能体的极限	Yuwen Du	2026-05-05	PDF	深度搜索能力已成为前沿大语言模型智能体不可或缺的核心技能，但其研发仍被工业巨头主导。行业典型方案需要经过预训练、持续预训练、监督微调和强化学习等资源密集型流程。本报告表明，当配备信息丰富且高难度的轨迹数据时，简单的监督微调方法也能出人意料地有效训练前沿搜索智能体。通过引入三项简单的数据合成改进：扩展知识图谱规模以增强探索深度、扩大工具集规模以提升功能广度、实施严格低步数过滤，我们建立了更强的基线模型。仅使用10.6k数据点训练的OpenSeeker-v2，在4项基准测试中（基于ReAct范式的30B参数智能体）达到最优性能：BrowseComp 46.0%、BrowseComp-ZH 58.1%、人类最后考试34.6%、xbench 78.0%，甚至超越了采用重型CPT+SFT+RL流水线训练的Tongyi DeepResearch（对应得分43.4%、46.7%、32.9%、75.0%）。值得注意的是，OpenSeeker-v2是首个由纯学术团队仅通过监督微调开发的、在其模型规模和范式内达到最优水平的搜索智能体。我们兴奋地开源OpenSeeker-v2模型权重，分享这个简单而有效的发现，让前沿搜索智能体研究更易被社区获取。
基于多视角捕捉的大规模高质量3D高斯头部重建	Evangelos Ntavelis	2026-05-05	PDF	我们提出HeadsUp，一种可扩展的前馈方法，用于从大规模多摄像头设置中重建高质量3D高斯头部。该方法采用高效的编码器-解码器架构，将输入视图压缩为紧凑的潜在表示。该潜在表示随后被解码为一组UV参数化的3D高斯，这些高斯锚定在标准头部模板上。这种UV表示将3D高斯的数量与输入图像的数量和分辨率解耦，从而能够使用大量高分辨率输入视图进行训练。我们在包含超过10,000个主体的内部数据集上训练和评估模型，该数据集规模比现有多视角人类头部数据集大一个数量级。HeadsUp实现了最先进的重建质量，并且无需测试时优化即可泛化到新身份。我们广泛分析了模型在身份、视图和模型容量方面的扩展行为，揭示了质量与计算权衡的实用见解。最后，我们通过展示两个下游应用来突出潜在空间的优势：生成新的3D身份以及使用表情混合变形来动画化3D头部。
随时间保持一致：通过情境反思与隐私保护行为数据实现纵向人机对齐	Simret Araya Gebreegziabher	2026-05-05	PDF	当前针对大型语言模型（LLM）的人类对齐与评估方法，通常依赖交互结束后立即收集的偏好信号。这种实践隐含地将偏好视为静态特征，然而许多由LLM中介的决策会随时间展开，并在经历现实后果与观察结果后可能被重新评估。因此，我们主张方法论应从单次偏好采集转向纵向、情境化的对齐测量。我们提出一种方法论框架，通过结合（1）情境内偏好捕获、（2）情境触发的后续偏好反思，以及（3）有助于解释偏好变化的隐私保护行为轨迹，来收集具有时间维度的对齐信号。作为该方法的具体实现，我们推出BITE系统——一个基于浏览器的工具，可检测具有后果性的LLM交互，在后续决策节点触发反思，并支持渐进式、用户可控的行为数据共享许可。通过为期两周、8名参与者的纵向部署研究，我们的方法揭示了即时偏好与后期偏好在LLM输出的准确性、相关性及其他维度上的差异。研究结果凸显了单次偏好数据集的局限性，并强调了日常使用中纵向方法对于对齐评估的重要性。
Transformer能否预测动力系统中的系统崩溃？	Zheng-Meng Zhai	2026-05-05	PDF	Transformer架构近期作为非线性动力系统的有前景解决方案而兴起，被提出作为能够实现零样本动力学重建与预测的基础模型。尽管取得这一成功，但其能否真正作为动力系统的可靠数字孪生仍不明确——即它们是否能在不同参数区间（尤其是未参与训练数据的参数区间）捕捉底层物理动力学。对于非线性动力系统的参数空间外推，储层计算已展现出广泛成功：通过适当训练可将其转化为内在动力系统，不仅能捕捉目标系统的动力学气候，更重要的是能捕捉气候随参数变化的方式。相比之下，Transformer依赖置换不变注意力机制，这可能限制其捕捉时间结构随参数变化的能力。为判定Transformer是否具备动力学外推能力，我们以预测灾难性崩塌（当分岔参数跨越临界阈值时发生）作为基准任务。模型在正常参数区间的轨迹上训练，随后在包含系统崩塌的未见过参数区间进行测试。结果表明，不同配置的Transformer始终无法捕捉崩塌现象，而储层计算能可靠预测这些转变。这一惊人发现引发了对Transformer在动力系统中泛化能力的质疑，该课题值得未来深入研究。
重新定义智能体时代的人工智能红队测试：从数周缩短至数小时	Raja Sekhar Rao Dheekonda	2026-05-05	PDF	人工智能系统正进入医疗、金融和国防等关键领域，但仍易受对抗性攻击。虽然AI红队测试是主要防御手段，但现有方法迫使操作员采用手动、特定库的工作流程。操作员需花费数周手工构建工作流——整合攻击、变换和评分器。当结果不理想时，必须重建整个工作流。因此，操作员在构建工作流上耗费的时间远超对目标进行安全漏洞探测的时间。我们提出基于开源Dreadnode SDK构建的AI红队测试代理。该代理可创建基于45+对抗攻击、450+变换和130+评分器的工作流。操作员可探测多智能体系统、多语言和多模态目标，专注于"探测什么"而非"如何实现"。我们做出三项贡献：1. 代理接口。操作员通过Dreadnode TUI（终端用户界面）用自然语言描述目标。代理负责攻击选择、变换组合、执行和报告，让操作员专注于红队测试。数周工作压缩至数小时。2. 统一框架。单一框架即可探测传统ML模型（对抗样本）和生成式AI系统（越狱攻击），无需使用独立库。3. Llama Scout案例研究。我们对Meta Llama Scout进行红队测试，在零人工代码开发条件下实现85%攻击成功率，最高严重性达1.0。