跳转至

arXiv 2026-05-05

标题 作者 发布日期 PDF链接 摘要
AlbumFill:基于专辑引导推理与检索的个性化图像补全 Yu-Ju Tsai 2026-05-04 PDF 个性化图像补全旨在修复个人照片中被遮挡的区域,同时保留身份特征和外观。现有方法要么依赖通用修复模型(往往无法保持身份一致性),要么假设已明确提供合适的参考图像。实际应用中,合适的参考图像通常不会明确给出,需要系统在个人照片集中搜索身份一致的图像。我们提出AlbumFill——一种无需训练的框架,能从个人相册中检索身份一致的参考图像用于个性化补全。给定一张被遮挡图像和个人相册,视觉语言模型推断缺失的语义线索以引导组合图像检索,检索到的参考图像随后被基于参考的补全模型使用。为促进该任务,我们引入包含5.4万个人体中心样本及其关联相册图像的数据集。跨多个基线的实验表明个性化补全的难度,并凸显了身份一致参考检索的重要性。项目页面:https://liagm.github.io/AlbumFill/
SpecKV:基于压缩感知伽马选择的自适应推测解码 Shikhar Shukla 2026-05-04 PDF 推测解码通过使用小型草稿模型提出候选令牌,再由大型目标模型验证,从而加速大语言模型推理。该过程中的关键超参数是推测长度γ,它决定草稿模型每步提出的令牌数量。现有系统几乎都采用固定γ(通常为4),但经验证据表明,最优值会随任务类型变化,且关键取决于目标模型应用的压缩程度。本文提出SpecKV——一种轻量级自适应控制器,利用草稿模型自身提取的信号,在每步推测中动态选择γ。我们针对4类任务、4种推测长度和3种压缩级别(FP16、INT8、NF4)对推测解码进行性能分析,收集了5112条步级记录,包含每步接受率、草稿熵和草稿置信度。实验表明,最优γ会随压缩模式变化,且草稿模型置信度和熵是接受率的强预测因子(相关性约0.56)。SpecKV使用基于这些信号训练的小型MLP,最大化每步推测的预期令牌数,在固定γ=4的基准上实现56.0%的提升,每次决策仅增加0.34毫秒开销(占步长时间<0.5%)。该改进具有统计显著性(配对自助法检验p<0.001)。我们已将所有性能分析数据、训练模型和代码笔记作为开源成果发布。
无监督机器学习用于检测欧洲区域统计中的结构性异常 Bogdan Oancea 2026-05-04 PDF 确保区域社会经济统计数据的连贯性是国家统计机构的核心任务。传统验证工具(如范围编辑、比率检验或单变量异常值检测)虽能有效识别单个序列中的极端值,但在高维场景下难以发现指标间的异常组合。本文提出一种无监督机器学习框架,利用公开的欧盟统计局数据识别欧洲范围内结构异常的区域特征。我们构建了涵盖2022年NUTS2区域的横截面数据集,包含四项关键指标:按购买力标准计算的人均GDP、失业率、高等教育完成率及人口密度。通过应用并比较五种异常检测技术(单变量Z分数、马氏距离、孤立森林、局部异常因子及单类支持向量机),将至少被其中三种方法标记的区域归类为结构异常。研究结果表明,机器学习方法识别出一组多变量特征显著偏离欧盟整体模式的区域,既包括高度发达的大都市经济体(布鲁塞尔、维也纳、柏林、布拉格),也涵盖长期面临社会经济劣势的地区(斯洛伐克中西部、匈牙利北部、卡斯蒂利亚-拉曼恰、埃斯特雷马杜拉),以及特征与欧盟首都区域显著不同的伊斯坦布尔。值得注意的是,这些异常未必反映数据质量问题,而是代表需要分析或政策关注的结构性差异。该框架完全可复现、可扩展,且兼容现有验证流程,为欧洲统计系统内早期识别异常区域配置提供了灵活工具。
MolmoAct2:面向实际部署的动作推理模型 Haoquan Fang 2026-05-04 PDF 视觉-语言-动作(VLA)模型旨在为机器人提供单一通用控制器,但当前系统在现实部署的关键指标上仍存在不足。前沿模型处于封闭状态,开源权重方案受限于昂贵硬件,增强推理的策略因基础能力不足而面临高昂延迟,微调后的成功率仍低于可靠使用的阈值。我们提出MolmoAct2,一个完全开放的动作推理模型,专为实际部署而构建,在五个维度上对其前代模型进行了改进。我们引入MolmoER,一个专为空间和具身推理优化的VLM主干网络,基于330万样本语料库,采用"专精化-再排练"的训练方案。我们发布三个覆盖低至中成本平台的新数据集,包括MolmoAct2-BimanualYAM——720小时遥操作双臂轨迹数据,构成迄今最大的开放双臂数据集,以及经过质量筛选的Franka(DROID)和SO100/101子集。我们提供OpenFAST,一个开放权重、开放数据的动作分词器,基于五种具身形态的数百万条轨迹训练。我们重新设计架构,通过逐层KV缓存条件化,将流匹配连续动作专家模块嫁接至离散分词VLM。最后,我们提出MolmoThink,一种自适应深度推理变体,仅对时间步间变化的场景区域重新预测深度标记,以先前延迟的一小部分代价保留几何基础能力。在迄今最全面的开放VLA实证研究中(涵盖7个仿真和真实世界基准),MolmoAct2优于包括Pi-05在内的强基线模型,而MolmoER在13个具身推理基准上超越GPT-5和Gemini Robotics ER-1.5。我们发布模型权重、训练代码和完整训练数据。项目页面:https://allenai.org/blog/molmoact2
复合材料力学中的多保真代理模型:从协同克里金到多保真神经网络 Haizhou Wen 2026-05-04 PDF 复合材料具有强烈的层次性和各向异性特性,其行为受跨组分、铺层、层合板、结构和制造历程的耦合机制支配。这种内在复杂性使得复合材料预测建模成本高昂,因为需要大量重复实验和高保真度模拟来覆盖材料、结构和制造的大设计空间。多保真度代理建模通过将丰富的低成本数据与有限的高精度数据相结合,恢复可靠的高保真度预测,从而应对这一挑战。本综述系统梳理了复合材料力学中的多保真度建模方法,涵盖基于高斯过程或克里金法的方法,包括协同克里金法、协同区域化模型、自回归公式、非线性自回归高斯过程、多保真度深度高斯过程以及多保真度神经网络。从跨保真度相关性、差异表征、不确定性量化和可扩展性角度分析了这些方法的差异。根据多保真度代理在工程问题中的作用,介绍了其在复合材料中的典型应用案例,包括用于快速探索材料设计空间的正向预测、在有限高保真度数据条件下进行复合材料参数识别与设计搜索的逆向优化,以及工作流集成——其中异构数据源、约束条件和验证需求共同决定模型效用。开放问题讨论聚焦于复合材料特有的持续性挑战,例如与非线性损伤和制造历程相关的保真度区间差异、仿真与实验之间的失配,以及多保真度模型间的不确定性传播。
EvoPoC:基于层次化知识图谱的DeFi智能合约自动化漏洞利用合成 Ruichao Liang 2026-05-04 PDF 去中心化金融中的智能合约漏洞每年造成超过数十亿美元的损失,然而安全社区面临一个关键瓶颈:识别漏洞并不等同于证明其可被利用。手动构建概念验证(PoC)的劳动强度过高,导致大多数已披露的漏洞未经验证,协议在应用缓解措施之前长期暴露于风险中。本文提出\sys,一种知识驱动的智能系统,用于端到端的合约漏洞检测与利用合成。我们的核心见解是:利用合成并非代码生成任务,而是一个需要基于协议语义、故障根本原因和利用原语的结构化推理问题。\sys将这些知识组织为分层知识图谱(HKG),作为LLM引导的多跳推理的结构化记忆。为验证超出代码合成的利用可行性,\sys采用两阶段验证框架,通过SMT求解检查利用路径可达性,并通过资产级状态模拟检查利润可实现性,确保生成的PoC同时满足逻辑和经济可行性约束。在88个真实DeFi攻击和72个审计项目(2573个合约)上的评估中,\sys在检测方面实现了98%的召回率和0.9的F1分数,利用成功率(ESR)达96.6%,复现了85个历史利用并恢复了超过1.162亿美元收益。\sys在ESR上比最先进的模糊测试工具(\textsc{Verite}、\textsc{ItyFuzz})高出5倍,在可恢复价值上高出300倍,比基于LLM的利用生成器\textsc{A1}分别高出2倍和8.5倍。在漏洞赏金评估中,\sys识别了16个已确认的零日漏洞,帮助保护了超过7060万美元资产,并获得了2900美元赏金。
通过SHAP分析算法与超参数提升机器人强化学习的泛化能力 Lingxiao Kong 2026-05-04 PDF 尽管强化学习(RL)取得了显著进展,模型性能仍对算法和超参数配置高度敏感,而跨环境的泛化差距进一步阻碍了实际部署。虽然已有研究探讨RL的泛化问题,但特定配置对泛化差距的相对贡献尚未被定量分解并系统性地用于配置选择。为解决这一局限,我们提出一个可解释框架,利用SHapley加法解释(SHAP)评估机器人环境中RL性能,量化配置影响。我们建立了将Shapley值与泛化能力关联的理论基础,实证分析配置影响模式,并引入SHAP引导的配置选择以增强泛化性。研究结果揭示了算法与超参数的不同模式,且配置影响在多样化任务与环境中保持一致。通过将这些见解应用于配置选择,我们实现了RL泛化能力的提升,并为实践者提供了可操作的指导。
面向农村专题道路提取的拉普拉斯频率交互网络 Baiyan Chen 2026-05-04 PDF 农村主题路网构建旨在从农机运动轨迹图像中提取拓扑道路结构。然而,该任务面临现有研究中常用的降采样方法易模糊稀疏高频道路结构,且密集田间作业产生的强噪声常导致提取网络出现拓扑碎片化或冗余的挑战。针对这些问题,我们提出拉普拉斯频率交互网络(LFINet)。该网络首先通过拉普拉斯多尺度分离器(LMS)将图像解耦为低频语义上下文与高频结构细节,随后由跨频率交互模块(CFIB)通过双路径架构处理这些成分——其中高频模块(HFB)精炼局部结构,空间变换器(ST)捕获全局语义。接着,频率门控调制机制(FGM)利用语义上下文校准结构细节,融合双路径特征。最后,渐进式重建解码器迭代融合多尺度特征以确保拓扑一致性。在中国河南省真实农业轨迹数据集上的实验表明,LFINet达到了新最优水平:F1分数92.54%,IoU 86.12%,分别超过第二名方法0.64%和1.1%,证实了其从含噪稀疏田间数据中有效构建拓扑路网的能力。
像素完美:基于空间感知失真的关系型图像质量评估 Fadeel Sher Khan 2026-05-04 PDF 传统图像质量评估(IQA)方法依赖平均意见分数(MOS),这类数据收集成本高且无法针对特定图像失真提供可解释的局部反馈。我们通过将绝对质量预测转向关系型与方向性评估来突破这些局限。该方法采用自监督合成失真引擎生成训练数据,无需人工标注。失真预测网络通过反对称目标函数进行训练,生成具有空间感知能力的解耦映射图,可识别相对于参考图像的失真类型、强度及方向。随后,通过对比学习在有序排序图像集上训练评分网络,预测关系型质量分数。本方法为图像处理算法的定向优化提供了更细粒度、可解释的IQA方案,全程无需人工标注质量分数。
基于语义风险感知的动态环境下机器人导航启发式规划:一种受大语言模型启发的方法 Hamza Ahmed Durrani 2026-05-04 PDF 将大语言模型推理原理融入经典机器人路径规划,是当前快速发展的研究方向。本文提出语义风险感知启发式规划器,将受大语言模型启发的代价函数(惩罚几何拥挤或高风险区域)编码到A*搜索框架中,并在检测到动态障碍物时增加闭环重规划机制。我们在15×15网格世界(静态障碍物密度20%,含随机动态障碍物)中开展200次随机试验,将SRAH与两种基线方法(带重规划的广度优先搜索和无重规划的贪婪启发式)进行对比。SRAH任务成功率达62.0%,较BFS(56.5%)相对提升9.7%,较贪婪法(4.0%)提升显著。我们进一步分析了规划开销、路径效率与故障恢复次数之间的权衡关系,并通过障碍物密度消融实验证明,语义代价整形能在不同难度环境中持续改善导航性能。结果表明,即使轻量级的大语言模型启发式方法也能为自主机器人导航带来可量化的安全性与鲁棒性提升。