跳转至

arXiv 2026-05-11

标题 作者 发布日期 PDF链接 摘要
123D:大规模统一多模态自动驾驶数据 Daniel Dauner 2026-05-08 PDF 自动驾驶技术的研究催生了机器人领域最丰富的传感器数据集之一。然而,这些数据的规模和多样性仍未被充分挖掘。每个数据集采用不同的2D和3D模态(如摄像头、激光雷达、自车状态、标注信息、交通信号灯和高精地图),并具有不同的采集频率和同步方案。这些数据以碎片化格式存在,依赖复杂的依赖关系,无法在同一个开发环境中原生共存。此外,标注规范的重大差异阻碍了跨数据集的训练或泛化能力评估。我们提出123D——一个通过统一API整合多模态驾驶数据的开源框架。为解决同步问题,我们将每种模态存储为独立的时间戳事件流(不预设固定频率),从而实现对任意数据集的同步或异步访问。借助123D,我们整合了8个真实世界驾驶数据集(涵盖3300小时、9万公里里程)以及一个包含可配置采集脚本的合成数据集,并提供数据分析和可视化工具。我们开展了系统性研究,对比了标注统计信息并评估了每个数据集的位姿与标定精度。此外,我们展示了123D支持的两项应用:跨数据集3D目标检测迁移和规划任务的强化学习,并为未来方向提出建议。代码和文档详见https://github.com/kesai-labs/py123d。
LLMs改进LLMs:面向测试时扩展的智能体发现 Tong Zheng 2026-05-08 PDF 测试时扩展(TTS)已成为通过推理阶段增加计算量来提升大语言模型性能的有效方法。然而现有TTS策略大多依赖人工设计:研究者凭直觉手动设计推理模式并调整启发式规则,导致大量计算分配空间未被探索。我们提出环境驱动框架AutoTTS,将研究者的设计对象从单个TTS启发式规则转变为可自动发现TTS策略的环境。AutoTTS的核心在于环境构建:发现环境必须使控制空间易于处理,并为TTS搜索提供廉价且频繁的反馈。作为具体实现,我们将宽度-深度TTS建模为基于预收集推理轨迹和探测信号的控制器合成问题,其中控制器决定何时分支、继续、探测、剪枝或停止,且无需重复调用LLM即可低成本评估。我们进一步引入Beta参数化使搜索易于处理,并通过细粒度执行轨迹反馈帮助智能体诊断TTS程序失败原因,从而提升发现效率。在数学推理基准上的实验表明,发现的策略在准确率-成本权衡上优于强人工设计基线。发现的策略可泛化至未见基准和模型规模,而整个发现过程仅需39.9美元和160分钟。我们的数据和代码将开源在https://github.com/zhengkid/AutoTTS。
归一化轨迹模型 Jiatao Gu 2026-05-08 PDF 基于扩散的模型将采样过程分解为多个小的高斯去噪步骤——当生成过程被压缩为少量粗粒度转换时,这一假设便不再成立。现有的少步方法通过蒸馏、一致性训练或对抗目标来解决此问题,但在此过程中牺牲了似然框架。我们提出归一化轨迹模型(NTM),将每个反向步骤建模为具有精确似然训练的表达性条件归一化流。在架构上,NTM将每个步骤内的浅层可逆模块与跨轨迹的深层并行预测器相结合,形成可从零训练或从预训练流匹配模型初始化的端到端网络。其精确的轨迹似然进一步实现了自蒸馏:基于模型自身评分训练的轻量级去噪器可在四步内生成高质量样本。在文本到图像基准测试中,NTM仅需四个采样步骤即可匹配或超越强图像生成基线,同时独特地保留了生成轨迹上的精确似然。
保形路径推理:通过路径级校准实现可信的知识图谱问答 Shuhang Lin 2026-05-08 PDF 知识图谱问答(KGQA)在基于事实的可解释推理方面展现出潜力,但现有方法常无法为检索到的答案提供可靠的覆盖保证。尽管共形预测(CP)为生成具有统计保证的预测集提供了理论框架,但先前方法在校准有效性和分数可区分性方面存在关键缺陷,导致覆盖保证被违反且预测集规模过大。为解决这些问题,我们提出共形路径推理(CPR)这一可信KGQA框架,包含两项核心创新:首先,在路径级分数上执行查询级共形校准,在生成路径预测集的同时保持可交换性;其次,引入残差共形价值网络(RCVNet),该轻量模块通过PUCT引导的探索进行训练,以学习具有判别性的路径级非共形分数。基准实验表明,与共形基线方法相比,CPR将经验覆盖率提升34%,同时将平均预测集规模缩减40%。这些结果验证了CPR在满足覆盖保证的同时生成更紧凑答案集的有效性。
通过想象到聆听的脑磁图映射实现零样本想象语音解码 Maryam Maghsoudi 2026-05-08 PDF 从非侵入性脑记录中解码想象语音极具挑战性,因为想象数据集稀缺且难以在跨受试者和实验时段间实现时间对齐。本研究提出一种利用更丰富且标签更可靠的听觉语音记录来解码想象语音的新方法。我们采集了受过训练的音乐家对节奏性旋律和口语刺激的配对听觉与想象脑磁图记录,借助音乐家训练背景改善了跨条件的时间对齐。随后开发的三阶段解码流程揭示了想象与听觉相同刺激时神经活动之间一致且有意义的关联。第一阶段,我们训练了六个线性与神经网络模型,将想象脑磁响应映射为听觉响应。通过未参与训练的受试者数据建立零基线进行模型评估,验证预测的听觉响应保留了刺激特异性信息。第二阶段,我们仅基于听觉脑磁响应训练对比词解码器,并采用包含语义、声学和语音表征的四种嵌入策略进行评估。第三阶段,将未参与训练受试者的想象脑磁响应通过映射流程处理,计算对应的听觉响应后由听觉解码器进行解码。基于秩次分析表明,想象词汇的解码准确率显著高于随机水平。本文报告概念验证性想象语音解码实施结果,所有评估均在未参与训练的受试者数据上完成。同时证明性能随训练数据量提升而改善,表明该方法具有可扩展性,可直接应用于实际脑机接口场景。
GRAPHLCP:图上的结构感知局部化保形预测 Peyman Baghershahi 2026-05-08 PDF 共形预测(CP)提供了一种无需分布假设的不确定性量化方法,并具有有限样本保证。然而,将CP应用于图神经网络(GNN)仍面临挑战,因为图的组合特性常导致预测置信度不足和嵌入缺乏区分性。现有方法主要依赖嵌入空间邻近性进行定位,这在图数据中可能不可靠,且会产生低效的预测集。我们提出GRAPHLCP框架,这是一种基于邻近性的局部化CP方法,通过显式整合图拓扑结构和节点间依赖关系实现定位与加权。该方法引入特征感知的稠密化步骤以缓解稀疏图中的局部性偏差,随后基于个性化PageRank计算核函数来建模结构邻近性。这使得拓扑依赖的锚点采样和校准加权能够同时捕捉局部与长程依赖关系。在多个回归与分类数据集上的大量实验表明,GRAPHLCP在有限样本下保证边际覆盖的同时,能在多种条件场景下高效实现优越的测试条件覆盖。
EmambaIR:面向事件引导图像重建的高效视觉状态空间模型 Wei Yu 2026-05-08 PDF 近期基于事件的图像重建方法主要依赖卷积神经网络(CNN)和视觉变换器(ViT)处理互补的事件信息。然而,这些架构存在根本性局限:CNN难以捕捉全局特征相关性,而ViT会产生二次计算复杂度(如$O(n^2)$),阻碍了其在高分辨率场景中的应用。为解决这些瓶颈,我们提出EmambaIR——一种专为利用空间稀疏且时间连续的事件流进行图像重建的高效视觉状态空间模型。本框架包含两个关键组件:跨模态Top-k稀疏注意力模块(TSAM)和门控状态空间模块(GSSM)。TSAM通过像素级top-k稀疏注意力高效引导跨模态交互,生成丰富且稀疏的融合特征。随后,GSSM利用非线性门控单元增强线性复杂度($O(n)$)SSM的时间表征能力,在避免典型计算开销的同时有效捕捉全局上下文依赖。在六个数据集上针对三项不同图像重建任务(运动去模糊、去雨、高动态范围增强)的广泛实验表明,EmambaIR在显著降低内存消耗和计算成本的同时,性能全面超越现有最优方法。源代码与数据已开源:https://github.com/YunhangWickert/EmambaIR
关于非负$L_1$逼近多项式的一个注记 Jane H. Lee 2026-05-08 PDF $L_1$-逼近多项式(即在特定分布下以$L_1$范数逼近指示函数的多项式)在计算学习理论中广泛应用。本文研究高斯分布下\textit{非负}$L_1$逼近多项式的存在性。这一要求比$L_1$逼近更强,但弱于夹逼多项式(后者本身具有诸多应用)。这类非负逼近多项式近期在仅含正例的平滑学习中得到应用。本短文中,我们证明:在标准高斯分布下,任何高斯表面积(GSA)不超过$Γ$的集合类,均存在次数$k=\tilde{O}(Γ^2/\varepsilon^2)$的非负多项式,使其在$L_1$范数下$\eps$-逼近该类的指示函数。等价地,有限GSA意味着$L_1$逼近具有更强的逐点保证——逼近多项式的值域包含于$[0,\infty)$。在常数因子范围内,该结果与当前已知无非负约束的最佳高斯$L_1$逼近次数界相匹配。
VecCISC:通过推理轨迹聚类与候选答案选择改进置信度感知的自一致性 James Petullo 2026-05-08 PDF 扩展推理时缩放的标准技术是自一致性(Self-Consistency),即从大语言模型中采样多个候选答案并选择最常见的答案。近期研究表明,加权多数投票(例如置信度感知自一致性CISC)通过为每个候选答案分配置信度分数并选择累积得分最高的答案,在多种主流基准测试中往往表现更优。实际应用中,加权多数投票需要对每个候选答案的推理轨迹调用评论大语言模型以生成置信度分数。尽管具有潜在性能优势,但这种二次调用大语言模型会显著增加加权多数投票的开销和成本。为降低这一成本,我们提出VecCISC——一种轻量级自适应框架,通过语义相似度度量过滤与其他轨迹语义等价、退化或产生幻觉的推理轨迹,从而减少需要评论模型评估的候选答案数量。为确保实验充分性,我们在涵盖数学、化学、生物学、常识推理和人文学科领域的五个具有挑战性的广泛采用数据集上评估VecCISC。结果表明,VecCISC在保持或超越CISC准确率的同时,将总令牌使用量减少47%。
经验贝叶斯再偏置 Wanyi Ling 2026-05-08 PDF 我们研究了对大量有噪声且有偏估计进行同步分析的方法,每个有偏估计都配有一个噪声更大的自身偏差估计。分析者的目标是为每个参数构建短校准区间。标准的去偏方法是从每个有偏估计中减去偏差估计,这会增大方差并产生长区间。在本文中,我们提出了一种经验贝叶斯再偏策略,该策略从完全去偏的估计出发,通过估计未知的偏差分布,从数据中学习应重新引入多少偏差。我们提供了当使用非参数最大似然估计偏差分布时,区间覆盖率的收敛速度。此外,我们在预测驱动推断中展示了显著的精度提升,包括成对LLM胜率评估,以及基于家庭的GWAS中直接遗传效应的推断。