跳转至

arXiv 2026-06-08

标题 作者 发布日期 PDF链接 摘要
离散概率中的反直觉问题 Luca Avena 2026-06-05 PDF 本手稿收录了一系列离散概率中的反直觉问题及其详细解答。该数据集是更广泛研究项目的一部分,旨在探究最新一代大语言模型在解决离散概率问题方面的能力,以评估LLMs是否倾向于犯与已知认知偏差相关的系统性推理错误。此处收集的问题专门设计用于挑战启发式推理策略——这类策略常导致直觉上吸引人但数学上错误的结论。数据集融合了多种类型的问题:部分改编自经典概率悖论和认知偏差文献,另一些源于趣味数学资料,或由我们根据类似原则自行开发。本文档的主要目的是为我们在语言模型实验评估中使用的问题提供透明且公开的参考,同时附上人工制作的详细解答。此外,我们相信该数据集对未来的概率推理、认知偏差研究以及人工智能系统推理能力评估同样具有实用价值。
在掷骰子方面,大语言模型的可靠性如何? Luca Avena 2026-06-05 PDF 我们通过一项针对离散概率问题的受控基准研究,探究了大型语言模型的概率推理能力。我们构建了两个数据集,分别包含一组标准习题和一组旨在触发启发式推理的反直觉习题,并评估了8个最先进的模型,每个模型均在有无思维链提示的条件下进行了测试。模型在标准问题上的平均准确率达到0.96,但在反直觉问题上仅为0.59。我们进一步提供了关于词元偏差的经验证据:当规范表述被替换为伪装变体时,性能下降超过20%。在提示中嵌入误导性建议会使性能降低高达34%,且没有模型能完全免疫。综合来看,这些发现表明,尽管当前的大型语言模型在高级数学问题上表现出色,但它们尚未成为真正的概率推理者。
UniSHARP:通用锐化单目视图合成 Meixi Song 2026-06-05 PDF 在本工作中,我们聚焦于扩展SHARP这一流行的逼真视图合成方法,使其适用于从传统透视相机到广角、鱼眼及全景等连续相机系统的通用单目渲染。为克服SHARP基于针孔模型的假设,我们的核心思路是将各类图像对齐至统一的球面潜空间。为此提出UniSHARP方法,在特征空间与高斯空间中实现隐式对齐。具体而言,高斯基元沿射线与径向距离排列于基于射线的通用表征中,同时通过UniK3D启发式编码器提取的2D语义与3D空间特征被联合解码以生成完整高斯云。为全面评估方法,我们构建了覆盖多场景多成像系统的基准测试集,并按视场角分层以实现通用单目渲染任务的细粒度评估。在基准测试上的大量实验表明,UniSHARP以显著优势超越其他方法。项目主页:https://insta360-research-team.github.io/Unisharp-website/
Agentopia:智能体社会中的长期生命模拟与学习 Xintao Wang 2026-06-05 PDF 人类从社会生活中学习。用大语言模型驱动的智能体模拟这一过程是一个有前景的研究方向,这自然引发了一个问题:大语言模型能否通过这种模拟的社会经验来更好地理解和复现人类行为?然而,以往的智能体社会模拟通常以天为单位运行,限制了社会互动的深度和长期成长。本文研究智能体社会中的长期生活模拟与大语言模型学习,目标有二:(1)探究终身模拟中涌现的社会行为;(2)通过数年的模拟社会经验,发展大语言模型拟人化能力,特别是社会生活智能。具体而言,我们提出Agentopia这一多智能体社会长期生活模拟的综合框架,其中100个智能体在10年模拟时间内自主追求个人成长、发展社会关系并满足自身需求与目标。我们定义生活奖励以映射人类福祉,并利用该奖励通过拒绝采样训练大语言模型。大量实验表明,智能体展现出丰富的涌现社会行为。此外,生活奖励训练有效增强了底层大语言模型,不仅提升了模拟中的智能体福祉,还泛化到下游角色扮演基准测试中,带来+15.6%的性能提升。
MemDreamer:通过分层图记忆与智能检索机制解耦感知与推理以实现长视频理解 Cong Chen 2026-06-05 PDF 当前的视觉-语言模型在处理数小时长视频时面临挑战,因为处理完整视觉序列会导致令牌爆炸和注意力稀释。为解决这一问题,我们提出MemDreamer,将感知与推理解耦,将长视频理解转化为智能体探索过程。作为即插即用框架,它逐步流式处理视频以构建分层图记忆——一种用于语义抽象的自顶向下三层架构,其基础图捕捉时空与因果关联。推理阶段,推理模型采用智能体工具增强检索,通过观察-推理-行动循环在层级间导航、搜索节点并遍历逻辑边。实验表明,MemDreamer在四个主流基准测试中达到最优结果,与人类专家的差距缩小至仅3.7个百分点。它将推理上下文窗口限制为完整上下文摄入的2%,同时实现12.5个百分点的绝对准确率提升。此外,统计分析揭示了视觉-语言模型在逻辑推理与长视频理解基准测试性能间存在强正线性相关,将智能体能力扩展确立为多模态理解的新范式。
基于流力控制的流式视频生成 Hanhui Wang 2026-06-05 PDF 我们提出StreamForce,一种通过连续力输入实现物理可控的流式视频生成框架。与以往需要为不同力类型训练独立模型、假设固定力或依赖非因果处理的视频模型不同,StreamForce是一个因果统一模型,能即时且连贯地响应局部与全局的时变力。为此,我们设计了统一的力表征作为控制信号,并开发了用于力可控视频生成的蒸馏流程。该模型结合了自回归效率与力响应能力,维持稳定的光度与动态真实性。StreamForce在单GPU上运行速度可达16.6 FPS,在力遵循度与运动真实性方面均达到最优性能。项目网站:https://neu-vi.github.io/StreamForce/
检测中的差异:在关键之处进行可解释性分析 Johannes Theodoridis 2026-06-05 PDF 我们提出“检测差异”(DnD)方法,这是一种直观比较两个目标检测模型的方案。基于相同的匹配算法,该方法在平均精度均值($mAP$)和TIDE误差分析等标准指标基础上,补充了直接比较两个模型的能力。具体而言,我们计算两个模型共同识别的真实标签交集,随后获取对应的差异集,以及两个模型均未识别的真实标签补集。这种比较方式比独立汇总统计量的对比更直接、更直观,能够揭示个体错误与共享错误,尤其在与错误类型结合时更具价值。此时,检测误差的差异可自然地通过标准混淆矩阵进行分析。尽管该方法本身具有重要价值,但我们认为DnD的最佳应用之一,是引导ODAM等可解释性方法聚焦于与指标相关的样本,这些样本基于结构化子集。本方法的代码可在此获取:https://github.com/JohannesTheo/differences-in-detection
你的解嵌入矩阵实际上是文本嵌入的特征透镜。 Songhao Wu 2026-06-05 PDF 大型语言模型在各类下游任务中展现出令人印象深刻的零样本能力。然而,它们难以直接作为现成的嵌入模型使用,导致在大规模文本嵌入基准测试中表现欠佳。本文识别了导致这一缺陷的潜在原因。我们的动机源于一个意外发现:当文本嵌入投影到词汇空间时,往往会与高频但无信息量的标记对齐。我们认为,这种对高频标记的过度表达抑制了模型捕捉细微语义的能力。为解决这一问题,我们提出了EmbedFilter——一种简单的线性变换方法,可直接优化从大语言模型中提取的文本嵌入。具体而言,我们发现大语言模型中的解嵌入矩阵编码了一个潜在空间,该空间会主动将这些高频标记写入嵌入空间。通过过滤该子空间,EmbedFilter抑制了高频标记的影响,从而增强语义表征。作为一项引人注目的副产品,该方法实现了固有的维度压缩,在完全保留优化后嵌入质量的同时,降低了索引存储并加速了检索。我们在多个大语言模型骨干上的实验表明,即使嵌入维度显著降低,配备EmbedFilter的大语言模型仍能实现更优的零样本下游性能。我们希望这些发现能为基于大语言模型的表征机制提供更深入见解,并启发更规范的设计来改进文本嵌入训练。我们的代码已开源在https://github.com/CentreChen/EmbFilter。
面向任务无关持续学习的稀疏子空间到专家共享 Fatema Siddika 2026-06-05 PDF 大型语言模型(LLM)的持续学习受到可塑性-稳定性困境的制约:获取新能力往往导致对先前知识的灾难性遗忘。现有方法通常对所有参数一视同仁,未能区分特定任务知识与共享能力。我们提出面向任务无关持续学习的混合稀疏专家框架(SETA),该框架通过将参数自适应稀疏子空间分解为任务专属专家模块,解决了可塑性-稳定性的冲突。与标准更新中任务竞争同一参数不同,SETA将知识分离为独特专家(用于隔离任务特定模式)和共享专家(负责捕获通用特征)。该结构通过自适应弹性锚定和路由感知正则化来维持,两者在权重和路由层面共同保护共享知识,并使统一门控网络在推理时自动检索正确的专家组合。在多样化领域特定基准上的大量实验表明,SETA在LLaMA-2 7B和Qwen3-4B上相较于最先进的持续学习基线取得了具有竞争力或更优的整体性能,尤其在早期任务知识保持和反向迁移方面表现突出。
对比无监督数据增强的隐式数据合成 Patrick Kage 2026-06-05 PDF 科学观测产生大量未标注数据,人工标注耗时费力,这使得无监督学习技术对处理数据集具有重要价值。在这些方法中,对比学习为从未标注数据集中提取结构表征提供了便捷机制。对于自然图像而言,通用方法是采用多种数据空间增强方法生成合成样本;然而在科学观测中,数据空间扰动可能从根本上改变底层数据结构。我们提出的方法是通过扰动网络权重而非底层数据来生成对比样本,从而更完整地保留数据结构。我们采用基于SimCLR的流程对流星雷达观测数据进行验证,结果表明在匹配协议下该方法具有性能优势。