2025-11-30 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
重探跨难度水平的泛化问题：并非易事	Yeganeh Kordi	PDF	我们研究大型语言模型（LLM）在不同任务难度间的泛化能力，这是影响数据筛选与评估有效性的关键问题。现有研究对“使用简单或困难数据训练能否获得更好结果”以及“效果提升体现在简单还是困难测试数据上”存在分歧。为解决这一问题，我们通过系统化评估方法，从模型架构、数据集和样本难度细分组别三个维度探究LLM的泛化表现。基于数千种不同LLM的输出结果并结合教育测试领域的成熟难度度量标准——项目反应理论（IRT），我们对六个数据集中的样本进行了难度分级。与既往研究不同，我们的难度评级完全基于多种LLM的自身能力，排除了人类主观难度判断。通过更客观、大规模、细粒度的分析，我们发现：跨难度泛化能力往往存在局限；仅使用简单或困难数据进行训练，均无法在全部难度范围内实现持续提升。这些结果表明，在LLM的训练和评估数据中保持难度多样性至关重要，任何在难度维度上走捷径的做法都具有风险。
画布到图像：基于多模态控制的组合式图像生成	Yusuf Dalva	PDF	尽管现代扩散模型在生成高质量多样化图像方面表现出色，但在实现高保真度的组合控制与多模态控制时仍面临挑战——特别是当用户需要同时指定文本提示、主体参照、空间排布、姿态约束和布局标注时。我们提出“画布到图像”统一框架，将这些异构控制要素整合至单一画布界面，使用户能够生成精准反映创作意图的图像。核心创新在于将多样化控制信号编码为复合画布图像，使模型能够直接进行视觉空间推理。我们进一步构建了多任务数据集，并提出多任务画布训练策略，通过统一学习范式优化扩散模型对异构控制信号的理解与整合能力。这种联合训练使模型能够跨越多重控制模态进行推理，而非依赖任务特定启发式方法，并在推理阶段展现出对多控制场景的优异泛化能力。大量实验表明，在多人组合、姿态控制合成、布局约束生成及多控制生成等挑战性基准测试中，“画布到图像”框架在身份保持与控制遵循方面显著优于现有前沿方法。
TraceGen：三维轨迹空间中的世界建模实现跨形态视频学习

（解析：1. "TraceGen"作为专有名词保留不译；2. "World Modeling"译为"世界建模"符合计算机视觉领域术语规范；3. "3D Trace Space"精准译为"三维轨迹空间"既保持数学空间概念又体现运动轨迹特性；4. "Cross-Embodiment"译为"跨形态"准确表达不同物理实体形态的含义，较"跨体现"/"跨具身"等译法更符合中文学术表达习惯；5. 整体采用"主标题：副标题"的学术论文标题标准格式，通过"启用"一词动态呈现技术能力，比直译"使得"更具学术表现力） | Seungjae Lee | PDF | 仅通过少量演示就能在新平台和新场景中学习新机器人任务仍具挑战性。尽管人类和其他机器人的示范视频资源丰富，但形态差异、摄像头配置及环境差异阻碍了这些视频的直接应用。我们通过引入统一的符号化表征——场景级轨迹的紧凑三维“轨迹空间”，解决了小数据量问题，该表征支持跨形态、跨环境和跨任务视频的学习。我们提出TraceGen世界模型，该模型在轨迹空间而非像素空间预测未来运动，在保留操作所需几何结构的同时抽象掉外观特征。为实现TraceGen的大规模训练，我们开发了TraceForge数据流水线，将异构的人类与机器人视频转化为统一的三维轨迹，构建包含12.3万条视频和180万个观察-轨迹-语言三元组的数据集。基于该数据集的预训练产生了可迁移的三维运动先验模型，仅需五段目标机器人视频即可实现高效适应：在四项任务中达到80%的成功率，同时推理速度比基于视频的先进世界模型快50-600倍。在仅能获取五段手机拍摄的未标定人类演示视频的更具挑战性场景中，该模型在真实机器人上仍能达到67.5%的成功率，彰显了TraceGen在不依赖物体检测器或繁重像素空间生成的情况下实现跨形态适应的能力。 | | 工具交响曲：通过高效模型与工具编排提升智能水平 | Hongjin Su | PDF | 大型语言模型是强大的通用型系统，但在解决诸如"人类终极考试"这类深度复杂问题时，仍面临概念层面的挑战与高昂的计算成本。我们研究表明，通过小型调度器协调管理其他模型与多样化工具，既能突破智能水平的上限，又能提升复杂智能体任务的解决效率。本文提出ToolOrchestra——一种训练小型调度器协调智能工具的方法。该方法创新性地采用强化学习框架，融合结果导向、效率优先及用户偏好的多维度奖励机制。基于此训练的Orchestrator模型（参数量80亿）在保证更高准确率的同时，实现了低于既往工具调用智能体的计算成本，并能根据用户偏好匹配查询任务的最适工具。在HLE测试中，Orchestrator以37.1%的得分超越GPT-5（35.1%），且效率提升2.5倍。在tau2-Bench与FRAMES基准测试中，该模型以仅30%的成本实现显著优于GPT-5的表现。深入分析表明，Orchestrator在多项指标下均达到性能与成本的最佳平衡，并对未见工具展现强大泛化能力。这些成果印证了通过轻量级调度模型整合多样化工具的方法，相比现有技术兼具更高效率与更强效能，为构建实用可扩展的工具增强推理系统开辟了新路径。 | | G$^2$VLM：基于几何基础的视觉语言模型——融合统一三维重建与空间推理能力

（注：译文通过"几何基础"对应"Geometry Grounded"的学术内涵，"融合统一"体现"Unified"的技术特性，完整保留专业术语"三维重建"与"空间推理"，同时采用破折号结构突出模型的双重核心功能，符合中文科技文献标题的表述规范） | Wenbo Hu | PDF | 视觉语言模型（VLMs）在空间智能方面仍缺乏鲁棒性，在空间理解与推理任务中表现欠佳。我们认为这一缺陷源于缺乏能够从二维图像重建三维空间的视觉几何学习过程。本文提出G²VLM——一个基于几何基础的视觉语言模型，它弥合了空间智能的两个核心维度：三维空间重建与空间理解。G²VLM原生利用学习到的三维视觉几何特征，直接预测三维属性并通过情境学习与交错推理增强空间推理任务。我们的统一架构在空间理解方面具有高度可扩展性：既能利用丰富的多视角图像和视频数据进行训练，又可获得通常仅能通过难以采集的标注数据才能得到的三维视觉先验优势。实验结果表明，G²VLM在两项任务中均表现优异，在三维重建任务上达到与前沿前馈模型相当的效果，在空间理解与推理任务中取得更优或具有竞争力的结果。通过将语义能力强大的VLM与底层三维视觉任务相融合，我们希望G²VLM能成为该领域的强基准，并为三维场景编辑等未来应用开启更多可能性。 | | 矩阵：点对点多智能体合成数据生成框架 | Dong Wang | PDF | 合成数据对于训练大语言模型日益重要，尤其在真实数据稀缺、成本高昂或涉及隐私的场景下。当前多数生成任务需要协调多智能体工作流，通过专业化智能体的协作来生成质量更高、多样性更强且结构更丰富的数据。然而现有的多智能体合成框架通常依赖中心化编排器，存在可扩展性瓶颈，或受限于特定领域硬编码而缺乏灵活性。本文提出\textbf{Matrix}——一种去中心化框架，将控制流与数据流统一表征为通过分布式队列传递的序列化消息。这种点对点设计消除了中心编排器，每个任务通过轻量级智能体独立推进，而计算密集型操作（如LLM推理或容器化环境）则由分布式服务处理。基于Ray构建的Matrix可扩展至数万个并发智能体工作流，其模块化可配置架构能轻松适配各类数据生成流程。我们在多智能体协作对话、基于网页的推理数据提取、客服场景工具使用轨迹生成等多样化合成场景中评估Matrix。在所有案例中，Matrix在相同硬件资源下实现了数据生成吞吐量$2$--$15$倍的提升，且输出质量不受影响。 | | 无像素视觉：基于相机轨迹的感知 | Zihui Xue | PDF | 能否仅通过相机轨迹——即其在空间中划过的路径——来感知视频内容，而无需观察像素？本文首次系统性地探究这个看似不可能的问题。为此，我们提出一种对比学习框架，用于训练CamFormer：一个将相机位姿轨迹映射到联合嵌入空间的专用编码器，使其与自然语言对齐。研究发现，与表面上的简单性相反，相机轨迹实则是揭示视频内容的高度信息化信号。换言之，“如何移动”确实能揭示“正在做什么”（第一人称视角）或“观察什么”（第三人称视角）。我们通过跨模态对齐、分类与时序分析等多样化下游任务，验证了CamFormer嵌入向量的通用性。值得注意的是，我们的表征对不同相机位姿估计方法（包括高精度多传感器方案与标准纯RGB估计器）均具有鲁棒性。本研究确立了相机轨迹作为一种轻量化、强鲁棒性且通用的视频内容感知模态。 | | 具有成长与精炼多模态语义记忆的自主学习者

（解析说明： 1. Agentic Learner译为"自主学习者"，强调学习主体具有自主性和能动性 2. Grow-and-Refine译为"成长与精炼"，准确传达动态发展过程 3. Multimodal Semantic Memory译为"多模态语义记忆"，保持专业术语一致性 4. 整体采用"定语+中心词"结构，符合中文科技文献表达习惯） | Weihao Bo | PDF | 多模态大语言模型（MLLMs）在独立查询中展现出强大的推理能力，但其运作方式是从零开始——每个问题都独立求解，且常常重复相同错误。现有基于记忆增强的智能体主要存储过往轨迹以供复用，然而这种轨迹记忆存在简略性偏差，会逐渐丢失关键领域知识。更严重的是，即使在真正的多模态问题解决场景中，现有系统仅记录单模态的行为轨迹，未能保留视觉注意力与逻辑推理如何协同促成解决方案的过程。这与人类认知存在根本性错位：语义记忆本质上是多模态且整合的，通过协同但独立的表征流同时保存视觉与抽象知识。

为此我们提出ViLoMem双流记忆框架，构建基于图式的紧凑记忆系统。该框架分别编码视觉分心模式与逻辑推理错误，使MLLMs能够从成功与失败经验中学习。遵循“生长-优化”原则，系统持续积累并更新多模态语义知识——在保持稳定、可泛化策略的同时避免灾难性遗忘。在六大多模态基准测试中，ViLoMem持续提升pass@1准确率，并显著减少重复的视觉与逻辑错误。消融实验证实了具有显式分心-幻觉分离的双流记忆机制的必要性，验证了错误感知多模态记忆在终身学习与跨领域智能体学习中的价值。项目页面详见：https://weihao-bo.github.io/ViLoMeo-page | | 基于演化模型的干扰下实验研究 | Sadegh Shirani | PDF | 网络系统中的因果效应估计是数据驱动决策的核心。在此类场景中，对单个单元的干预可能产生溢出效应，而在复杂的物理或社会系统中，驱动这些干扰结构的相互作用路径大多不可观测。我们认为，要识别群体层面的因果效应，无需还原确切的网络结构；相反，只需刻画这些相互作用如何影响结果演化即可。基于此原则，我们研究了一种基于演化的方法：通过观察多轮实验中干预措施如何引致结果变化，从而弥补缺失的网络信息。借助暴露映射视角，我们给出了结果经验分布遵循低维递归方程的公理化特征，并确定了此类演化映射存在所需的最小结构条件。这构成了双重差分法的分布形式对应物——该方法不假设个体单元具有平行路径，而是利用不同处理情境间的平行演化模式来估计反事实轨迹。关键洞见在于：随机化处理除消除潜在混杂因素外，还能通过隐式采样隐藏的干扰通道，实现对异质溢出效应的一致性学习。我们提出因果消息传递作为该方法在稠密网络中的具体实现，并将其扩展至更普遍的干扰结构（包括少数单元驱动主要溢出效应的意见领袖网络）。最后，我们讨论了该方法的局限性，表明强烈的时间趋势或内生性干扰可能破坏识别效果。 | | 大型稀疏网络中的事件驱动资格传播：生物真实性塑造的效率

（该翻译在保持学术严谨性的基础上，采用符合中文表达习惯的句式结构。其中"event-driven"译为专业术语"事件驱动"，"eligibility propagation"译为认知科学和计算神经科学领域的标准表述"资格传播"，"biological realism"译为"生物真实性"以准确体现生物神经系统建模的特性。整个标题通过冒号分隔形成主副标题结构，既完整保留了原文的学术信息，又符合中文论文标题的规范表达。） | Agnes Korcsak-Gorzo | PDF | 尽管技术已取得显著进步，人工智能系统仍可从生物原理中获益，例如循环连接结构与高效能机制。受大脑机制启发，我们提出一种具有生物合理性的资格传播学习规则扩展方案，适用于脉冲循环神经网络。通过将时间驱动更新机制转化为事件驱动模式，我们将该学习规则整合至大规模脉冲神经网络仿真平台，并验证其在神经形态MNIST等任务中的适用性。我们通过引入连续动态与权重更新、严格局部性以及稀疏连接等典型生物特征来扩展该模型。研究结果表明，基于生物学的约束条件可为设计计算高效的人工智能算法提供指导，在保持学习性能的同时实现百万级神经元的可扩展性。这项工作搭建了机器学习与计算神经科学之间的桥梁，不仅推动了对类脑学习机制的理解，更为开发可持续的生物启发式人工智能系统开辟了新路径。 |

bioRxiv

标题	作者	PDF链接
利用亲水相互作用色谱与质谱联用技术对位点特异性脯氨酸羟基化进行系统表征	Jiang, H.	PDF
生命识别码：一种细菌菌株命名方法	Palma, F.	PDF
与有义密码子错误关联的eRF1引发核糖体停滞及质量监控机制激活

medRxiv

标题	作者	PDF链接	摘要
		PDF
		PDF