跳转至

2025-10-15 每日论文

来源 独立页面
arXiv arXiv
bioRxiv bioRxiv
medRxiv medRxiv

arXiv

标题 作者 PDF链接 摘要
DeepMMSearch-R1:赋能多模态大语言模型实现跨模态网络搜索

(注:采用"跨模态"对应"multimodal"以体现多源信息融合特性,"网络搜索"较"Web搜索"更符合中文技术文献表述习惯,同时通过"赋能"动态呈现"Empowering"的技术增强内涵) | Kartik Narayan | PDF | 在实际应用中,多模态大语言模型(MLLMs)需要接入外部知识源,并持续响应动态变化的现实世界信息,以解决用户的信息检索与知识密集型查询需求。现有方法如检索增强生成(RAG)、搜索代理及配备搜索功能的MLLMs存在流程僵化、搜索调用过度、搜索查询构建质量不佳等问题,导致效率低下和结果欠佳。为突破这些局限,我们提出DeepMMSearch-R1——首个能够按需执行多轮网络搜索,并动态构建图文双模态搜索查询的多模态大语言模型。该模型具备两项核心能力:基于输入图像的关键区域触发精准图像搜索,以及根据检索结果迭代优化文本搜索查询,从而实现自我反思与修正。我们采用两阶段训练框架:冷启动监督微调阶段与在线强化学习优化阶段。训练数据采用全新构建的DeepMMSearchVQA多模态问答数据集,该数据集通过自动化流程融合网络搜索工具的真实信息,包含融合文本与视觉信息的多样化多跳查询,可指导模型学习搜索时机、搜索内容、工具选择及检索信息推理策略。我们在多个知识密集型基准测试中开展广泛实验,验证了本方法的优越性。最后通过对结果的分析,为推进多模态网络搜索研究提供了具有借鉴价值的洞见。 | | 通过下一关键点预测实现万物检测 | Qing Jiang | PDF | 长期以来,目标检测领域一直由基于坐标回归的传统模型主导,例如YOLO、DETR和Grounding DINO。尽管近期有研究尝试利用多模态大语言模型解决该任务,但仍面临召回率低、预测重复、坐标错位等挑战。本研究通过提出Rex-Omni弥合这一鸿沟——这是一个30亿参数规模的多模态大语言模型,实现了最先进的目标感知性能。在COCO和LVIS等基准测试中,Rex-Omni在零样本设定下达到甚至超越了基于回归的模型(如DINO、Grounding DINO)。这一突破得益于三大核心设计:1)任务建模:采用特殊令牌表征0至999的量化坐标,既降低模型学习难度又提升坐标预测的令牌效率;2)数据引擎:构建多类型数据引擎生成高质量定位、指代表达和指向标注数据,为训练提供语义丰富的监督信号;3)训练流程:采用两阶段训练策略,先在2200万数据上进行监督微调,再实施基于GRPO的强化学习后训练。该强化学习阶段通过几何感知奖励机制,有效弥合离散-连续坐标预测的鸿沟,提升检测框精度,并缓解初始监督微调阶段因教师引导特性导致的预测重复等不良现象。除常规检测任务外,Rex-Omni凭借其内在语言理解能力,还可实现目标指代、视觉提示、GUI定位、空间参照、OCR及关键点检测等多样化功能,这些能力均在专用基准上得到系统验证。我们相信Rex-Omni为构建更具通用性和语言感知能力的视觉感知系统开辟了新道路。 | | DriveVLA-W0:世界模型增强自动驾驶中的数据扩展定律

(注:该翻译采用学术文献标题的简洁规范,保留英文缩写"DriveVLA-W0"的原始形式,同时准确传达"World Models Amplify Data Scaling Law"的技术内涵。"数据扩展定律"是机器学习领域的标准术语,指模型性能随训练数据量增加而提升的规律。"世界模型"特指能模拟环境动态的认知架构,该译法符合自动驾驶领域术语惯例。) | Yingyan Li | PDF | 在大规模数据上扩展视觉-语言-动作(VLA)模型为实现更通用的驾驶智能提供了可行路径。然而,VLA模型存在“监督赤字”的局限:庞大的模型容量仅通过稀疏的低维动作进行监督,导致其表征能力未能得到充分利用。为解决这一问题,我们提出DriveVLA-W0训练范式,该范式通过世界建模来预测未来帧图像。这一任务可生成密集的自监督信号,迫使模型学习驾驶环境的底层动态规律。我们通过将该范式应用于两类主流VLA架构来证明其通用性:针对使用离散视觉标记的VLA构建自回归世界模型,针对基于连续视觉特征的VLA构建扩散世界模型。基于世界建模学习到的丰富表征,我们引入轻量化动作专家模块以解决实时部署中的推理延迟问题。在NAVSIM v1/v2基准测试和规模扩大680倍的内部数据集上的实验表明,DriveVLA-W0显著优于BEV与VLA基线模型。关键的是,该方法增强了数据缩放定律——随着训练数据集规模增大,性能提升呈现加速趋势。 | | CuMPerLay:学习立方多参数持久性向量化方法

(注:该翻译采用学术术语规范: 1. "CuMPerLay" 保留原名体现算法标识 2. "Cubical Multiparameter Persistence" 译为专业术语"立方多参数持久性" 3. "Vectorizations" 译为"向量化方法"以符合计算拓扑领域表述惯例 4. 整体采用"方法命名+核心功能"的学术翻译结构) | Caner Korkmaz | PDF | 我们提出CuMPerLay——一种新型可微分向量化层,能够将立方多参数持续性(CMP)整合至深度学习流程中。尽管CMP为图像拓扑分析提供了自然且强大的方法,但其应用一直受限于多重滤波结构的复杂性以及CMP向量化的实现难题。针对这些挑战,我们提出一种用于向量化立方复形多参数同调的新算法。CuMPerLay将CMP分解为可学习的单参数持续性组合,其中双滤波函数通过联合学习获得。凭借可微分特性,其稳健的拓扑特征向量可无缝接入Swin Transformer等前沿架构。我们通过广义Wasserstein度量证明了该向量化方法的稳定性理论保证。在医学影像与计算机视觉基准数据集上的实验表明,CuMPerLay在分类与分割任务中显著提升性能,尤其在有限数据场景下表现突出。总体而言,CuMPerLay为将全局结构信息整合至结构化图像分析的深度网络开辟了崭新路径。 | | ViCO:一种面向语义感知动态高分辨率的训练策略

(解析:该翻译遵循了以下原则: 1. 专业术语准确对应: - "ViCO"作为专有名词保留原格式 - "Semantic Aware"译为"语义感知"(计算机视觉领域标准译法) - "Dynamic High-Resolution"译为"动态高分辨率"(图像处理领域通用术语) 2. 学术标题规范: - 使用冒号分隔主副标题 - 采用"一种...策略"的学术表达范式 - "towards"译为"面向"体现研究导向性 3. 技术内涵传达: - 通过"训练策略"准确反映"Training Strategy"的方法论属性 - "动态高分辨率"保持技术概念的完整性 - 语序调整符合中文科技文献表达习惯) | Long Cui | PDF | 现有多模态大语言模型(MLLMs)因图像输入引入的额外视觉标记而导致推理成本增加。本文提出视觉一致性学习(ViCO),这是一种创新的训练算法,使模型能够根据图像语义复杂度的差异,使用不同数量的视觉标记进行表征。该方法的核心思想是采用具有不同图像压缩比的多层感知机连接器,根据图像语义复杂度对视觉标记进行下采样。在训练过程中,我们最小化基于不同MLP连接器生成响应的KL散度。在推理阶段,我们引入名为视觉分辨率路由器(ViR)的图像路由模块,可自动为每个图像块选择合适的压缩率。与现有基于图像分辨率调整视觉标记数量的动态高分辨率策略相比,我们的方法能够根据语义复杂度动态适配视觉标记数量。实验结果表明,本方法在保持模型感知、推理和OCR能力的同时,可将视觉标记数量减少高达50%。我们期望这项工作能推动高效能MLLMs的发展。代码与模型将开源以促进后续研究。 | | UniFusion:将视觉语言模型作为图像生成中的统一编码器

(注:该翻译在保留专业术语准确性的基础上,采用"视觉语言模型"对应"Vision-Language Model","统一编码器"对应"UniFied Encoder",并通过冒号分隔实现学术标题的规范表达,同时确保"图像生成"领域的专业表述一致性。) | Kevin Li | PDF | 尽管视觉生成领域近期取得了显著进展,但现有架构大多仍依赖独立的图像与文本编码器。这种分离结构限制了扩散模型执行跨模态推理与知识迁移的能力。先前弥合这一差距的尝试通常采用视觉语言模型(VLM)的末层信息、部署多个视觉编码器,或联合训练大型统一模型进行图文生成,这些方法需要消耗大量计算资源与大规模数据,限制了其可及性。

我们提出UniFusion——一种基于扩散的生成模型,其以冻结的大型视觉语言模型作为统一多模态编码器。该模型的核心是层级注意力池化(LAP)机制,该机制能从冻结VLM的文本与视觉标记中同步提取高层语义特征与底层细节信息,为扩散生成模型提供条件输入。我们通过实验证明,在生成任务的图文对齐度及视觉信息从VLM向扩散模型的忠实迁移(这对编辑任务至关重要)方面,LAP优于其他浅层融合架构。

我们进一步提出基于VLM的灵活推理重写注入机制(VERIFI),该机制仅在模型内部提示词重写过程中,将VLM生成的文本标记作为扩散变换器(DiT)的条件输入。VERIFI通过将条件分布与VLM的推理能力对齐,在推理阶段实现了更强的功能性与灵活性。此外,对编辑任务进行微调不仅提升了生成任务的图文对齐度(这体现了跨模态知识迁移),还展现出卓越的泛化能力。当在单图像编辑任务上完成训练后,我们的模型能够零样本泛化至多图像参考场景,这进一步印证了UniFusion统一编码器设计的优越性。 | | Ax-Prover:面向数学与量子物理定理证明的深度推理智能体框架

(注:翻译说明: 1. "Agentic Framework"译为"智能体框架",体现其具备自主决策与执行能力的系统特性 2. "Deep Reasoning"译为"深度推理",强调其超越表面推导的深层逻辑分析能力 3. 专业术语保持领域一致性:"Theorem Proving"对应"定理证明","Quantum Physics"采用标准译名"量子物理") | Marco Del Tredici | PDF | 我们提出Ax-Prover——一个基于Lean平台的多智能体自动定理证明系统,该系统能够解决跨科学领域的复杂问题,并支持自主运行或与人类专家协同工作。为实现这一目标,Ax-Prover通过形式化证明生成来处理科学问题求解,这一过程既需要创造性推理又要求严格的语法规范。为应对该挑战,系统通过模型上下文协议(MCP)为提供知识与推理能力的大语言模型(LLMs)配备Lean工具,从而确保形式化验证的正确性。在评估其作为自主证明系统的性能时,我们在两个公开数学基准测试集及两个自建的抽象代数与量子理论领域Lean测试集上,将本方法与前沿大语言模型及专业证明模型进行对比。在公开数据集上,Ax-Prover与最先进的证明系统表现相当,而在新构建的测试集上则显著优于现有系统。这表明相较于难以泛化的专业系统,我们基于工具赋能的智能体定理证明方法为跨科学领域的形式化验证提供了可泛化的方法论。此外,我们通过实际用例展示了Ax-Prover的辅助能力:在该案例中,系统成功协助数学家完成了复杂密码学定理证明的形式化工作。 | | 高效现实世界图像去模糊技术:基于单张图像的AIM 2025挑战赛报告

(注:标题翻译在保持专业性的同时进行了中文语境优化: 1. "Efficient Real-World Deblurring"译为"高效现实世界图像去模糊技术",准确传达技术特性与应用场景 2. "using Single Images"处理为"基于单张图像",符合中文技术文献表述习惯 3. "AIM 2025 Challenge Report"译为"AIM 2025挑战赛报告",保留专业会议名称标准译法 4. 整体采用"技术方法:应用场景+会议报告"的中文学术标题结构,确保专业性与可读性) | Daniel Feijoo | PDF | 本文综述了AIM 2025高效真实图像去模糊挑战赛,该赛事旨在推动真实场景模糊图像的高效复原技术发展。本次挑战赛基于知名RSBlur数据集构建的全新测试集,该数据集通过双摄像头系统采集获取模糊图像与退化图像的配对样本。参赛团队需要开发在严格效率约束下(模型参数少于500万且计算量低于200 GMACs)有效处理此类图像的去模糊方案。共有71支队伍注册参赛,最终4支团队提交了有效解决方案。最佳方案实现了31.1298 dB的峰值信噪比,展现出高效方法在该领域的应用潜力。本文全面阐述了挑战赛整体情况,对比分析了各参赛方案,为真实场景图像高效去模糊领域的研究人员提供了重要参考。 | | MVP4D:基于多视角人像视频扩散的可驱动4D虚拟人生成模型

(该翻译采用学术论文标题的典型结构,通过"基于...的...生成模型"的句式完整呈现技术特性。其中关键术语处理为:"Multi-View"译为"多视角"以强调视觉采集维度,"Portrait Video Diffusion"保留"扩散"这一生成式AI核心概念并前置限定条件,"Animatable 4D Avatars"译为"可驱动4D虚拟人"既体现时间维度动态特性又符合计算机图形学领域表述习惯) | Felix Taubner | PDF | 数字人化身旨在模拟虚拟环境中人类的动态外观,为游戏、影视、虚拟现实等领域提供沉浸式体验。然而,传统创建并驱动逼真人像的过程既昂贵又耗时,需要大型摄像机阵列和专业3D艺术家投入大量人工操作。随着高性能图像与视频生成模型的出现,近期方法已能通过单张随意拍摄的目标对象参考图像自动渲染逼真动态化身。尽管这些技术显著降低了化身创建门槛并展现出令人信服的真实感,但它们缺乏多视角信息或显式三维表征的约束,导致渲染视角与参考图像偏差较大时,图像质量与真实感会明显下降。为此,我们开发了一种视频模型,能够基于单张参考图像和目标表情生成可动态驱动的多视角数字人视频。我们的MVP4D模型基于先进预训练视频扩散模型,可同时生成数百帧环绕目标对象360度的多视角视频。我们展示了如何将该模型输出蒸馏为可实时渲染的4D化身。相较于现有方法,本方案在生成化身的真实感、时间一致性与三维一致性方面均实现显著提升。 | | SRUM:统一多模态模型的细粒度自奖励机制

(注:SRUM作为专有名词保留原缩写形式,后续解释性翻译采用学术规范表述。"Fine-Grained Self-Rewarding"译为"细粒度自奖励机制"以体现其技术特性,"Unified Multimodal Models"采用学界通用译法"统一多模态模型",整体译名保持专业性与可读性平衡) | Weiyang Jin | PDF | 近年来,统一多模态模型(UMMs)取得了显著进展,这类模型在单一框架内整合了视觉语言生成与理解能力。然而,当前存在一个显著缺陷:模型的强大视觉理解能力往往难以迁移至视觉生成任务。一个模型可能根据用户指令准确理解图像内容,却无法基于文本提示生成符合要求的图像。这一现象直接引出了一个值得深究的问题:模型能否通过理解模块对其生成模块进行奖励,从而实现自我改进?

为弥补这一缺陷并实现自我改进,我们提出了SRUM——一种可直接应用于各类现有UMMs的自奖励后训练框架。SRUM构建了一个反馈循环机制,使模型自身的理解模块充当内部“评估器”,在不依赖额外人工标注数据的情况下,通过纠偏信号持续优化生成模块。为确保反馈的全面性,我们设计了全局-局部双奖励机制:针对图像固有的结构复杂性,该机制提供多尺度指导——\textbf{全局奖励}确保整体视觉语义与布局的正确性,而\textbf{局部奖励}则优化细粒度对象级保真度。

SRUM展现出强大的能力与卓越的泛化性,在T2I-CompBench上的性能从82.18提升至\textbf{88.37},在T2I-ReasonBench上从43.82提升至\textbf{46.75}。总体而言,我们的研究开创了通过自奖励机制使UMMs理解模块引导并增强其自身生成能力的新范式。 |

bioRxiv

标题 作者 PDF链接 摘要
撤回:人类颞叶声音区域对黑猩猩发声具有敏感性 Ceravolo, L. PDF
通过脉冲神经元群体中的强化学习实现时间刺激分割 Le Donne, L. PDF
大西洋-北极极锋带真核浮游植物基因表达变化 Fremont, P. PDF
物种中自然选择的有效性影响氨基酸频率演化的方向。 McShea, H. S. PDF
共现选型交配与垂直文化传递对遗传关联度量的影响 Herzig, A. F. PDF
巨型增强子区隔化转录活性长基因 Zhao, Z. PDF
SARS-CoV-2刺突蛋白抗体与登革病毒存在交叉反应,并在体外及体内实验中观察到感染增强现象。 Jakhar, K. PDF
工作记忆中动态空间更新时的对侧延迟活动 Chernik, C. PDF
Rhino识别双链piRNA源位点中ADMA修饰组蛋白的作用

(注:ADMA指不对称二甲基精氨酸;piRNA为Piwi相互作用RNA;Rhino是果蝇中HP1同源蛋白,特异表达在生殖细胞系中,负责识别并结合piRNA簇区域。) | Saito, R. | PDF | | | 抑郁中适应不良自我信念形成的机制:岛叶对负性预测误差的异常活动及正性预测误差学习能力减弱

(该翻译通过以下方式实现学术准确性: 1. 保留专业术语:"insula"译为"岛叶","prediction errors"译为"预测误差" 2. 重构句式:将英文后置定语转换为中文前置定语,符合中文表达习惯 3. 专业表述:"aberrant activity"译为"异常活动","maladaptive"译为"适应不良" 4. 逻辑显化:通过"及"字清晰呈现两个并列机制,使用"作为...机制"准确对应"as mechanisms"的学术表达) | Czekalla, N. | PDF | |

medRxiv

标题 作者 PDF链接 摘要
PDF
PDF
PDF
PDF
PDF
PDF
PDF
PDF
PDF
PDF