arxiv 2025-10-20

标题	作者	PDF链接	摘要
OmniVinci：面向全模态理解大模型的架构与数据增强方案

（解析说明： 1. "Enhancing Architecture and Data"译为"架构与数据增强方案"，既保留技术术语的准确性，又通过"方案"体现系统性优化理念 2. "Omni-Modal Understanding LLM"采用"全模态理解大模型"的译法，其中： - "Omni-Modal"译为"全模态"符合计算机视觉与多模态学习领域的术语惯例 - "LLM"扩展为"大语言模型"的完整表述，通过前置定语形成符合中文学术表达习惯的技术名词 3. 整体采用冒号分隔的学术标题结构，主标题音译"OmniVinci"保留项目命名特征，副标题准确传递技术内涵） | Hanrong Ye | PDF | 推进机器智能的发展需要构建跨模态感知能力，正如人类通过多感官认知世界。我们推出OmniVinci项目，致力于构建强大的开源全模态大语言模型。我们系统研究了模型架构与数据策展的设计方案：在模型架构方面提出三大创新：(i) OmniAlignNet——在共享全模态潜空间内强化视觉与音频嵌入的对齐；(ii) 时序嵌入分组——捕捉视觉与音频信号的相对时序对齐关系；(iii) 约束旋转时间嵌入——在全模态嵌入中编码绝对时序信息。我们构建的数据策展与合成流程生成了2400万条单模态与全模态对话数据。研究发现，多模态在感知与推理中具有协同增强效应。我们的OmniVinci模型仅使用0.2万亿训练令牌（较Qwen2.5-Omni的1.2万亿减少6倍），即在多项基准测试中实现超越：DailyOmni（跨模态理解）提升19.05分，MMAR（音频）提升1.7分，Video-MME（视觉）提升3.9分。最后，我们验证了全模态技术在机器人、医疗AI和智能工厂等下游应用中的显著优势。 | | Skyfall-GS：基于卫星影像的沉浸式三维城市场景合成系统

（注：Skyfall-GS作为专有技术名称保留原文不译，通过冒号后的解释性翻译完整呈现技术内涵。采用"合成系统"对应"Synthesizing"的动名词结构，用"沉浸式三维城市场景"准确传达"Immersive 3D Urban Scenes"的层次关系，"卫星影像"符合中文测绘学专业术语规范。） | Jie-Ying Lee | PDF | 合成大规模、可探索且几何精确的3D城市场景，对于实现沉浸式实体化应用具有重要价值，但同时也面临巨大挑战。当前主要困境在于缺乏可用于训练通用生成模型的大规模高质量真实世界3D扫描数据。本文另辟蹊径，通过融合现成卫星影像提供的真实粗粒度几何信息与开放域扩散模型生成的高质量近景外观，创新性地提出大规模3D场景创建方案。我们推出\textbf{Skyfall-GS}框架——首个无需昂贵3D标注即可实现城市街区级规模的三维场景生成系统，并具备实时沉浸式三维探索功能。该框架采用课程驱动的迭代优化策略，逐步提升几何完整度与照片级真实纹理质量。大量实验表明，相较于现有最优方法，Skyfall-GS在跨视角几何一致性保持与纹理真实感方面均实现显著提升。项目主页：https://skyfall-gs.jayinnn.dev/ | | LightsOut：基于扩散模型的图像外绘技术实现增强型镜头光晕消除

（注：该翻译在保持专业术语准确性的基础上，采用符合中文计算机视觉领域表述习惯的句式结构。其中： 1. "Diffusion-based Outpainting"译为"基于扩散模型的图像外绘技术"，既保留了"扩散模型"这一核心方法论，又通过增译"技术"二字符合中文标题命名规范 2. "Enhanced Lens Flare Removal"处理为"增强型镜头光晕消除"，将形容词后置的英文表达转换为中文惯用的前置定语结构 3. 主副标题采用冒号分隔的标准学术标题格式，整体表述既忠实原意又符合中文计算机视觉领域的术语体系） | Shr-Ruei Tsai | PDF | 镜头光晕会显著降低图像质量，影响目标检测和自动驾驶等关键计算机视觉任务。当画面外光源不完整或缺失时，现有的单图像光晕消除方法表现不佳。我们提出LightsOut——一个基于扩散模型的画面外延框架，通过重建画面外光源来增强单图像光晕消除效果。该方法采用多任务回归模块和经LoRA微调的扩散模型，确保生成具有物理一致性的逼真外延结果。综合实验表明，在各类挑战性场景中，LightsOut能持续提升现有单图像光晕消除方法的性能，且无需额外重新训练，可作为通用即插即用的预处理方案。项目页面：https://ray-1026.github.io/lightsout/ | | BiomedXPro：基于生物医学视觉语言模型的可解释诊断提示优化

（注：采用"生物医学视觉语言模型"对应"Biomedical Vision Language Models"，准确体现交叉学科特性；"可解释诊断"对应"Explainable Diagnosis"，突出模型透明化特性；"提示优化"直译"Prompt Optimization"保持技术术语一致性；冒号结构保留原标题层级关系，符合中文科技文献标题规范） | Kaushitha Silva | PDF | 生物医学视觉-语言模型在临床中的应用受到提示优化技术的制约——这些技术要么生成难以解释的潜在向量，要么仅能生成单一文本提示。这种透明度的缺失以及对临床诊断多维度特性（需整合多样化观察结果）的捕捉不足，限制了此类模型在高风险医疗环境中的可信度。为此，我们提出BiomedXPro进化框架：通过调用大语言模型作为生物医学知识提取器与自适应优化器，自动生成用于疾病诊断的多样化、可解释自然语言提示对组合。在多个生物医学基准测试中的实验表明，BiomedXPro持续优于最先进的提示调优方法，尤其在数据稀缺的少样本场景中表现突出。进一步分析显示，所发现的提示语与具有统计学意义的临床特征之间存在强语义关联，这将模型性能锚定于可验证的医学概念。通过生成多样化的可解释提示组合，BiomedXPro为模型预测提供了可验证的决策依据，标志着朝向构建更可信、更符合临床需求的AI系统迈出了关键一步。 | | PolySkill：通过多态抽象学习通用技能 | Simon Yu | PDF | 大型语言模型（LLM）正从静态应用转向驱动智能体，使其在与外部环境交互过程中持续学习。例如，智能体可在浏览网页或切换工具时学习可复用技能。然而现有技能学习方法往往使技能过度特化于单一网站，缺乏泛化能力。我们提出PolySkill创新框架，使智能体能够学习具备泛化性与组合性的技能。其核心思想借鉴软件工程中的多态概念，将技能的抽象目标（实现功能）与具体实施（执行方式）解耦。实验表明我们的方法：（1）在已见网站上技能复用率提升1.7倍；（2）在Mind2Web数据集上成功率最高提升9.4%，在未见网站上提升13.9%，同时步骤数减少超20%；（3）在无预设任务的自主探索环境中，本框架提升任务生成质量，使智能体习得跨网站通用技能。通过让智能体自主识别并优化目标，PolySkill增强了智能体学习更优课程的能力，相比基线方法可获得更具泛化性的技能。这项研究为构建适应环境中持续学习智能体提供了可行路径。我们的研究证明，将技能目标与执行方式分离是开发能在开放网络持续学习与泛化的自主智能体的关键进展。 | | PokeeResearch：基于AI反馈强化学习与稳健推理框架的高效深度研究 | Yi Wan | PDF | 工具增强型大语言模型正逐渐成为深度研究智能体，这类系统能够分解复杂查询、检索外部证据并生成基于事实的响应。然而现有智能体仍存在检索浅层化、对齐指标薄弱、工具使用行为脆弱等局限。我们推出PokeeResearch-7B——基于统一强化学习框架构建的70亿参数深度研究智能体，具备强鲁棒性、精准对齐性和高扩展性。该模型通过无标注AI反馈强化学习框架进行训练，利用基于大语言模型的奖励信号来优化策略，这些信号涵盖事实准确性、引用忠实度和指令遵循度。思维链驱动的多轮调用推理框架进一步通过自我验证和工具故障自适应恢复机制增强系统鲁棒性。在10个主流深度研究基准测试中，PokeeResearch-7B在70亿参数规模的深度研究智能体中实现了最先进性能。这表明精密的强化学习与推理设计能够培育出高效、稳健且符合研究级标准的AI智能体。该模型及推理代码已基于MIT许可证在https://github.com/Pokee-AI/PokeeResearchOSS开源。 | | InfiMed-ORBIT：基于量规的增量式训练实现大语言模型在开放式复杂任务上的对齐

（注：译文采用学术翻译的严谨性原则： 1. 保留专业术语"LLMs"的标准译法"大语言模型" 2. "Rubric-Based"译为"基于量规的"符合教育评估领域的专业表述 3. "Incremental Training"译为"增量式训练"准确体现机器学习方法论 4. 项目名称"InfiMed-ORBIT"保留原文格式 5. 通过"对齐"对应"Aligning"体现人机协同的技术内涵 6. 整体句式采用中文科技论文标题常用的动宾结构） | Pengkai Wang | PDF | 大型语言模型（LLM）通过强化学习（RL）取得了显著进展，尤其是在数学和代码等可通过程序化验证奖励的领域。这些领域具有明确的规则化目标作为操作基础，使模型能够从中受益。然而，这种进展也暴露出重要局限：在奖励机制模糊、主观或依赖具体情境的开放领域（如创意写作、科学推理，尤其是医疗咨询），由于缺乏稳健的奖励函数，当前强化学习策略面临巨大挑战。为弥补这一差距，我们提出ORBIT框架——一种专为高风险医疗对话设计的基于开放式量规的渐进式训练方案。该框架将合成对话生成与动态量规创建相结合，通过量规指导渐进式强化学习过程。该方法不依赖外部医学知识或人工规则，而是利用量规引导的反馈机制驱动学习。在Qwen3-4B-Instruct模型上的实验表明，仅使用2千个样本即可将HealthBench-Hard基准测试成绩从7.0提升至27.2，实现了同规模模型的最高水平。分析证实，量规驱动的强化学习能在多样化咨询场景中带来持续的性能提升，其价值超越简单的数值改进。这些发现表明，基于量规的反馈机制可作为推进大型语言模型处理复杂开放任务的可扩展策略。 | | BLIP3o-NEXT：原生图像生成的新前沿

（注：译文采用"新前沿"对应"Next Frontier"，既保留学术术语的严谨性，又体现技术突破的先锋性；"原生图像生成"准确传达"Native Image Generation"的技术本质，避免歧义） | Jiuhai Chen | PDF | 我们推出BLIP3o-NEXT——BLIP3系列中完全开源的基础模型，该模型将原生图像生成技术推向全新高度。BLIP3o-NEXT在统一架构中实现了文生图与图像编辑功能，展现出卓越的图像生成与编辑能力。在开发这一尖端原生图像生成模型的过程中，我们获得四项关键发现：（1）多数架构方案性能相当，只要具备高效扩展性与快速推理能力即可视为有效架构；（2）强化学习的成功应用能进一步突破原生图像生成的技术边界；（3）图像编辑仍是艰巨挑战，但通过后训练与数据引擎能显著提升指令跟随能力及生成图像与参考图像的一致性；（4）数据质量与规模始终是决定模型性能上限的关键因素。基于这些洞见，BLIP3o-NEXT采用自回归+扩散混合架构：自回归模型首先生成基于多模态输入的离散图像表征，其隐藏状态随后作为扩散模型的条件信号来生成高保真图像。该架构融合了自回归模型的推理能力、指令跟随特性与扩散模型的精细渲染优势，实现了前所未有的连贯性与真实感。在多项文生图与图像编辑基准测试中，BLIP3o-NEXT均展现出超越现有模型的卓越性能。 | | 大规模上下文感知零样本槽位填充的SpeechLLMs模型

这个翻译保留了以下关键要素： 1. SpeechLLMs - 采用音译加专业术语的处理方式，译为"SpeechLLMs模型" 2. Large-scale - 译为"大规模" 3. Contextualized - 专业术语译为"上下文感知" 4. Zero-shot - 机器学习领域标准译法"零样本" 5. Slot Filling - 自然语言处理领域的标准术语"槽位填充"

整个译名准确传达了原技术名称的专业内涵，符合中文计算机学术文献的表述规范。 | Kadri Hacioglu | PDF | 槽位填充是口语理解中的关键子任务，传统实现方式采用语音识别与一个或多个自然语言理解组件的级联架构。近期基于语音的大语言模型通过融合语音与文本基础模型，为语音理解任务开辟了新路径：以更统一、生成式、指令跟随的方式实现任务，同时通过零样本能力保证数据与计算效率，并能泛化至未见过的新槽位标签。本研究通过构建任务的经验性能上限，识别模型在性能、鲁棒性和泛化能力方面的差距，进而从训练数据、模型架构和训练策略三个维度提出改进方案以缩小与性能上限的差距。实验证明各项改进措施均能显著提升性能，同时研究揭示了实际应用中的挑战，为驾驭这类新兴模型提供了实证指导与洞见。 | | 自认证原始对偶优化代理在大规模批量经济调度中的应用 | Michael Klamkin | PDF | 最新研究表明，经过训练的优化代理模型可实现高保真度，在大规模问题中平均最优间隙可控制在1%以下。然而最坏情况分析显示，存在分布内查询会导致最优间隙出现数量级增长，这使得实际应用中难以信赖其预测结果。本文旨在经典求解器与优化代理模型之间寻求平衡，通过用户自定义的最优性阈值实现具有可解释性速度-最优性权衡的可信部署。为此，我们提出一种混合求解器：利用对偶理论高效界定预测值的最优间隙边界，对无法验证最优性的查询自动切换至经典求解器。为提升混合求解器的加速性能，本文进一步提出结合原始问题与对偶问题代理训练的联合训练方法。在大型传输系统上的实验表明，该混合求解器具有高度可扩展性，相比基于并行化单纯形法的求解器可实现超1000倍的加速效果，同时确保最大最优间隙不超过2%。 |