arxiv 2025-11-18

标题	作者	PDF链接	摘要
回归基础：让去噪生成模型专注去噪	Tianhong Li	PDF	当今的去噪扩散模型并非经典意义上的"去噪"——它们并不直接预测干净图像。相反，神经网络预测的是噪声或含噪量值。本文提出，预测干净数据与预测含噪量值存在本质区别。根据流形假设，自然数据应位于低维流形上，而含噪量值则不然。基于此假设，我们主张采用直接预测干净数据的模型，这使得看似容量不足的网络能在极高维空间中有效运作。我们证明，基于像素的简单大尺寸补丁Transformer可成为强大的生成模型：无需分词器、无需预训练、无需额外损失函数。我们的方法在概念上仅是"$\textbf{纯粹图像Transformer}$"（$\textbf{JiT}$）。在ImageNet数据集256×256和512×512分辨率下，使用16×16和32×32大尺寸补丁的JiT模型取得了具有竞争力的结果，而在相同条件下预测高维含噪量值会导致灾难性失败。通过让网络回归流形基本原理，我们的研究追溯本源，致力于构建基于原始自然数据的Transformer扩散自洽范式。
利用多模态基础模型扩展空间智能	Zhongang Cai	PDF	尽管取得了显著进展，多模态基础模型在空间智能方面仍存在明显不足。本研究基于成熟的多模态基础（包括视觉理解模型Qwen3-VL和InternVL3，以及统一理解与生成模型Bagel），通过扩展多模态基础模型规模构建SenseNova-SI系列以培养空间智能。我们采用系统化方法，在严格的空间能力分类体系下构建了包含八百万个多样化数据样本的SenseNova-SI-8M数据集，旨在建立高性能且鲁棒的空间智能模型。SenseNova-SI在广泛的空间智能基准测试中展现出卓越性能：VSI-Bench达68.7%，MMSI达43.3%，MindCube达85.6%，ViewSpatial达54.6%，SITE达50.1%，同时保持强大的通用多模态理解能力（如MMBench-En达84.9%）。更重要的是，我们分析了数据规模扩增的影响，探讨了多样化数据训练带来的涌现泛化能力早期迹象，解析了过拟合与语言捷径风险，提出了空间思维链推理的初步研究，并验证了潜在的下游应用价值。SenseNova-SI为持续演进项目，本报告将定期更新。所有新训练的多模态基础模型均已公开发布，以推动该领域的深入研究。
跨镜头任意分割：一种方法与基准测试

该翻译采用学术论文标题的规范表达，在保持专业性的同时实现以下要点： 1. 核心术语"Segment Anything"译为"任意分割"，准确传达模型泛化分割能力 2. "Across Shots"译为"跨镜头"，精准对应多镜头场景下的计算机视觉任务特性 3. 冒号后采用"方法+基准测试"的标准学术表述，符合中文论文标题惯例 4. 整体结构保持"主标题：副标题"的学术论文命名范式 5. 术语统一性确保与计算机视觉领域现有中文文献的表述一致 | Hengrui Hu | PDF | 本研究聚焦于多镜头半监督视频目标分割（MVOS），其目标是在包含多个镜头的视频中，根据初始掩码指示持续分割目标对象。现有VOS方法主要针对单镜头视频，难以处理镜头间的不连续性，从而限制了实际应用价值。我们提出了过渡模拟数据增强策略（TMA），通过单镜头数据实现跨镜头泛化以缓解标注多镜头数据严重匮乏的问题，并开发了跨镜头通用分割模型（SAAS），该模型能有效检测和理解镜头转换。为支持MVOS的评估与未来研究，我们构建了Cut-VOS新基准数据集，该数据集具有密集掩码标注、多样化目标类别和高频镜头转换特性。在YouMVOS和Cut-VOS上的大量实验表明，所提出的SAAS模型通过有效模拟、理解并分割复杂过渡场景，实现了最先进的性能。代码与数据集已发布于https://henghuiding.com/SAAS/。 | | UnSAMv2：自监督学习实现任意粒度下的通用分割

（注：译文采用学术翻译的"术语对应+结构重组"原则： 1. 保留UnSAMv2原型编号体系 2. "Self-Supervised Learning"译为计算机视觉领域标准术语"自监督学习" 3. "Segment Anything"延续学界对SAM模型的固定译法"通用分割" 4. "At Any Granularity"转化为中文论文常用表达"任意粒度"，通过"下"字保持介词结构流畅性 5. 整体采用冒号分隔的论文标题范式，符合中文核心期刊的标题规范） | Junwei Yu | PDF | Segment Anything Model（SAM）系列已成为广泛采用的视觉基础模型，但其控制分割粒度的能力仍存在局限。用户常需通过手动添加提示或从预生成掩码中选择来优化结果，以获得理想细节层次。这一过程具有不确定性——相同提示可能对应多个合理掩码，且在所有粒度级别收集密集标注的成本过高，导致监督式解决方案难以实施。为解决此问题，我们提出UnSAMv2模型，无需人工标注即可实现任意粒度级别的图像分割。该模型通过发掘海量掩码-粒度配对数据，并引入新型粒度控制嵌入模块，扩展了UnSAM的分治策略，从而实现对分割尺度的精准连续控制。值得注意的是，仅使用6千张无标注图像和0.02%的额外参数量，UnSAMv2就显著增强了SAM-2模型，在交互式分割、全图像分割及视频分割任务中均实现任意粒度分割。在超过11个基准测试中，UnSAMv2将NoC₉₀指标从5.69提升至4.75，1-IoU从58.0%优化至73.1%，AR₁₀₀₀从49.6%提升至68.3%，证明结合粒度感知自监督学习方法，少量无标注数据即可释放视觉基础模型的潜力。 | | 自由形式场景编辑器：实现类似3D引擎中的多轮对象操控

（该翻译采用"自由形式"对应"Free-Form"以体现非预设结构的编辑特性，"多轮对象操控"准确传达"Multi-Round Object Manipulation"所指的连续编辑操作概念，整体句式保持学术文本的严谨性，同时通过"类似3D引擎中"的类比说明使技术特性更易理解） | Xincheng Shuai | PDF | 尽管文本到图像扩散模型的最新进展显著提升了语义图像编辑能力，但现有方法大多难以实现三维感知的物体操控。本研究提出FFSE框架——一种三维感知自回归系统，旨在直接对真实图像进行直观且物理一致的物体编辑。与既往在图像空间操作或依赖低效易错三维重建的方法不同，FFSE将编辑过程建模为一系列习得的三维变换序列，支持用户执行平移、缩放、旋转等任意操作，同时保持逼真的背景效果（如阴影、反射）及多轮编辑过程中的全局场景一致性。为支撑多轮三维物体操控的学习，我们构建了3DObjectEditor混合数据集，该数据集通过跨物体与场景的模拟编辑序列构建，能有效支持多轮动态条件下的模型训练。大量实验表明，FFSE在单轮及多轮三维编辑场景中均显著优于现有方法。 | | 从黑箱到洞见：面向极端事件应对的可解释人工智能 | Kiana Vu | PDF | 随着气候变化加剧野火等极端事件的频率与强度，对精准、可解释且具可操作性预测的需求日益迫切。尽管人工智能模型在预测此类事件中展现出潜力，但其黑箱特性导致实际决策应用受限——这种特性削弱了信任度、可解释性与操作就绪度。本文研究可解释人工智能在弥合极端事件预测准确性与可操作见解之间差距的作用。以野火预测为案例，我们评估了多种AI模型，并采用SHAP可解释技术揭示关键特征、决策路径及模型行为中的潜在偏差。分析表明，XAI不仅能阐明模型推理机制，更能为领域专家与应急团队的关键决策提供支持。此外，我们通过特征重要性、季节性时序规律及地理空间特征的语境化呈现，提供了增强XAI输出可解释性的可视化方案。这种方法提升了AI解释对从业者与政策制定者的实用价值。研究结果强调：AI系统不仅需要精准性，更应具备可解释性、易用性与可信度——这些特质对于灾害防范、风险缓解及气候适应规划的有效实施至关重要。 | | 从力量到精准：学习多指灵巧手的精细操作能力 | Jianglong Ye | PDF | 人类抓握方式大致可分为两类：力抓握与精抓握。精抓握能力使人类能够使用工具，并被认为对人类进化产生了重要影响。当前的多指机器人手在力抓握方面表现优异，但在需要精细操作的任务中，平行夹爪仍被更广泛采用。这种反差揭示了当前机器人手设计的关键局限：难以在单一多功能系统中同时实现稳定的力抓握与精细灵巧操作。本研究通过联合优化多指灵巧手的控制与硬件设计，成功弥合了这一鸿沟，使其兼具力抓与精抓功能。我们未重新设计整只机械手，而是引入轻量级的指尖几何形态改造——将其表征为接触平面，并联合优化其参数及相应控制策略。我们的控制方案能动态切换力抓与精抓模式，并将精抓控制简化为拇指-食指的平行运动，这被证明能有效实现仿真到实物的迁移。在设计层面，我们利用大规模仿真技术，通过可微分神经物理代理模型优化指尖几何形态。通过仿真到实物及实物到实物场景的大量实验验证，我们的方法在仿真到实物的精抓任务中对未见物体实现了82.5%的零样本成功率，在涉及面包捏取的复杂现实任务中达到93.3%的成功率。这些结果表明我们的协同设计框架能在不削弱多指手力抓能力的前提下，显著提升其精细操作性能。项目页面详见：https://jianglongye.com/power-to-precision | | 基于自编码器嵌入与稳定性感知聚类的RNA-seq稀有基因组亚型发现

该翻译保留了原文的学术严谨性，具体表现为： 1. 专业术语精准对应： - "Autoencoder Embeddings"译为"自编码器嵌入" - "Stability-Aware Clustering"译为"稳定性感知聚类" - "RNA-seq"保持专业缩写形式 2. 学术句式重构：将原文介词结构"via..."转化为中文典型的"基于...的..."学术表达范式 3. 概念完整性：完整保留"稀有基因组亚型发现"这一核心研究目标，准确传达从RNA-seq数据中识别罕见基因组亚型的技术路径 4. 领域适配性：采用生物信息学领域标准术语，确保在基因组学与计算生物学交叉领域的专业认可度 | Alaa Mezghiche | PDF | 对高维RNA-seq数据进行无监督学习能够发现超越标准标签的分子亚型。我们结合基于自编码器的表征学习与聚类及稳定性分析，以探寻罕见但可复现的基因组亚型。在UCI“基因表达癌症RNA-Seq”数据集（801个样本，20,531个基因；涵盖BRCA、COAD、KIRC、LUAD、PRAD）上的泛癌分析显示，聚类结果与组织来源高度一致（克莱姆V值=0.887），这为实验提供了阴性对照。因此我们聚焦KIRC数据集（n=146）重构问题：筛选前2,000个高变异基因并进行标准化处理，训练前馈自编码器（128维潜在空间），对k=2-10运行k均值聚类。虽然全局指标倾向于较小k值，但通过预设发现规则（罕见类<10%且经匈牙利算法对齐后，在20次随机种子中雅卡尔指数>=0.60保持稳定）扫描k值，最终获得k=5的简洁解（轮廓系数=0.129，DBI=2.045），其中罕见聚类C0（占患者6.85%）具有高度稳定性（雅卡尔指数=0.787）。通过簇间差异表达分析（Welch t检验，Benjamini-Hochberg错误发现率校正）确定了一致性标志物。总体而言，泛癌聚类主要受组织来源主导，而采用具备稳定性感知的癌种内分析方法则可揭示罕见的、可复现的KIRC亚型。 | | TiViBench：视频生成模型中的思维视频推理基准测试

该翻译要点解析： 1. 保留专业术语"Benchmarking"译为"基准测试"，符合计算机领域规范 2. "Think-in-Video Reasoning"采用意译"思维视频推理"，准确传达视频内容逻辑推理的技术内涵 3. 保持英文专有名词"TiViBench"原貌不翻译 4. 通过添加"中的"明确基准测试的应用范围 5. 整体采用"平台名称：功能说明"的标准学术翻译格式 6. 术语统一："Video Generative Models"规范译为"视频生成模型" | Harold Haodong Chen | PDF | 视频生成模型的快速发展已使其重点从生成视觉可信的输出，转向解决需要物理合理性与逻辑一致性的任务。然而，尽管近期出现了如Veo 3的帧序列推理等突破性进展，这些模型是否能展现类似大语言模型（LLMs）的推理能力仍不明确。现有基准主要评估视觉保真度与时间连贯性，未能捕捉高阶推理能力。为填补这一空白，我们提出TiViBench——一个专门用于评估图像到视频（I2V）生成模型推理能力的分层基准。该基准系统性地从四个维度评估推理能力：i) 结构推理与搜索，ii) 空间与视觉模式推理，iii) 符号与逻辑推理，iv) 行动规划与任务执行，涵盖3个难度级别下的24种任务场景。通过大规模评估，我们发现商业模型（如Sora 2、Veo 3.1）展现出更强的推理潜力，而开源模型受限于训练规模与数据多样性，其潜力尚未完全释放。为挖掘这一潜力，我们受偏好优化启发提出VideoTPO——一种简单有效的测试时策略。通过对生成候选结果进行LLM自分析以识别优劣，VideoTPO无需额外训练、数据或奖励模型即可显著提升推理性能。TiViBench与VideoTPO共同为视频生成模型的推理能力评估与提升开辟了新路径，为这一新兴领域的未来研究奠定基础。 | | 通用基础模型在临床应用方面尚不足以满足医院运营需求 | Lavender Y. Jiang | PDF | 医院与医疗系统的运行依赖于决定患者流、成本及护理质量的操作决策。尽管通用文本训练的基础模型在医学知识和对话基准测试中表现优异，但它们可能缺乏此类操作决策所需的专业知识。我们推出Lang1模型系列（参数量1亿至70亿），其预训练使用的专业语料融合了来自NYU Langone Health电子健康记录的800亿临床标记和来自互联网的6270亿标记。为在真实场景中严格评估Lang1，我们开发了现实医疗评估基准（ReMedE），该基准源自668,331份电子健康记录，评估五大关键任务：30天再入院预测、30天死亡率预测、住院时长、共病编码及保险拒赔预测。在零样本设定下，通用模型与专业模型在五项任务中有四项表现不佳（AUROC值36.6%-71.7%），仅死亡率预测例外。经过微调后，Lang1-1B模型的表现优于参数量达其70倍的微调通用模型，以及参数量达其671倍的零样本模型，AUROC指标分别提升3.64%-6.75%和1.66%-23.66%。我们还观察到跨任务扩展效应——对多任务联合微调可提升其他任务表现。Lang1-1B能有效迁移至分布外场景，包括其他临床任务和外部医疗系统。研究结果表明：医院运营的预测能力需要显式监督微调，而基于电子健康记录的领域内预训练可提升微调效率。我们的发现支持新兴观点——专业大语言模型能在特定任务中与通用模型竞争，并证明构建高效医疗系统人工智能需要融合领域内预训练、监督微调及超越代理基准的真实场景评估。 |