2025-10-09 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
时序提示至关重要：重新审视参考视频目标分割研究

（注：该翻译在保持学术严谨性的同时兼顾中文表达习惯： 1. "Temporal Prompting"译为"时序提示"符合计算机视觉领域术语规范 2. "Matters"意译为"至关重要"增强学术表述力度 3. "Rethinking"采用"重新审视"既保留批判性思考内涵，又符合中文学术表达 4. 整体采用四字格标题结构，符合中文学术论文标题美学特征） | Ci-Siang Lin | PDF | 参考视频目标分割（RVOS）旨在根据查询语句对视频中指定的目标进行分割。现有方法大多需要基于密集掩码标注进行端到端训练，存在计算成本高、可扩展性不足的问题。本文重新审视RVOS任务，致力于探索该任务的核心关键。基于现有基础分割模型，我们将RVOS任务解构为参考表达、视频时序和分割三个维度，提出时序提示生成与选择框架（Tenet）处理参考表达和视频时序因素，而将分割任务交由基础模型完成。为高效适配基于图像的基础分割模型至视频目标分割任务，我们利用现成的目标检测与跟踪器生成与参考语句关联的时序提示。虽然可生成高质量时序提示，但其难以通过置信度分数直接判别优劣。为此，我们提出提示偏好学习机制来评估时序提示的质量。通过将此类提示输入基于图像的基础分割模型，能够为指定目标生成高质量掩码，实现模型向参考视频目标分割任务的高效适配。在RVOS基准测试上的实验验证了Tenet框架的有效性。 | | 用于高效长上下文建模的人工海马体网络 | Yunhao Fang | PDF | 长序列建模面临一个根本性权衡：类RNN模型中固定大小压缩内存的高效性与基于注意力机制的Transformer无损增长内存的精确性。受认知科学中多存储模型的启发，我们提出了人工神经网络的内存框架。该方法将Transformer的KV缓存滑动窗口作为无损短期记忆，同时通过可学习的"人工海马网络"（AHN）将窗口外信息递归压缩为固定尺寸的紧凑长期记忆。为验证该框架，我们采用现代类RNN架构（包括Mamba2、DeltaNet和门控DeltaNet）实例化AHN模块。在长上下文基准测试LV-Eval和InfiniteBench上的大量实验表明，增强AHN的模型始终优于滑动窗口基线，达到与全注意力模型相当甚至更优的性能，同时显著降低计算和内存需求。例如，为Qwen2.5-3B-Instruct集成AHN后，推理FLOPs降低40.5%，内存缓存减少74.0%，同时在LV-Eval（128k序列长度）上的平均得分从4.41提升至5.88。代码已开源：https://github.com/ByteDance-Seed/AHN。 | | 量子增强计算机视觉：突破经典算法局限 | Natacha Kuete Meli | PDF | 量子增强计算机视觉（QeCV）是计算机视觉、优化理论、机器学习与量子计算交叉融合的新兴研究领域。该领域通过利用经典（即非量子）计算机无法实现的量子力学效应进行计算，在视觉信号处理与解析方面具有革命性潜力。当现有非量子方法无法在合理时间内求解或仅能获得近似解时，量子计算机可为多类问题提供更优的时间可扩展性优势。从长远来看，参数化量子电路有望成为计算机视觉中经典神经网络的重要替代方案。然而，必须开发专门且具有根本创新性的算法，才能实现与量子硬件的兼容，并释放量子计算范式在计算机视觉领域的潜力。

本综述通过对该研究领域进行系统性评述，为现有QeCV文献体系作出贡献。作为面向计算机视觉学界的量子计算参考指南，本书主要服务于具有相关背景的计算机视觉专业学生、科研人员及希望深入了解QeCV的读者。我们基于门基量子计算与量子退火两大核心量子计算范式，全面阐释QeCV的基本原理、特性、量子硬件兼容的构建方法及QeCV技术体系。详细论述了量子计算机的运行机制，以及在QeCV背景下访问、编程和模拟量子计算机的可用工具。最后，我们评估了现有量子计算工具与学习资源，并就QeCV论文的发表与评审规范、开放挑战及潜在社会影响展开讨论。 | | 基于语义提示扩散变换器的像素级精确深度估计

（该翻译在保持专业术语准确性的基础上，采用"语义提示"对应"Semantics-Prompted"，"扩散变换器"对应"Diffusion Transformers"，并通过"像素级精确"准确传达"Pixel-Perfect"的技术内涵，同时符合中文计算机视觉领域的学术表达规范。） | Gangwei Xu | PDF | 本文提出像素级精度深度模型（Pixel-Perfect Depth），这是一种基于像素空间扩散生成的单目深度估计模型，能够从估计的深度图中生成高质量、无悬浮像素的点云。当前基于生成式方法的深度估计模型通过对Stable Diffusion进行微调已取得显著成果，但这些模型需要借助变分自编码器将深度图压缩至潜在空间，这会在边缘和细节区域不可避免地引入“悬浮像素”问题。我们的模型通过直接在像素空间执行扩散生成，有效规避了由变分自编码器引发的伪影问题。为应对像素空间生成的高计算复杂度，我们引入两项创新设计：1）语义提示扩散变换器（SP-DiT），通过将视觉基础模型提取的语义表征融入扩散变换器，在保持全局语义一致性的同时增强细粒度视觉细节；2）级联扩散变换器架构，通过逐步增加令牌数量进一步提升效率与精度。在五项基准测试中，我们的模型在所有已公开的生成式方法中取得最优性能，并在边缘感知点云评估中显著超越所有对比模型。 | | 氛围检验器：使代码评估与人类偏好保持一致

（注：该翻译在保持专业性的同时实现了三个关键点： 1. "Vibe Checker"译为"氛围检验器"既保留原词动态评估的特质，又符合中文技术术语习惯 2. "Aligning"译为"对齐"是机器学习领域的标准译法 3. "Human Preference"译为"人类偏好"准确传达人机交互中的主观选择倾向） | Ming Zhong | PDF | 大型语言模型（LLMs）催生了氛围编程范式，用户通过自然语言交互驱动LLM生成代码并持续迭代优化，直至通过其“氛围检验”。这种检验标准植根于现实人类偏好，其维度超越功能实现：解决方案需符合直觉感知、具备可读性、忠实反映原始意图并保持正确性。然而现有代码评估体系仍固守pass@k指标，仅捕捉功能正确性，忽视了用户日常使用的非功能性需求。本文提出假设：在功能正确性之外，指令遵循能力正是构成氛围检验中人类偏好的核心要素。为通过可量化信号衡量模型的代码指令遵循能力，我们推出VeriCode——包含30类可验证代码指令的分类体系及配套确定性验证器。基于该体系对现有测试集的增强构建出Vibe Checker评估平台，可同步检测指令遵循度与功能正确性。通过对31个主流LLM的评估发现：即使最强模型在遵循复合指令时仍表现挣扎，并呈现明显的功能回归现象。最关键的是，功能正确性与指令遵循度的复合评分与人类偏好相关性最高，且后者在真实编程任务中成为主要区分指标。本研究揭示了氛围检验的核心要素，为建立更贴合用户编程偏好的模型基准与发展路径提供了具体方案。 | | GyroSwin：陀螺动力学等离子体湍流模拟的五维代理模型

（注：翻译说明： 1. GyroSwin作为专有名词保留原文形式 2. "5D Surrogates" 译为"五维代理模型"，其中： - 5D明确译为"五维"以保持物理维度准确性 - Surrogates在计算物理语境下规范译为"代理模型" 3. "Gyrokinetic Plasma Turbulence Simulations" 采用等离子体物理领域标准译法"陀螺动力学等离子体湍流模拟" 4. 整体采用学术文献标题的简洁表述方式，通过冒号分隔主副标题） | Fabian Paischer | PDF | 核聚变在寻求可靠且可持续的能源生产中具有关键作用。实现可行聚变能的主要障碍在于理解等离子体湍流——这种湍流会显著削弱等离子体约束性能，而对下一代反应堆设计至关重要。等离子体湍流受非线性回旋动理学方程支配，该方程描述了5维分布函数随时间演化。由于计算成本高昂，实践中常采用降阶模型来近似能量湍流输运，但这些模型会忽略完整5维动力学特有的非线性效应。为此，我们提出首个可扩展的5维神经代理模型GyroSwin，能够模拟5维非线性回旋动理学仿真，从而捕捉降阶模型忽略的物理现象，同时提供湍流热输运的精确估计。GyroSwin具有三大创新：(i) 将分层视觉Transformer扩展至5维空间；(ii) 引入交叉注意力与积分模块，实现静电势场与分布函数之间的潜在3D$\leftrightarrow$5D交互；(iii) 受非线性物理启发实施通道模态分离。我们证明，GyroSwin在热通量预测上优于广泛使用的降阶数值方法，能捕捉湍流能量串级过程，在保持物理可验证性的同时将全分辨率非线性回旋动理学的计算成本降低三个数量级。该模型展现出优异的扩展规律（经测试最高支持十亿级参数），为构建可扩展的等离子体湍流回旋动理学仿真神经代理模型开辟了新路径。 | | 腕部世界：通过4D世界模型生成机器人操作所需的腕部视角

（注：译文采用"腕部世界"对应"WristWorld"，既保留原名称特征又体现其功能属性；"4D世界模型"直译确保专业术语准确性；"生成腕部视角"准确传达"Generating Wrist-Views"的技术动作，并通过增译"机器人操作所需的"明确应用场景，使中文表述更符合学术翻译规范。） | Zezhong Qian | PDF | 腕部视角观测对VLA模型至关重要，因其能捕捉细粒度的手物交互关系，直接提升操作性能。然而大规模数据集鲜少包含此类记录，导致丰富的主视角与稀缺的腕部视角间存在显著断层。现有世界模型因需依赖腕部视角首帧，仅凭主视角无法生成腕部视角视频，故难以弥合此鸿沟。值此困局之际，VGGT等视觉几何模型凭借几何先验与跨视角先验崭露头角，为应对极端视角变换提供了可能。受此启发，我们提出首个四维世界模型WristWorld，仅通过主视角即可生成腕部视角视频。该模型分两阶段运行：（一）重建阶段扩展VGGT框架，融入我们提出的空间投影一致性损失函数，估算几何一致的腕部视角位姿与四维点云；（二）生成阶段采用视频生成模型，从重建视角合成时序连贯的腕部视角视频。在Droid、Calvin和Franka Panda数据集上的实验表明，本方法实现了空间一致性卓越的顶尖视频生成效果，同时将VLA模型在Calvin数据集上的平均任务完成长度提升3.81%，成功弥合42.4%的主视角-腕部视角差距。 | | h1: 通过强化学习引导大语言模型实现长程推理 | Sumeet Ramesh Motwani | PDF | 大型语言模型在短程推理任务中表现卓越，但随着推理跨度的增加，其性能会出现下降。现有解决方案主要依赖推理时支架或昂贵的步骤级监督，这两种方法均难以扩展。本研究提出一种可扩展的方法，仅利用现有丰富的短程数据即可引导长程推理能力。我们的方法通过合成将简单问题组合成具有任意长度的复杂多步依赖链，并基于仅结果奖励机制在自动提升复杂度的课程体系下训练模型，使强化学习训练能够突破饱和限制实现更大规模扩展。实验表明该方法具有显著泛化能力：基于六年级数学题（GSM8K）构建的课程训练，可将竞赛级长跨度基准测试（GSM-Symbolic、MATH-500、AIME）的准确率最高提升2.06倍。值得注意的是，即使在较高pass@k指标下，我们的长程改进效果仍显著优于基线，证明模型能在强化学习中习得新的推理路径。理论分析表明，基于结果奖励的课程式强化学习相比全跨度训练实现了样本复杂度的指数级改进，其训练信号强度可与密集监督相媲美。因此，本研究为仅利用现有数据扩展长程问题强化学习训练提供了一条高效路径。 | | 矩阵：面向交互感知视频生成的掩码轨迹对齐技术

（解析：1. "MATRIX"采用意译"矩阵"，既保留专业术语特征又体现算法框架的集成性；2. "Mask Track Alignment"译为"掩码轨迹对齐"，其中"掩码"对应计算机视觉中的mask概念，"轨迹"准确表达物体运动轨迹的跟踪含义；3. "Interaction-aware"译为"交互感知"，符合人机交互领域的术语规范；4. "Video Generation"统一译为"视频生成"，与视频处理领域术语体系保持一致。整体翻译在保持专业性的同时，通过"面向...技术"的句式完整呈现原文的技术路径逻辑。） | Siyoon Jin | PDF | 尽管视频扩散变换器已推动视频生成技术发展，但其在多实例或主客体交互建模方面仍存在局限。这引出一个核心问题：此类模型内部如何表征交互关系？为探究此问题，我们构建了MATRIX-11K数据集，该视频数据集包含交互感知描述文本与多实例掩码轨迹。基于此数据集，我们通过系统化分析构建了视频扩散变换器的双重视角解析框架：基于视频-文本注意力的语义定位（评估名词与动词词元是否捕获实例及其关联），以及基于视频-视频注意力的语义传播（检验实例绑定是否在帧间持续存在）。研究发现这两种效应集中显现在少数交互主导层中。基于此发现，我们提出MATRIX正则化方法，通过将视频扩散变换器特定层的注意力与MATRIX-11K数据集中的多实例掩码轨迹对齐，有效增强语义定位与传播能力。我们进一步提出面向交互感知视频生成的评估框架InterGenEval。实验表明，MATRIX在提升交互保真度与语义对齐度的同时，有效减少了漂移与幻象现象。大量消融实验验证了方案设计的合理性。相关代码与权重参数将公开释放。 | | 贝恩咨询模式与麦肯锡咨询模式对比：面向商业领域的新型文本到SQL基准测试

（注：采用"模式"对应"Agent"以体现商业咨询领域的专业特性，通过"对比"准确传达"vs."的学术比较含义，同时采用"文本到SQL"这一标准技术术语保持专业准确性，并使用"基准测试"对应"Benchmark"符合计算机学科规范） | Yue Li | PDF | 在商业领域中，数据驱动决策至关重要，文本到SQL技术为实现自然语言便捷访问结构化数据提供了基础支撑。尽管当前大语言模型在代码生成方面表现卓越，现有文本到SQL基准测试仍聚焦于历史记录的事实性检索。我们推出专为真实商业场景设计的CORGI新型基准测试，其合成数据库灵感源自Doordash、Airbnb和Lululemon等企业案例。该基准涵盖描述性、解释性、预测性及建议性四大递进式复杂程度的商业查询类型，要求系统具备因果推理、时序预测与战略推荐能力，体现了多层次、多步骤的智能体认知维度。研究发现，大语言模型在高层级问题上的表现显著下滑，难以做出精准预测及提供可执行方案。基于执行成功率评估，CORGI基准相较BIRD基准难度提升约21%，这揭示了主流大语言模型与实际商业智能需求之间的能力鸿沟。我们同步开放了公共数据集、评估框架及在线提交平台。 |

bioRxiv

标题	作者	PDF链接
鉴定GTF2IRD1为急性髓系白血病必需的新型转录因子	Heshmati, Y.	PDF
mosna揭示了不同类型的细胞相互作用，可预测癌症免疫疗法的疗效及患者生存状况。	Coullomb, A.	PDF
从单细胞解剖重建库中提取近似连接组的方法	Manjunatha, K. K. H.	PDF
视觉工作记忆中空间特异性干扰偏向的神经基础	Raya, D. V.	PDF
空间靶向抑制节律对神经元整合产生差异性影响	Headley, D.	PDF
通过饮水给予MDA建立可纵向追踪的胆汁淤积性肝损伤小鼠模型

medRxiv

标题	作者	PDF链接	摘要
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF