2025-10-10 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
ReSplat：学习循环高斯溅射模型

（注：该翻译采用学术术语直译原则： 1. 保留技术名词"Gaussian Splats"的标准译法"高斯溅射" 2. "Recurrent"译为"循环"以体现时序递归特性 3. 冒号后采用动宾结构"学习..."符合中文论文标题规范 4. 整体保持原标题的"方法名称+技术描述"学术标题结构） | Haofei Xu | PDF | 虽然前馈式高斯溅射模型具有计算效率高、能有效处理稀疏输入场景的优点，但其性能从根本上受限于推理过程中对单次前向传播的依赖。我们提出ReSplat——一种前馈循环式高斯溅射模型，该模型无需显式计算梯度即可迭代优化三维高斯分布。我们的核心发现是：高斯溅射的渲染误差可作为丰富的反馈信号，指导循环网络学习有效的高斯更新策略。这种反馈信号在测试时能自然适应未知数据分布，从而实现鲁棒泛化。为初始化循环过程，我们引入了一个在16倍降采样空间中运行的紧凑重建模型，其生成的高斯分布数量较先前逐像素高斯模型减少16倍。这显著降低了计算开销，并支持高效的高斯更新。通过在多种输入视角（2/8/16）、分辨率（256×256至540×960）和数据集（DL3DV、RealEstate10K）上的大量实验证明，我们的方法在显著减少高斯分布数量并提升渲染速度的同时，实现了最先进的性能。项目页面详见：https://haofeixu.github.io/resplat/。 | | BLAZER：基于零样本数据生成的LLM操控智能体自举框架

（注：采用学术翻译策略： 1. 保留核心缩写"BLAZER"与"LLM"（大语言模型） 2. "Bootstrapping"译为"自举"符合计算机领域术语规范 3. "Zero-Shot"保持"零样本"标准译法 4. 通过增译"框架"明确系统属性，符合中文论文标题表达习惯 5. 使用"操控智能体"准确对应"Manipulation Agents"的技术内涵） | Rocktim Jyoti Das | PDF | 数据与模型规模的扩展在计算机视觉和自然语言领域取得显著进展的过程中发挥了关键作用。受这些领域启发，机器人学近期研究同样聚焦于扩展数据与模型规模，以开发更具泛化性和鲁棒性的策略。然而与视觉和语言领域不同，机器人学缺乏跨任务与环境的互联网级示范数据资源。这导致现有数据集规模受限于人工数据采集与整理的瓶颈。为解决该问题，本文提出BLAZER框架——一种通过自动生成训练数据来学习操作策略的方法。我们基于大语言模型规划器的零样本能力，在仿真环境中自动生成多样化操作任务的示范数据。随后利用成功案例对大语言模型进行微调，在无需人工监督的情况下提升其规划能力。值得注意的是，虽然BLAZER训练需要访问仿真器状态，我们验证了其能直接将习得技能迁移至基于传感器的实际操作。通过大量实验证明，BLAZER能显著提升仿真与真实环境中的零样本操作性能。此外，该框架对训练集外任务表现出改进能力，并支持大语言模型的轻量化部署。相关代码与数据将在项目页面公开发布。 | | 结合卷积与点云架构重建局部密度场 | Baptiste Barthe-Gold | PDF | 我们构建了一个神经网络，用于根据暗物质晕的视向本动速度——即暗物质场的偏置示踪体——对局部暗物质密度场进行回归分析。该网络架构融合了卷积U-Net与点云DeepSets，这种组合能够有效利用小尺度信息，相较于单一U-Net方法显著提升了重建质量。具体而言，我们的混合网络在小尺度上对聚类振幅和相位的还原能力均优于单一U-Net模型。 | | 谁说神经网络不是线性的？ | Nimrod Berman | PDF | 神经网络以非线性特性著称。然而线性性是相对于一对向量空间$f$$:$$X$$\to$$Y$定义的。是否存在这样一对非标准向量空间，使得传统非线性函数在该空间中呈现线性特性？本文提出一种通过构造显式构建此类向量空间的方法。研究发现，若将线性算子$A$嵌入两个可逆神经网络之间，即$f(x)=g_y^{-1}(A g_x(x))$，则相应的向量空间$X$和$Y$可由$g_x$和$g_y$导出的新定义向量加法与数乘运算所诱导。我们将此类架构命名为线性化器。该框架使得包括奇异值分解、伪逆、正交投影等在内的线性代数全系工具可应用于非线性映射。进一步地，我们证明共享神经网络的两个线性化器的复合仍构成线性化器。利用这一特性，我们演示了采用该架构训练扩散模型可使数百步采样过程坍缩为单步采样。我们还运用该框架在网络中实现幂等性约束（即$f(f(x))=f(x)$），构建出全局投影生成模型，并展示了模块化风格迁移的应用。 | | 自动驾驶的可扩展离线评估指标

（注：该翻译在保持专业性的基础上实现了三个技术要点： 1. "Scalable"译为"可扩展"准确体现系统容量弹性 2. "Offline Metrics"译为"离线评估指标"完整包含"评估"这一隐含语义 3. 采用倒装结构突出"自动驾驶"这一核心领域，符合中文技术文献标题规范） | Animikh Aich | PDF | 对机器人系统（如自动驾驶车辆）基于感知的规划模型进行现实世界评估时，可通过离线方式安全且低成本地实施——即利用带有真实标注的预收集验证数据集计算模型预测误差。然而，如何将离线模型性能外推至在线场景仍存在挑战。在这些场景中，看似微小的误差可能不断累积，最终导致测试阶段的违规行为或碰撞事故。这种关联性研究尚不充分，特别是在多样化闭环指标与复杂城市机动场景中。本研究通过跨条件、跨指标的广泛实验，重新审视了这一被低估的策略评估问题。基于仿真分析，我们发现离线与在线场景间的相关性比既往研究报道的更差，这对当前驾驶策略评估方法及指标的有效性提出了质疑。随后我们致力于弥合离线与在线评估的差距：研究提出基于认知不确定度的离线指标，旨在捕捉闭环场景中可能引发误差的事件。相较于既有离线指标，新指标使相关性提升超13%。我们进一步在真实场景中验证了研究结论在仿真环境之外的泛化能力，结果显示其具有更显著的提升效果。 | | NovaFlow：基于生成视频中可执行动作流的零样本操控技术

（解析：1. "Zero-Shot Manipulation"译为"零样本操控"符合机器学习领域术语规范；2. "Actionable Flow"译为"可执行动作流"既保留"动作流"的计算机视觉概念，又通过"可执行"体现其可操作性；3. 采用"基于...技术"的句式完整呈现技术路径，符合中文论文标题表述习惯；4. 保留首字母大写的"NovaFlow"作为专有技术名称） | Hongyu Li | PDF | 实现机器人零样本执行新型操作任务是机器人技术的核心目标。现有方法大多假设任务分布内已知，或依赖与具身系统匹配的数据进行微调，这限制了跨平台迁移能力。我们提出NovaFlow自主操作框架，无需任何演示即可将任务描述转化为目标机器人的可执行计划。该框架通过视频生成模型将任务描述合成为视频，并利用现成的感知模块将其提炼为三维可操作物体流。针对刚性物体，从物体流中计算相对位姿，通过抓取提案和轨迹优化将其转化为机器人动作；对于可变形物体，该流动轨迹则作为基于粒子动力学模型的规划跟踪目标。通过将任务理解与底层控制解耦，NovaFlow天然支持跨具身系统迁移。我们使用桌面级Franka机械臂和Spot四足移动机器人，在刚性、关节式和可变形物体操作任务上进行验证，在无需演示或特定具身训练的情况下实现了有效的零样本执行。项目网站：https://novaflow.lhy.xyz/ | | ArenaBencher：基于多模型竞争性评估的自动化基准演进系统

（注：翻译采用"术语直译+功能阐释"的复合译法： 1. ArenaBencher保留原文核心构词法，直译为"竞技场测试器"并音意结合为"ArenaBencher" 2. Automatic Benchmark Evolution准确传递"自动基准演进"的技术内涵 3. 通过增译"系统"明确工具属性，采用"基于..."句式完整呈现多模型竞争评估的方法论特征） | Qin Liu | PDF | 基准测试是衡量大语言模型能力与指导模型开发的核心手段，然而预训练语料中普遍存在的数据泄露问题严重削弱了其有效性。模型可能通过匹配记忆内容而非展现真正的泛化能力，导致分数虚高、跨模型比较失真以及进展评估失准。我们推出ArenaBencher——一个模型无关的自动基准演进框架，该框架能在保持可比性的同时动态更新测试用例。给定现有基准和待评估的多样化模型池，ArenaBencher能够推断每个测试案例的核心能力要求，生成保持原始测评目标的候选问答对，使用大语言模型作为评判者验证答案正确性与意图一致性，并聚合多模型反馈以筛选能暴露共性弱点的候选案例。该框架通过上下文示例进行迭代优化，引导生成更具挑战性和诊断力的测试案例。我们将ArenaBencher应用于数学解题、常识推理和安全领域，证明其能生成经过验证的、多样化的公平更新：这些更新既能揭示新型失效模式，在保持测试目标一致性的同时提升难度，又能增强模型区分度。该框架为基准测试伴随基础模型的快速演进提供了可扩展的持续进化路径。 | | 矩阵：面向鲁棒工具使用推理的多模态智能体调优 | Tajamul Ashraf | PDF | 视觉语言模型（VLMs）正越来越多地被部署为可调用外部工具的控制器，用于复杂推理与决策任务。然而，高质量多模态轨迹数据的稀缺性及人工标注的高成本，仍制约着其效能提升。为此，我们提出一种以视觉为中心的智能体调优框架，通过自动合成多模态轨迹、生成分步偏好对，训练出具备鲁棒工具使用推理能力的VLM控制器。我们的技术路径首先构建了M-TRACE数据集——包含28.5万个多模态任务与17.7万条已验证轨迹的大规模数据集，为实现基于模仿学习的轨迹调优奠定基础。在此基础上，我们开发了MATRIX智能体控制器，通过对M-TRACE进行微调实现分步工具推理。为进一步提升对齐精度，我们推出Pref-X数据集——包含1.1万个自动生成的偏好对，并通过分步偏好学习对MATRIX进行优化。在Agent-X、GTA和GAIA三大基准测试中，MATRIX均持续超越开源与闭源VLM模型，展现出可扩展且高效的多模态工具使用能力。项目数据与代码已发布于：https://github.com/mbzuai-oryx/MATRIX | | D$^2$GS：基于深度与密度引导的高斯泼溅算法——实现稳定精确的稀疏视角重建

（注：译文通过以下方式实现专业性与可读性平衡： 1. 保留核心算法简称"D$^2$GS"的数学上标格式 2. "Gaussian Splatting"采用计算机图形学领域通用译法"高斯泼溅" 3. "Depth-and-Density Guided"译为"深度与密度引导"以保持技术参数特性 4. 副标题采用破折号结构突出方法优势，其中"稀疏视角重建"准确对应"sparse-view reconstruction"这一三维重建领域术语 5. "稳定精确"双形容词并列准确传达"stable and accurate"的并列关系） | Meixi Song | PDF | 三维高斯泼溅（3DGS）技术的最新进展实现了基于显式三维表征的实时高保真新视角合成。然而在稀疏视角条件下，该技术仍存在性能下降与不稳定的显著问题。本研究系统分析了稀疏视角下的两种关键失效模式：相机近场区域因高斯分布过密导致的过拟合现象，以及远场区域因高斯覆盖不足产生的欠拟合问题。针对这些挑战，我们提出统一框架D²GS，其包含两大核心组件：基于深度与密度引导的丢弃策略——通过密度和深度自适应掩蔽冗余高斯点以抑制过拟合；距离感知保真度增强模块——通过针对性监督提升欠拟合远场区域的重建质量。此外，我们提出了新的评估指标以量化学习所得高斯分布的稳定性，为稀疏视角3DGS的鲁棒性研究提供新视角。在多数据集上的大量实验表明，本方法在稀疏视角条件下显著提升了视觉质量与系统鲁棒性。项目页面详见：https://insta360-research-team.github.io/DDGS-website/ | | 如何教授大型多模态模型新技能 | Zhen Zhu | PDF | 如何在不消除已有能力的前提下，让大型多模态模型（LMMs）学习新技能？我们通过在三个模型系列上对五项目标技能进行连续微调，同时监测八个保留基准测试的通用能力展开研究。研究发现：针对性微调后在保留任务中表现出的明显"遗忘"现象，在后续阶段可能部分恢复。我们将这种行为归因于输出词元分布的可测量偏移，并通过与遗忘程度同步变化的计数偏差探针实验得以验证。基于此发现，我们提出了两种简单且稳健的调优方案：（i）仅更新自注意力投射层；（ii）仅更新MLP门控与上行投射层，同时冻结下行投射层。跨模型与任务的实验表明，这些方法在实现显著目标增益的同时，能最大限度保持保留任务的性能。代码已开源：https://github.com/jessemelpolio/LMM_CL |

bioRxiv

标题	作者	PDF链接	摘要
基于辐射杂合细胞与CRISPRi技术构建的互补人类基因互作图谱	Smith, D. J.	PDF
FOXA1/SPDEF协同调控轴驱动ERBB2表达并抑制TEAD/YAP驱动的上皮间质转化以维持HER2阳性乳腺癌管腔表型

解析： 1. "A FOXA1/SPDEF Co-regulatory Axis" 译为"FOXA1/SPDEF协同调控轴"，准确体现转录因子共调控机制 2. "Drives ERBB2" 译为"驱动ERBB2表达"，补充"表达"使语义完整 3. "Suppresses TEAD/YAP-Driven EMT" 译为"抑制TEAD/YAP驱动的上皮间质转化"，专业保留EMT标准术语 4. "Maintain Luminal Identity" 译为"维持管腔表型"，符合乳腺癌分子分型命名规范 5. "HER2+ Breast Cancer" 译为"HER2阳性乳腺癌"，采用临床常用表述方式

该标题聚焦于探讨如何通过声学参数组合实现伪词（无实际词义的语音单位）与多重意义范畴的映射关系，采用表征相似性分析（RSA）与机器学习模型两种方法论展开研究。具体涵盖以下三个研究维度：

声学参数系统构建
提取伪词的多维度声学特征（如基频轨迹、共振峰结构、时序动态等）
通过主成分分析构建参数优化组合
建立声学特征与语义空间的对应关系
跨模态映射机制
采用表征相似性分析验证声学模式与语义范畴的对应关系
构建声学-语义映射的认知计算模型
通过跨模态匹配实验验证映射有效性
机器学习建模验证
训练神经网络模型学习声学-语义映射规律
比较不同模型架构的映射性能（如CNN、RNN、Transformer）
通过模型解码分析关键声学特征维度

该研究通过计算建模与实验验证相结合的方法，揭示声学特征组合如何系统性地承载多维度语义信息，为理解语音-语义接口的认知机制提供新证据。 | Kumar, G. V. | PDF | |

medRxiv

标题	作者	PDF链接	摘要
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF