跳转至

2025-12-07 每日论文

来源 独立页面
arXiv arXiv
bioRxiv bioRxiv
medRxiv medRxiv

arXiv

标题 作者 PDF链接 摘要
通用权重子空间假说 Prakhar Kaushik PDF 我们的研究表明,经过多样化任务训练的深度神经网络展现出高度相似的低维参数子空间。我们首次通过大规模实证证据证明:无论初始化方式、任务类型或领域如何,神经网络都会系统性地收敛到共享的谱子空间。通过对超过1100个模型进行模态谱分析——包括500个Mistral-7B LoRA模型、500个视觉Transformer模型以及50个LLaMA-8B模型——我们发现仅需少数主方向构成的通用子空间即可捕捉大部分方差。通过对不同架构在广泛任务和数据集上训练得到的权重矩阵应用谱分解技术,我们识别出稀疏的联合子空间,这些子空间在不同任务和数据集间的共享架构中被持续利用。

我们的发现为深度网络内部信息的内在组织机制提供了新见解,并引发重要思考:是否可能无需大量数据和计算资源即可发现这些通用子空间?此外,这种固有结构对模型复用性、多任务学习、模型融合以及训练与推理高效算法的开发具有重要影响,有望降低大规模神经模型的碳足迹。 | | 光-X:具备相机与光照控制的生成式4D视频渲染技术 | Tianqi Liu | PDF | 光照控制领域的最新进展已将基于图像的方法扩展至视频处理,但仍面临光照保真度与时间一致性的权衡问题。要实现真实场景的生成式建模,仅改变光照远远不够,关键在于联合控制相机轨迹与光照条件,因为视觉动态本质上由几何结构与光照共同塑造。为此,我们提出Light-X视频生成框架,能够通过单目视频实现视角与光照的双重可控渲染。1)我们提出解耦式设计架构:通过沿用户定义相机轨迹投影的动态点云捕捉几何结构与运动信息,同时将经过重照明的帧序列持续投影至同一几何空间以提供光照线索。这种显式细粒度线索设计实现了有效解耦,并引导高质量光照生成。2)针对多视角-多光照配对视频数据稀缺的问题,我们开发了Light-Syn合成流程:通过逆向映射的退化处理方法,从真实单目视频素材中合成训练数据对。该策略构建的数据集涵盖静态场景、动态场景及AI生成场景,确保模型训练的鲁棒性。大量实验表明,Light-X在相机-光照联合控制方面优于基线方法,在文本条件与背景条件设置下均超越现有视频重照明方法。 | | 流形匹配对齐中的价值梯度引导 | Zhen Liu | PDF | 尽管已有方法可用于将流匹配模型——一类流行且高效的生成模型——与人类偏好对齐,但现有方法难以同时实现适应效率与概率意义上可靠的先验保持。本研究基于最优控制理论,提出VGG-Flow——一种基于梯度匹配的预训练流匹配模型微调方法。该算法的核心思想在于:微调后的速度场与预训练速度场之间的最优差异应当与价值函数的梯度场相匹配。此方法不仅整合了奖励模型的一阶信息,还通过价值函数的启发式初始化实现快速适应。实验表明,在主流文本到图像流匹配模型Stable Diffusion 3上,本方法能在有限计算资源下完成流匹配模型的微调,同时实现高效且保持先验的对齐效果。 | | 基于多对比度磁共振成像的婴儿大脑深层分割 | Malte Hoffmann | PDF | 磁共振图像(MRI)分割通过勾画解剖结构,有助于分析人类大脑发育。然而,由于婴幼儿大脑处于发育阶段且成像条件受限,精确分割面临挑战。儿科脑部MRI数据 notoriously 难以获取,存在成像模态可用性不一致、视野内非头部解剖结构干扰显著以及频繁出现运动伪影等问题。这导致现有专用分割模型往往仅适用于特定图像类型或狭窄年龄段,或对临床采集的变异性较大的图像表现脆弱。为此,我们提出BabySeg深度学习框架来解决这种分割方法碎片化问题,该框架支持多种MRI扫描协议,包括重复扫描及训练阶段未见的图像类型。我们的方法基于最新领域随机化技术,通过合成远超真实边界的训练图像以提升模型对数据集偏移的鲁棒性。同时,我们设计了一种机制,使模型能够灵活聚合并交互处理任意数量输入扫描的特征。实验表明,该单一模型在不同年龄段和输入配置下均达到或超越多种现有方法的精度,且运行时间仅为现有工具的几分之一,实现了最先进的性能表现。 | | 斯普兰尼金:利用双重检测喷洒技术冻结单目人体模型挑战视频 | Hao-Jen Chien | PDF | 从单目人体模型挑战(MC)视频中合成高保真度的冻结3D场景,是一个与标准动态场景重建截然不同的独特问题。我们的目标并非专注于运动建模,而是创建冻结场景的同时,策略性地保留细微动态以实现用户可控的瞬时选择。为实现这一目标,我们创新性地应用了动态高斯泼溅技术:通过动态建模场景以保留邻近时间的变化,再通过固定模型时间参数渲染静态场景。然而,在这种应用模式下,单目捕捉与稀疏时间监督会导致高斯元素在弱监督时间戳下因未被观测或被遮挡而产生重影、模糊等伪影。

我们提出Splannequin方法——一种与架构无关的正则化方案,通过检测高斯基元的两种状态(隐藏态与缺陷态)并实施时间锚定机制。在相机主要前向运动条件下,隐藏态会锚定至近期被充分观测的历史状态,而缺陷态则锚定至具有更强监督信息的未来状态。该方法通过简单的损失函数即可融入现有动态高斯流程,无需改变系统架构,且不增加任何推理开销。实验证明,该方法显著提升了视觉质量,实现了高保真度、用户可选的冻结时刻渲染效果,并获得96%的用户偏好验证。项目页面:https://chien90190.github.io/splannequin/ | | DraCo:以草稿作为思维链,实现文本到图像的预览与罕见概念生成 | Dongzhi Jiang | PDF | 近期统一的多模态大语言模型(MLLMs)展现出令人瞩目的能力,通过整合思维链(CoT)推理机制显著提升了文本到图像的生成效果。然而现有方法仍存在局限:要么仅将模型视为独立生成器,要么依赖抽象的文本规划。为此,我们提出草稿式思维链(DraCo)——一种创新的交错推理范式,充分利用思维链中的文本与视觉内容进行更优的规划与验证。该方法首先生成低分辨率草稿图像作为预览,提供更具体、结构化的视觉规划指引;随后利用模型固有的理解能力,验证草稿与输入提示间潜在的语义偏差,并通过超分辨率选择性修正进行精细化调整。这一方案解决了两个根本性挑战:文本规划的粗粒度特性,以及罕见属性组合的生成难题。为支持训练,我们构建了包含24万样本的DraCo-240K数据集,旨在提升通用修正、实例操控和布局重组三大基础能力。配合专为交错推理设计的无分类器引导策略DraCo-CFG,本方法在GenEval(+8%)、Imagine-Bench(+0.91)和GenEval++(+3%)等基准测试中取得显著提升,其性能远超直接生成及其他基于思维链的生成方法。 | | ARM-Thinker:通过智能工具运用与视觉推理强化多模态生成奖励模型 | Shengyuan Ding | PDF | 奖励模型对于使视觉-语言系统与人类偏好对齐至关重要,然而现有方法存在幻觉问题、视觉基础薄弱且无法利用工具进行验证,限制了其在复杂多模态推理任务中的可靠性。我们提出ARM-Thinker——一种能自主调用外部工具(如图像裁剪、文档页面检索)的智能体化多模态奖励模型,通过可验证证据支撑判断,取代静态、非交互式的奖励评分机制。该模型能够验证细粒度视觉细节、交叉引用多页面证据并检验推理主张,这些能力是现有奖励模型所缺失的。我们采用多阶段强化学习训练ARM-Thinker,联合优化工具调用决策与判断准确性。为评估智能体化奖励建模,我们构建了ARMBench-VL评测体系,包含三个基准测试:细粒度视觉基础(图像级工具)、多页面文档理解(检索工具)和指令遵循(文本级验证)。ARM-Thinker在奖励建模基准上实现平均16.2%的性能提升,在工具使用任务中提升9.6%,并在多模态数学与逻辑推理基准上超越基线模型。实验结果表明,智能体能力显著提升了奖励模型的准确性与可解释性。 | | 阴影绘制:从任意物体到阴影绘画的构图艺术 | Rundong Luo | PDF | 我们提出ShadowDraw框架,该框架能将普通三维物体转化为阴影绘画的构图艺术。给定一个三维物体,我们的系统可预测包括物体姿态与光照在内的场景参数,同时生成局部线稿,使得投影阴影能够补全线稿形成可识别的图像。为此,我们通过优化场景配置来呈现具有意义的阴影,利用阴影笔触引导线稿生成,并采用自动评估机制确保阴影与线稿的协调性及视觉质量。实验表明,ShadowDraw能够对多样化输入——从真实世界扫描数据、精选数据集到生成式资产——产生引人入胜的结果,并可自然扩展到多物体场景、动画及实体部署。本工作为创作阴影绘画艺术提供了实用流程,拓展了计算视觉艺术的设计空间,在算法设计与艺术叙事之间架起了桥梁。欢迎访问我们的项目页面https://red-fairy.github.io/ShadowDraw/查看更多成果及端到端的真实场景演示! | | 语义软引导:无需强化学习实现大语言模型的长上下文推理 | Purbesh Mitra | PDF | 大型语言模型(LLM)中的长上下文推理通过思维链(CoT)推断机制,显著增强了模型的认知能力。在数学、编程等基于推理的问题中,这类模型通常采用带可验证奖励的强化学习(RLVR)进行训练。然而,RLVR存在若干瓶颈,例如奖励信号稀疏、样本效率不足等,导致其在后训练阶段需要消耗大量计算资源。

为突破这些限制,本研究提出语义软自举(SSB)——一种自蒸馏技术。该技术使同一基础语言模型同时扮演教师与学生的角色,但在训练阶段接收关于其输出结果正确性的不同语义上下文。具体流程为:首先向模型输入数学问题并生成多次推理轨迹,从中筛选出正确答案与最常见错误答案,随后将这些信息作为上下文再次输入模型,使其生成具有验证最终答案的、更稳健的逐步推理过程。该流程能够从原始问题-答案数据中自动构建配对的师生训练集,无需任何人工干预。此生成过程同时产生对数概率序列,学生模型在训练阶段仅基于原始问题即可学习匹配该序列。

实验中,我们通过参数高效微调方法在GSM8K数据集上训练Qwen2.5-3B-Instruct模型,并在MATH500和AIME2024基准测试中评估其准确性。实验结果表明:相较于常用的RLVR算法——群体相对策略优化(GRPO),本方法在两项测试中的准确率分别提升10.6%和10%。相关代码已开源:https://github.com/purbeshmitra/semantic-soft-bootstrapping,模型及构建的数据集发布于:https://huggingface.co/purbeshmitra/semantic-soft-bootstrapping。 | | 神经重制:面向结构对齐生成的相位保持扩散模型 | Yu Zeng | PDF | 标准扩散过程使用高斯噪声对数据进行破坏,其傅里叶系数具有随机幅值和随机相位。虽然这种方法在无条件生成或文本到图像生成中表现有效,但破坏相位分量会摧毁空间结构,因此不适用于需要几何一致性的任务,如重渲染、仿真增强和图像到图像转换。我们提出相位保持扩散(φ-PD),这是一种与模型无关的扩散过程重构方法,它在随机化幅值的同时保留输入相位,从而在不改变架构或增加参数的情况下实现结构对齐的生成。我们进一步提出频率选择性结构化(FSS)噪声,通过单一频率截止参数实现对结构刚度的连续控制。φ-PD 不会增加推理时间成本,且兼容任何适用于图像或视频的扩散模型。在照片级真实感与风格化重渲染、以及驾驶规划器的仿真到现实增强任务中,φ-PD 均能产生可控且空间对齐的结果。当应用于 CARLA 仿真器时,φ-PD 将 CARLA 到 Waymo 规划器的性能提升了 50%。该方法与现有条件控制技术互补,可广泛应用于图像到图像及视频到视频生成。视频、补充示例和代码已发布于我们的\href{https://yuzeng-at-tri.github.io/ppd-page/}{项目页面}。 |

bioRxiv

标题 作者 PDF链接 摘要
线粒体功能的发育编程限制了短寿命动物的寿命 Castejon-Vega, B. PDF
拓扑学识别并发循环过程与雄激素受体功能 Maggs, K. PDF
迈向精确、无参考的差异表达:长读长从头转录组组装的全面评估 Yan, F. PDF
检索练习通过恢复快速记忆再激活,有效防止压力导致的推理能力受损。 Guo, J. PDF
TREK1上调是延缓阿尔茨海默病认知功能衰退的内源性机制。 Mitra, T. PDF
质粒拷贝数影响CfrBI限制修饰系统的DNA甲基化驱动表达动态,并影响噬菌体限制 Gibhardt, J. PDF
小胶质细胞与星形胶质细胞的相互作用导致小鼠皮层中水通道蛋白4的失调 Wang, Y. PDF
将消退训练与迷走神经刺激(VNS)相结合,通过改变内侧前额叶皮层传入神经的活动,可降低药物寻求行为。 Driskill, C. PDF
利用基因组尺度分析揭示微生物、代谢物与膳食化合物之间的相互作用 Wang, T. PDF
BrainBridge 揭示影响阿尔茨海默病及相关表型的关键因素 Liu, T. PDF

medRxiv

标题 作者 PDF链接 摘要
PDF
PDF
PDF
PDF
PDF
PDF
PDF
PDF
PDF
PDF