跳转至

arxiv 2025-08-21

标题 作者 PDF链接 摘要
量化技术遇上扩散大语言模型:扩散大语言模型训练后量化方法的系统性研究

(注:dLLMs为Diffusion Large Language Models的缩写,在学术语境中首次出现时保留英文缩写并标注全称,后续可直接使用"扩散大语言模型"表述。译文采用学术论文标题常见的冒号分隔结构,准确传达原文的研究范畴与方法论特征。) | Haokun Lin | PDF | 扩散大语言模型(dLLMs)的最新进展为自然语言生成任务提供了一种替代自回归(AR)大语言模型的有前景方案,其采用全注意力机制和基于去噪的解码策略。然而,由于这些模型参数量庞大且资源需求高,其在边缘设备上的部署仍面临挑战。虽然训练后量化(PTQ)已成为压缩AR大语言模型的常用技术,但该方法在dLLMs中的应用尚未得到充分探索。本研究首次对基于扩散的语言模型量化进行系统性研究。我们首先发现激活异常值的存在——其特征是异常大的激活值主导动态范围。这些异常值对低位量化构成关键挑战,因为它们难以保留大多数数值的精度。更重要的是,我们实施了最先进的PTQ方法,并在多任务类型和模型变体上展开全面评估。我们的分析围绕四个关键维度展开:比特宽度、量化方法、任务类别和模型类型。通过这种多视角评估,我们为不同配置下dLLMs的量化行为提供了实践性见解。希望本研究能为未来高效部署dLLMs的研究奠定基础。所有代码和实验设置将公开发布以支持学界研究。 | | 虚拟社区:人类、机器人与社会共融的开放世界 | Qinhong Zhou | PDF | 人工智能与机器人技术的飞速发展正引发深刻的社会变革——当人类与机器人在共享社区中开始共存,这将同时带来机遇与挑战。为探索这一未来图景,我们推出"虚拟社区"平台:一个基于通用物理引擎、扎根真实世界三维场景的开放世界平台,旨在研究人类、机器人与社会三者的交互关系。通过该平台,我们致力于大规模研究具身社会智能:1) 机器人如何实现智能协作与竞争;2) 人类如何发展社会关系并构建社区;3) 更重要的是,智能机器人与人类如何在开放世界中和谐共存。

为支撑这些研究,虚拟社区具备两大核心特性:1) 开源多智能体物理模拟器,支持机器人、人类及其在社会环境中的交互;2) 与真实世界对齐的大规模社区生成管道,包含广阔户外空间、多样化室内场景,以及具有丰富个性与外观的具身智能体群体。

基于此平台,我们提出两项创新挑战任务。"社区规划挑战"评估开放世界环境中的多智能体推理与规划能力,例如通过协作帮助智能体完成日常活动、建立高效社会连接等;"社区机器人挑战"要求异构机器人群体通过协作解决复杂开放世界任务。我们在这些任务上评估了多种基线方法,揭示了高层开放世界任务规划与底层协作控制的双重挑战。我们期待虚拟社区能推动开放世界人机共存研究的突破性进展。 | | 瞬拍-瞬拍:毫秒级双图像重建三维人体高斯模型

(注:翻译说明: 1. "Snap-Snap"采用"瞬拍-瞬拍"的译法,既保留原词重复结构,又体现快速拍摄特性 2. "Taking Two Images"准确译为"双图像",符合计算机视觉领域术语规范 3. "Reconstruct 3D Human Gaussians"译为"重建三维人体高斯模型",完整保留专业术语 4. "in Milliseconds"采用"毫秒级"的译法,既符合中文表达习惯,又准确传达技术指标 5. 整体采用破折号连接主副标题,符合中文科技文献标题规范) | Jia Lu | PDF | 从稀疏视图重建三维人体一直是一个引人关注的研究方向,这对拓展相关应用领域具有重要意义。本文提出了一项极具挑战性但价值显著的任务:仅通过正背面两张图像实现人体重建,这将大幅降低用户创建个性化三维数字人的技术门槛。该任务的核心挑战在于如何建立三维一致性并从高度稀疏的输入中恢复缺失信息。我们基于基础重建模型重新设计了几何重建模块,即使输入图像重叠区域极少,仍能通过海量人体数据训练预测出具有一致性的点云。进一步采用增强算法补充缺失的色彩信息,最终获得带色彩的完整人体点云,并将其直接转换为三维高斯模型以提升渲染质量。实验表明,我们的方法在单张NVIDIA RTX 4090显卡上仅需190毫秒即可完成全身重建(输入为1024x1024分辨率双视图图像),在THuman2.0及跨域数据集上均达到最先进性能。值得注意的是,本方法即使采用低成本移动设备采集的图像也能完成重建,显著降低了数据采集的要求。演示视频和代码详见https://hustvl.github.io/Snap-Snap/。 | | 高斯艺术:面向关节化物体的几何与运动统一建模

(注:翻译采用学术论文标题的规范表达: 1. 保留核心术语"Gaussian"直译为"高斯","Articulated Objects"专业译为"关节化物体" 2. "Unified Modeling"译为"统一建模"体现学术规范性 3. 使用冒号分隔主副标题,符合中文论文标题格式 4. "Geometry and Motion"采用"几何与运动"的标准学术对应译法 5. 整体保持简洁准确,避免添加原文没有的修饰词) | Licheng Shen | PDF | 重建铰接物体对于构建交互式环境的数字孪生至关重要。然而,现有方法通常通过先重建不同状态下的物体形状,再通过事后对齐估计运动参数来实现几何与运动的解耦。这种分离方式使重建流程复杂化,并限制了可扩展性,尤其对具有复杂多部件铰接结构的物体。我们提出了一种统一表征方法,利用铰接式三维高斯函数联合建模几何与运动。该公式提升了运动分解的鲁棒性,支持多达20个部件的铰接物体重建,显著优于先前方法——后者因脆弱的初始化机制通常在处理超过2-3个部件时就会出现困难。为系统评估可扩展性与泛化能力,我们提出MPArt-90新基准测试集,包含20个类别共90个铰接物体,每个物体均具有不同的部件数量和运动配置。大量实验表明,我们的方法在各类物体的部件级几何重建和运动估计中始终保持着卓越的准确性。我们进一步验证了该方法在机器人仿真和人场景交互建模等下游任务中的适用性,彰显了统一铰接表征在可扩展物理建模中的潜力。 | | MS-CLR:基于多骨架对比学习的人体动作识别方法

(注:MS-CLR为方法名称,保留原文缩写;Multi-Skeleton Contrastive Learning直译为"多骨架对比学习",是计算机视觉领域针对骨骼关键点数据提出的自监督学习范式;Human Action Recognition是计算机视觉领域的专业术语,标准译法为"人体动作识别") | Mert Kiray | PDF | 对比学习在基于骨架的动作识别领域备受关注,因其能够从未标注数据中学习鲁棒表征。然而,现有方法依赖单一骨架规范,限制了其在具有不同关节结构和解剖学覆盖范围的数据集间的泛化能力。我们提出多骨架对比学习(MS-CLR),这是一种通用的自监督框架,能够对齐从同一序列中提取的不同骨架规范下的姿态表征。该方法促使模型学习结构不变性并捕获多样化的解剖学特征,从而获得更具表现力和泛化能力的特征。为此,我们改进ST-GCN架构,通过统一表征方案处理具有不同关节布局和尺度的骨架。在NTU RGB+D 60和120数据集上的实验表明,MS-CLR相较于强力的单骨架对比学习基线方法持续提升性能。多骨架集成策略进一步提升了性能,在两个数据集上均创造了新的最先进记录。 | | 基于价值的深度强化学习的计算最优缩放 | Preston Fu | PDF | 随着模型规模扩大及训练成本增加,如何扩展训练方案不仅涉及更大模型和更多数据,更需以计算最优化的方式实现单位计算资源的性能最大化,这一需求变得日益重要。虽然语言建模领域的计算扩展已得到充分研究,但强化学习(RL)在此方面的关注相对不足。本文针对基于价值的在线深度强化学习开展计算扩展研究。这类方法存在两个核心计算分配维度:模型容量和更新数据比(UTD)。在固定计算预算下,我们探讨:应如何在这两个维度间分配资源以实现样本效率最大化?我们的分析揭示了模型规模、批处理大小与UTD比值之间复杂的相互作用。特别地,我们发现了一种称为"时序差分过拟合"(TD-overfitting)的现象:对于小规模模型,增大批处理量会快速降低Q函数精度,但该现象在大规模模型中并不存在,这使得大规模批处理的有效应用成为可能。我们提出了理解该现象的概念模型,并建立了选择批处理大小与UTD比值以优化计算资源使用的指导原则。本研究为深度强化学习中的计算最优化扩展提供了实证基础,既借鉴了监督学习的研究范式,又针对时序差分学习特性进行了适应性调整。 | | MedReseacher-R1:基于知识引导轨迹合成框架的专家级医学深度研究系统

(注:采用学术翻译的常见处理方式: 1. 保留核心代号"R1"保持技术指代准确性 2. "Knowledge-Informed"译为"知识引导"既保持专业性与"knowledge-based"(基于知识)形成区分 3. "Trajectory Synthesis"译为"轨迹合成"符合计算机辅助研究领域的术语惯例 4. 添加"系统"二字符合中文科技文献对研究框架的命名习惯,使名称完整达意) | Ailing Yu | PDF | 基于大语言模型(LLM)的智能体研究近期取得突破性进展,其在多领域展现出卓越能力,尤以深度研究系统在复杂信息检索与综合任务中的优异表现为典型例证。尽管通用型深度研究智能体已显示出强大潜力,但面对医学领域挑战时仍存在显著局限——主流专有系统在复杂医学基准测试中准确率有限即是明证。其核心缺陷在于:(1)模型缺乏足够的密集医学知识以支撑临床推理;(2)框架受限于缺乏专为医疗场景定制的检索工具。

我们提出一种医学深度研究智能体,通过两项核心创新应对这些挑战:首先,基于医学知识图谱构建新型数据合成框架,通过从罕见医学实体周边子图中提取最长链,生成复杂的多跳问答对;其次,在通用工具基础上集成定制开发的私有医学检索引擎,实现精准的医学信息综合。该方法在12个医学专科领域生成2,100余条多样化轨迹,平均每条轨迹涉及4.2次工具交互。

通过结合监督微调与复合奖励在线强化学习的两阶段训练范式,我们的MedResearcher-R1-32B模型展现出卓越性能:不仅在医学基准测试中创下最新技术纪录,同时保持通用深度研究任务的竞争力。本研究证明,通过在架构设计、工具开发和训练数据构建方面实施战略性领域创新,较小规模的开源模型能够在专业领域超越参数量庞大的专有系统。 | | MeshCoder:基于大语言模型的点云结构化网格代码生成系统

(注:该翻译严格遵循以下技术要点: 1. 保留专业术语"Mesh/网格"和"Point Clouds/点云"的标准译法 2. 准确传达"LLM-Powered/基于大语言模型"的技术实现方式 3. 采用"结构化网格代码生成"精确对应"Structured Mesh Code Generation"的技术内涵 4. 保持学术文献标题的简洁性和专业性 5. 通过冒号分隔主副标题,符合中文科技文献标题规范) | Bingquan Dai | PDF | 将三维物体重建为可编辑程序对于逆向工程和形状编辑等应用至关重要。然而,现有方法通常依赖于有限的领域特定语言(DSL)和小规模数据集,限制了其建模复杂几何结构与拓扑关系的能力。为应对这些挑战,我们提出MeshCoder——一个可将点云数据重建为可编辑Blender Python脚本的创新框架。我们开发了一套具有强表达能力的Blender Python API集合,能够合成复杂几何形体。基于这些API,我们构建了大规模物体-代码配对数据集,其中每个物体的代码被解构为具有明确语义的组成部分。随后,我们训练了一个多模态大语言模型(LLM),能够将三维点云转换为可执行的Blender Python脚本。我们的方法不仅在形状到代码的重建任务中表现出卓越性能,还能通过便捷的代码修改实现直观的几何与拓扑编辑。此外,基于代码的表示方式增强了大语言模型在三维形状理解任务中的推理能力。这些创新共同使MeshCoder成为程序化三维形状重建与理解的强大而灵活的解决方案。 | | 基于大规模临床影像的人工智能研究:对照组与2型糖尿病患者的全生命周期胰腺形态学分析 | Lucas W. Remedios | PDF | Purpose: Understanding how the pancreas changes is critical for detecting deviations in type 2 diabe [翻译失败] | | 压缩扩散模型

(注:该翻译严格遵循学术术语规范,采用"压缩"对应"Squeezed"的数学物理概念内涵,"扩散模型"作为"Diffusion Models"的标准化译名,完整保留原术语的技术语义。) | Jyotirmai Singh | PDF | 扩散模型通常注入各向同性高斯噪声,忽略了数据结构特征。受量子压缩态根据海森堡不确定性原理重新分布不确定性的方式启发,我们提出了压缩扩散模型(SDM),该模型沿着训练数据分布的主成分方向进行各向异性噪声缩放。正如压缩技术在物理领域能提升信噪比那样,我们假设基于数据特性的噪声缩放能更好地辅助扩散模型学习重要数据特征。我们研究了两种配置:(i)海森堡扩散模型——在主轴上实施缩放补偿,同时在正交方向进行反向缩放;(ii)标准SDM变体——仅对主轴进行缩放。反直觉的是,在CIFAR-10/100和CelebA-64数据集上,轻度反压缩(即增大主轴方向方差)使FID指标持续提升达15%,并将精确率-召回率边界向更高召回率方向推移。我们的结果表明,无需改变模型架构,通过简单的数据感知型噪声整形即可实现稳健的生成性能提升。 |