arxiv 2025-09-23

标题	作者	PDF链接	摘要
预处理变形网格	Julian Kaltheuner	PDF	从点云序列动态重建物体表面是计算机图形学中一个具有挑战性的研究领域。现有方法要么需要多重正则化约束，要么依赖大量训练数据，但这往往导致重建精度受损、产生过度平滑现象，或对未见过的物体形态及运动泛化能力不足。为解决这些局限性，我们提出了预条件变形网格技术——一种直接从非结构化点云序列估计连贯变形场的新方法，无需建立或依赖显式对应关系。该方法的核心在于采用多分辨率体素网格捕捉不同空间尺度的整体运动，从而实现更灵活的变形表征。通过将基于网格的索博列夫预条件技术融入梯度优化过程，我们证明仅需在输入点云与动态演化的模板网格之间应用倒角距离损失即可获得精确变形。为确保物体表面随时间演化的连贯性，我们在网格边缘引入弱等距损失作为主目标的补充，这一设计既保障了变形保真度又避免过度约束。大量实验表明，相较于现有先进技术，本方法能够获得更优的重建效果，尤其在长序列场景中表现突出。
Seg4Diff：揭示文本到图像扩散变换器中开放词汇分割能力	Chaehyun Kim	PDF	文生图扩散模型通过跨模态注意力机制隐式锚定文本概念，在将语言提示转化为逼真图像方面表现卓越。近期出现的多模态扩散变换器进一步扩展了这一能力，通过对拼接的图像与文本标记实施联合自注意力机制，实现了更丰富且可扩展的跨模态对齐。然而，关于这些注意力图如何及在何处影响图像生成的深入理解仍显不足。本文提出Seg4Diff（面向扩散模型的分割分析框架），这一系统化框架专注于分析MM-DiT的注意力结构，重点探究特定层级如何将语义信息从文本传播至图像。通过全面分析，我们识别出语义锚定专家层——即能够持续将文本标记与空间连贯图像区域对齐的特定MM-DiT模块，该模块可自然生成高质量语义分割掩码。我们进一步证明，采用带有掩码标注图像数据的轻量化微调方案，能够增强这些层级的语义分组能力，从而提升分割性能与生成图像保真度。本研究揭示语义分组是扩散变换器的涌现特性，可通过选择性强化来协同推进分割与生成性能，为构建连接视觉感知与生成的统一模型开辟了新路径。
MetaEmbed：通过灵活延迟交互在测试时扩展多模态检索	Zilin Xiao	PDF	通用多模态嵌入模型在捕捉查询项与候选项之间的语义关联方面已取得显著成功。然而，现有方法要么将查询项和候选项压缩为单一向量（可能限制细粒度信息的表达能力），要么生成过多向量导致多向量检索成本过高。本研究提出MetaEmbed——一种重构多模态嵌入构建与大规模交互机制的新型检索框架。训练过程中，我们在输入序列末端添加固定数量的可学习元令牌；测试阶段则将其最后一层的上下文表征作为紧凑而富有表现力的多向量嵌入。通过提出的套娃式多向量检索训练机制，MetaEmbed能够按信息粒度将知识组织到多个向量中。由此实现多模态检索的测试阶段可扩展性：用户可通过选择用于索引和检索交互的令牌数量，灵活平衡检索质量与效率需求。在大规模多模态嵌入基准（MMEB）和视觉文档检索基准（ViDoRe）上的广泛实验表明，MetaEmbed在实现最先进检索性能的同时，能稳健扩展至320亿参数模型。
UniPixel：面向像素级视觉推理的统一目标指代与分割	Ye Liu	PDF	近年来，大型多模态模型（LMMs）的研究进展显著，已成功发展为通用多模态助手，其核心能力集中于整体性的图像-语言及视频-语言理解。然而，针对细粒度像素级理解能力的扩展研究却相对匮乏——这类研究要求模型实现视觉信号与语言语义在像素层面的精准对齐。先前虽有研究将LMMs应用于区域描述和指代表达分割等相关任务，但这些模型仅能独立完成指代或分割任务，未能将细粒度感知能力整合到视觉推理中。为弥补这一不足，我们提出UniPixel模型，该大型多模态模型能够灵活理解视觉提示输入并生成基于掩码的响应。本模型的创新性在于无缝融合了像素级感知与通用视觉理解能力：UniPixel既可处理视觉提示并按需生成相关掩码，又能在推理过程中基于这些中间指针进行条件化推理，从而实现细粒度像素级推理。我们在涵盖像素级指代/分割、图像/视频中以物体为中心的理解等10个多样化任务的基准测试中验证了方法的有效性，并专门设计了需要联合完成指代、分割和问答的新颖PixelQA任务以验证方法的灵活性。
SEQR：基于二维码的安全高效LoRA路由方案	William Fleshman	PDF	低秩自适应（LoRA）已成为大语言模型参数高效微调的标准技术，催生了面向特定任务或领域的大型LoRA库。如何为给定输入高效选择正确的LoRA适配器仍是待解难题，尤其在需保障安全性的环境中，路由器的监督式训练可能引发隐私隐忧。基于既有研究思路，我们通过激活范数最大化理论框架，将无监督LoRA路由目标形式化，系统论证了激活范数的判别能力。在此基础上提出SEQR算法——一种以效率最大化为核心、具备严格路由保障的无监督LoRA路由方案。该算法可证明性地以显著更高效率识别范数最大化适配器，为动态LoRA组合提供高度可扩展的解决方案。实验验证表明，该方法在提升多任务性能与效率方面具有显著优势。
ComposeMe：基于属性特定图像提示的可控人体图像生成技术

（解析：该翻译采用学术论文标题的常见结构，通过冒号分隔主副标题。核心术语处理如下： 1. "Attribute-Specific"译为"属性特定"保持专业准确性 2. "Image Prompts"译为"图像提示"符合计算机视觉领域术语惯例 3. "Controllable Human Image Generation"采用倒装结构译为"可控人体图像生成"，既保留"可控"的技术特性说明，又符合中文表达习惯 4. 主标题"ComposeMe"采用音意结合译法，既保留品牌识别度又体现"组合生成"的技术内涵） | Guocheng Gordon Qian | PDF | 在个性化文本到图像生成领域，如何实现对人体发型、服装等细粒度属性的高保真图像生成仍是核心挑战。现有方法虽注重参考图像的身份特征保持，但缺乏模块化设计，无法实现对特定视觉属性的解耦控制。我们提出了一种新型属性特异性图像提示范式：通过使用不同参考图像集分别指导人体外观各要素（如发型、服装和身份特征）的生成。该方法将输入信息编码为属性专属标记，并注入预训练的文本到图像扩散模型，从而实现对多重视觉要素的组合式解耦控制——即使是单张图像中的多人物场景亦能适用。

为促进自然组合与强健解耦，我们构建了包含多姿态多表情主体的交叉参考训练数据集，并提出多属性交叉参考训练策略。该策略引导模型在身份特征与文本条件双重约束下，即使面对未对齐的属性输入也能生成忠实输出。大量实验表明，我们的方法在视觉提示与文本提示的精准跟随方面达到业界最优水平。该框架通过视觉提示与文本驱动生成的结合，为可配置化人体图像合成开辟了新路径。项目主页详见：https://snap-research.github.io/composeme/。 | | OnePiece：将上下文工程与推理引入工业级级联排序系统 | Sunhao Dai | PDF | Despite the growing interest in replicating the scaled success of large language models (LLMs) in in [翻译失败] | | GeoSVR：利用稀疏体素实现几何精确的表面重建 | Jiahe Li | PDF | 近年来，基于辐射场的精确表面重建技术取得了显著进展。然而，主流方法主要基于高斯泼溅技术，其表现能力日益受到表征瓶颈的制约。本文提出GeoSVR——一种基于显式体素的创新框架，通过深入探索稀疏体素尚未被充分发掘的潜力，实现精确、细致且完整的表面重建。稀疏体素的优势在于能够保持场景覆盖的完整性和几何清晰度，但同时也因缺乏场景约束和表面优化中的局部性问题而面临挑战。为确保场景的正确收敛，我们首先提出体素不确定性深度约束法，在最大化单目深度线索效用的同时引入面向体素的不确定性度量以避免质量退化，从而实现高效稳健的场景约束并保持高精度几何特征。随后设计的稀疏体素表面正则化方法，可增强微型体素的几何一致性，促进基于体素的锐利精确表面形成。大量实验表明，在多种挑战性场景下，我们的方法在几何精度、细节保留和重建完整性方面均优于现有技术，同时保持高效计算性能。代码已开源：https://github.com/Fictionarry/GeoSVR。 | | 面向演化多智能体系统的战略协调：一种分层强化与集体学习方法

（注：该翻译采用学术论文标题的经典结构，通过冒号分隔主副标题。"Strategic Coordination"译为"战略协调"以体现系统层面的决策规划；"Evolving"译为"演化"准确传达系统动态演进特性；"Hierarchical Reinforcement"采用学界通用译法"分层强化"，与"集体学习"形成并列的技术路径表述，符合控制领域学术翻译规范。） | Chuhao Qin | PDF | 演化多智能体系统中的去中心化组合优化面临重大挑战，这要求智能体在突发变化下既能平衡长期决策与短期优化的集体结果，同时保持交互智能体的自主性。强化学习通过动态规划对序列决策进行建模，为预测未来环境变化提供了途径。然而，由于联合状态-动作空间的指数级增长、高昂的通信开销以及集中式训练中的隐私问题，将多智能体强化学习应用于去中心化组合优化问题仍是开放难题。为突破这些局限，本文提出分层强化与集体学习新方法，基于分层框架同时融合多智能体强化学习与去中心化集体学习。智能体通过高层策略运用多智能体强化学习对可行方案进行分组以压缩动作空间，并通过行为约束实现帕累托最优；而底层集体学习层则以最小通信成本确保智能体间高效、去中心化的协同决策。在合成场景与真实智能城市应用模型中的大量实验表明，相较于独立的多智能体强化学习与集体学习方法，该方法在能源自管理和无人机群感知等场景中显著提升了性能、可扩展性与适应性，实现了共赢的融合解决方案。 | | Spiffy：基于无损推测解码的扩散大语言模型加速倍数提升 | Sudhanshu Agrawal | PDF | Diffusion LLMs (dLLMs) have recently emerged as a powerful alternative to autoregressive LLMs (AR-LL [翻译失败] |