arxiv 2025-08-27

标题	作者	PDF链接	摘要
VoxHammer：原生三维空间中免训练的精确连贯三维编辑技术

（注：翻译说明： 1. "Training-Free"译为"免训练的" - 准确体现无需额外训练的技术特性 2. "Precise and Coherent"译为"精确连贯的" - 同时保留精度要求和空间一致性双重含义 3. "Native 3D Space"译为"原生三维空间" - 强调直接在原始三维数据空间进行操作的技术特点 4. 整体采用"主标题+副标题"的学术翻译规范，符合中文科技文献命名习惯） | Lin Li | PDF | 对指定区域进行三维局部编辑在游戏产业和机器人交互领域至关重要。现有方法通常通过编辑渲染的多视角图像再进行三维重建，但难以精确保持未编辑区域的完整性与整体一致性。受结构化三维生成模型启发，我们提出VoxHammer——一种无需训练的新型方法，可在三维潜在空间中实现精确且连贯的编辑。给定三维模型后，VoxHammer首先预测其逆向轨迹，获取每步时间戳的反向潜在编码及键值令牌。在去噪编辑阶段，我们将保留区域的去噪特征替换为对应的反向潜在编码与缓存的键值令牌。通过保留这些上下文特征，该方法能确保保留区域的一致性重建与编辑部位的连贯融合。为评估保留区域一致性，我们构建了Edit3D-Bench人工标注数据集，包含数百个样本，每个样本均带有精细标注的三维编辑区域。实验表明，VoxHammer在保留区域的三维一致性与整体质量方面显著优于现有方法。本方法有望合成高质量的编辑配对数据，从而为上下文三维生成奠定数据基础。项目详情请访问：https://huanngzh.github.io/VoxHammer-Page/。 | | Style4D-Bench：四维风格化基准测试套件

（注：根据计算机图形学领域术语规范，"Benchmark Suite"译为"基准测试套件"，"4D Stylization"译为"四维风格化"，其中"4D"特指三维空间加时间维度的动态造型处理） | Beiqi Chen | PDF | We introduce Style4D-Bench, the first benchmark suite specifically designed for 4D stylization, with [翻译失败] | | Articulate3D：零样本文本驱动的三维物体位姿生成

（注：根据计算机视觉与图形学领域术语规范： 1. "Articulate3D" 保留原名不译，符合技术术语处理惯例 2. "Zero-Shot" 译为"零样本"，指无需特定训练即可处理新类别任务 3. "Text-Driven" 译为"文本驱动"，强调以自然语言描述作为控制信号 4. "3D Object Posing" 译为"三维物体位姿生成"，其中"位姿"特指物体在三维空间中的位置和姿态参数） | Oishi Deb | PDF | We propose a training-free method, Articulate3D, to pose a 3D asset through language control. Despit [翻译失败] | | 自回归通用视频分割模型

（翻译说明：该翻译严格遵循了学术术语规范，其中： 1. "Autoregressive"译为"自回归"，是统计学和机器学习领域的标准译法 2. "Universal"译为"通用"，准确表达模型的多场景适用特性 3. "Video Segmentation"译为"视频分割"，符合计算机视觉领域的专业术语 4. 整体语序调整符合中文学术表达习惯，同时完整保留了原术语的技术含义） | Miran Heo | PDF | 近期如SAM2等视频基础模型通过将掩码视为通用基元，在提示式视频分割方面表现卓越。然而，许多实际应用场景需要无提示分割——即在没有外部线索的情况下检测并追踪视频中的所有对象，这导致当前技术生态被割裂为多个特定任务模型与流程。我们将流式视频分割重新定义为序列掩码预测问题（类比于语言建模），并推出自回归通用分割模型（AUSM）。该单一架构统一了提示式与无提示式视频分割任务，基于最新状态空间模型构建，能够维持固定大小的空间状态，并可扩展至任意长度的视频流。此外，AUSM所有组件均支持跨帧并行训练，相比迭代式训练实现显著加速。在标准基准测试（DAVIS17、YouTube-VOS 2018 & 2019、MOSE、YouTube-VIS 2019 & 2021及OVIS）中，AUSM不仅优于现有通用流式视频分割方法，更在16帧序列训练中实现高达2.5倍的速度提升。 | | 自适应传输系统中的模型上下文协议：综述

（注：此处采用学术翻译的常见处理方式： 1. 保留核心术语"Model Context Protocols"的直译"模型上下文协议" 2. "Adaptive Transport Systems"译为专业领域常用表述"自适应传输系统" 3. "Survey"根据学术论文类型译为"综述"，符合中文学术文献命名惯例 4. 整体采用"领域+方法+文献类型"的标准学术标题结构，确保专业性与准确性） | Gaurab Chhetri | PDF | 互联设备、自主系统和人工智能应用的快速扩张导致自适应交通系统出现严重碎片化，不同协议与情境源仍处于相互隔离状态。本综述首次对模型情境协议（MCP）作为统一范式展开系统研究，重点阐释其连接协议层自适应与情境感知决策的能力。通过分析现有文献，我们发现既有研究已隐性地趋近类MCP架构，这标志着从碎片化解决方案向标准化集成框架的自然演进。我们提出包含自适应机制、情境感知框架、统一模型、集成策略及MCP赋能架构的五维分类体系。研究揭示三大核心发现：传统传输协议已达孤立自适应极限、MCP的客户端-服务器与JSON-RPC结构可实现语义互操作性、AI驱动的交通系统需要与MCP特性高度契合的集成范式。最后我们提出将MCP作为下一代自适应、情境感知智能交通基础设施基础的研究路线图。 | | MemoryVLA：面向机器人操作的视觉-语言-动作模型中的感知-认知记忆系统

（注：翻译严格遵循以下原则： 1. 保留核心术语"MemoryVLA"的英文缩写形式，符合学术惯例 2. "Perceptual-Cognitive Memory"采用连字符结构译为"感知-认知记忆"，准确传达复合概念 3. "Vision-Language-Action Models"专业译为"视觉-语言-动作模型"，保持领域术语一致性 4. 补充"系统"二字使机器人操作语境下的技术内涵更完整 5. 使用"面向"介词结构准确体现"for"的功能性指向） | Hao Shi | PDF | Temporal context is essential for robotic manipulation because such tasks are inherently non-Markovi [翻译失败] | | 实时运动学分析与碳纳米管生长形态估计的自动化特征追踪

（注：翻译严格遵循以下原则： 1. 专业术语准确对应："Automated Feature Tracking"译为"自动化特征追踪"，"Real-Time Kinematic Analysis"译为"实时运动学分析"，"Carbon Nanotube Growth"译为"碳纳米管生长" 2. 技术概念完整保留："Shape Estimation"译为"形态估计"符合材料科学领域表述 3. 语法结构优化调整：将英语名词短语转换为符合中文表达习惯的动宾结构 4. 学科语境适配：采用纳米技术领域标准术语体系，确保学术严谨性） | Kaveh Safavigerdini | PDF | 碳纳米管（CNT）是纳米技术领域的关键构筑单元，然而其动态生长特性的表征受限于扫描电子显微镜（SEM）成像在纳米级运动测量中存在的实验挑战。现有非原位方法仅能提供静态分析，而原位技术往往需要人工初始化且缺乏连续的单颗粒轨迹分解。本研究提出视觉特征追踪（VFTrack）——一种原位实时颗粒追踪框架，可自动检测并跟踪SEM图像序列中的单个CNT颗粒。该框架将手工设计特征或深度学习特征检测器与匹配器集成于颗粒追踪系统中，实现对CNT微柱生长的运动学分析。基于13,540条人工标注轨迹的系统性实验表明，ALIKED检测器与LightGlue匹配器构成最优组合（F1分数0.78，α分数0.89）。VFTrack将运动矢量分解为轴向生长、横向漂移和振荡分量，既可计算异质区域生长速率，又能重建动态演化的CNT柱状形态。此项研究推动了纳米材料自动化表征的发展，弥合了基于物理的模型与实验观测之间的鸿沟，为碳纳米管合成的实时优化提供了技术支撑。 | | StepWiser：基于逐步生成式评判的智慧推理系统

（注：翻译采用学术术语规范，保留核心技术特征："Stepwise"译为"逐步"体现递进判断逻辑，"Generative Judges"译为"生成式评判"准确反映算法生成评估的特性，"Wiser Reasoning"译为"智慧推理"既保留wisdom的哲学内涵又符合中文认知科学表述习惯。整体采用"系统"作为隐性后缀，符合中文技术命名惯例。） | Wei Xiong | PDF | 随着模型日益依赖多步推理策略解决复杂问题，监督这些中间步骤的逻辑有效性已成为关键研究挑战。过程奖励模型通过提供逐步反馈应对这一问题，但现有方法存在两大缺陷：通常作为缺乏解释能力的分类器运行，且依赖静态监督微调数据集限制了泛化能力。受最新研究进展启发，我们将逐步奖励建模从分类任务重新定义为推理任务本身。由此提出一种生成式评判器，能够对策略模型的推理步骤进行元推理，在输出最终判定前生成思维标记。我们通过强化学习使用推演结果的相对比较训练StepWise模型，实证表明其具备三大优势：（i）在中间步骤判断准确性上超越现有方法；（ii）可用于训练阶段改进策略模型；（iii）提升推理时搜索效率。 | | 预测后续标记的顺序可提升语言建模效果

（注：该翻译严格遵循学术翻译规范，采用"标记"对应"tokens"这一专业术语，保持"Language Modeling"作为专业概念的固定译法"语言建模"。动词"improves"译为"提升...效果"既准确传达原文的因果关系，又符合中文技术文献的表达习惯。现在分词结构"Predicting..."转换为中文主动语态，确保学术文本的严谨性与可读性。） | Zayd M. K. Zuhri | PDF | 多标记预测（MTP）曾被提出作为语言模型训练中的辅助目标来改进下一标记预测（NTP），但其改进效果不稳定，在标准自然语言处理基准测试中表现欠佳。我们认为MTP的精确未来标记预测作为辅助损失函数难度过高。为此，我们提出标记顺序预测（TOP），该方法通过排序学习损失来训练模型根据邻近度对即将出现的标记进行排序。与MTP需要多个Transformer层相比，TOP仅需增加单个解嵌入层。我们使用NTP、MTP和TOP目标对3.4亿、18亿和70亿参数的模型进行了预训练。在八个标准自然语言处理基准测试中，TOP整体表现优于NTP和MTP，且这种优势在不同规模模型中均得以保持。代码已开源：https://github.com/zaydzuhri/token-order-prediction

（注：严格遵循术语一致性原则，如"unembedding layer"统一译为"解嵌入层"；保持学术文本的客观性；准确转换英文长句为符合中文表达习惯的短句结构；专业表述如"learning-to-rank loss"规范译为"排序学习损失"） | | 语言模型的生成式界面

（注：此处采用"生成式界面"的译法，既保留了"Generative"的核心语义，又符合中文技术文献中"界面"作为"Interfaces"的标准译法。在专业语境中，"生成式"比直译"生成性"更符合中文表达习惯，能准确体现该类界面通过语言模型动态生成内容的核心特征。） | Jiaqi Chen | PDF | 大型语言模型（LLMs）正日益被视为助手、协作者和咨询顾问，能够通过自然对话支持广泛的任务。然而，大多数系统仍受限于线性的请求-响应模式，这往往导致在多轮对话、信息密集型及探索性任务中的交互效率低下。为突破这些限制，我们提出"语言模型生成式交互界面"新范式——通过主动生成用户界面（UIs）来响应用户查询，实现更具适应性和交互性的参与。该框架利用结构化的界面专用表征与迭代优化机制，将用户查询转化为面向特定任务的交互界面。我们建立了多维评估体系，通过不同任务、交互模式和查询类型的对比实验，系统比较生成式界面与传统聊天界面的性能差异，全面捕捉用户体验的功能性、交互性和情感性维度。实验结果表明，生成式界面始终优于对话式界面，人类用户在超过70%的场景中更倾向于选择前者。这些发现明确了用户偏好生成式界面的情境及原因，为人机交互领域的未来发展指明了方向。 |