arxiv 2025-07-03

标题	作者	PDF链接	摘要
AC-DiT：面向移动操作的自适应协调扩散变换器

翻译说明： 1. "Adaptive Coordination"译为"自适应协调"，准确传达了算法能够根据环境动态调整协调机制的核心特性 2. "Diffusion Transformer"采用学界通用译法"扩散变换器"，保留原始论文命名的技术路线特征 3. 增译"面向"二字明确技术应用场景，使"Mobile Manipulation（移动操作）"的指向性更清晰 4. 整体采用"技术名称：技术特性+应用领域"的学术命名规范，符合中文论文标题的表述习惯 5. 保留英文缩写"AC-DiT"的原始形式，便于学术检索和国际交流 | Sixiang Chen | PDF | 近年来，移动操作技术在实现家庭任务中语言条件化机器人控制方面日益受到关注。然而现有方法在协调移动平台与机械臂方面仍面临挑战，主要存在两大局限：一方面，这些方法未能显式建模移动平台对机械臂控制的影响，在高自由度场景下容易导致误差累积；另一方面，它们采用单一视觉观测模态（全2D或全3D）处理整个移动操作流程，忽视了不同阶段对多模态感知的差异化需求。为此，我们提出自适应协调扩散变换器（AC-DiT），通过两项创新实现端到端移动操作的平台-机械臂协同优化。

首先，针对移动平台运动直接影响机械臂动作的特性，我们设计移动-本体条件机制：指导模型先提取平台运动表征，再将其作为上下文先验预测全身动作。这种机制使整体控制能预判移动平台运动带来的潜在影响。其次，为满足移动操作各阶段的感知需求，我们提出感知敏感的多模态条件策略：动态调整2D视觉图像与3D点云间的融合权重，生成符合当前感知需求的视觉特征。例如当语义信息对动作预测至关重要时，模型会自适应侧重2D输入；而当需要精确空间理解时，则更关注3D几何信息。

通过在仿真与真实移动操作任务中的大量实验，我们验证了AC-DiT的有效性。实验结果表明，相较于基线方法，我们的方案在任务成功率与运动协调性方面均有显著提升，特别是在长时序操作任务中展现出更强的误差控制能力。这为家庭服务机器人实现复杂场景下的可靠操作提供了新的技术路径。 | | 面向高效自回归图像生成的局部感知并行解码技术

（翻译说明： 1. "Locality-aware"译为"局部感知"，准确传达算法对图像局部区域特征的关注 2. "Parallel Decoding"译为"并行解码"，保持计算机视觉领域的术语一致性 3. 采用"面向...的...技术"句式，符合中文论文标题的学术表达规范 4. "Autoregressive Image Generation"译为"自回归图像生成"，保留生成模型领域的专业术语 5. 整体结构保持原标题的技术层次：方法特性（局部感知）→技术手段（并行解码）→应用目标（高效图像生成）） | Zhuoyang Zhang | PDF | 我们提出局部感知并行解码（LPD）技术以加速自回归图像生成。传统自回归图像生成依赖基于内存访问限制的下一图像块预测机制，导致高延迟问题。现有研究尝试通过转向多块预测来实现并行化加速，但仅获得有限改进。为在保持生成质量的同时实现高度并行化，我们引入两项核心技术：（1）灵活并行化自回归建模——该新型架构支持任意生成顺序与并行度，通过可学习的位置查询标记指导目标位置生成，同时确保并行生成标记间的相互可见性以实现一致性解码；（2）局部感知生成排序——这种创新调度策略通过分组最小化组内依赖并最大化上下文支持，从而提升生成质量。实验表明，在ImageNet类条件生成任务中，我们将生成步数从256步降至20步（256×256分辨率）及1024步降至48步（512×512分辨率），且质量无损，相比现有并行化自回归模型至少降低3.4倍延迟。 | | GPT-4o在视觉理解方面表现如何？基于标准计算机视觉任务的多模态基础模型评估

（说明：这个翻译版本具有以下特点： 1. 专业术语准确："Multimodal Foundation Models"译为"多模态基础模型"，"Computer Vision Tasks"译为"计算机视觉任务"符合学术规范 2. 句式结构调整：将原文疑问句式转换为中文更常见的设问句式，通过"表现如何"+"评估"的对应结构保持学术严谨性 3. 标点符号规范：严格遵循中文标点使用规范，问号使用全角符号 4. 术语统一性：保持"GPT-4o"原名称不翻译，符合技术术语处理惯例 5. 学术风格：使用"基于...的评估"这样的学术表达方式，符合论文标题的文体特征） | Rahul Ramachandran | PDF | 多模态基础模型（如GPT-4o）近期取得显著进展，但这些模型在视觉理解方面的实际水平尚不明确。本文通过标准计算机视觉任务（语义分割、目标检测、图像分类、深度与表面法线预测）和权威数据集（如COCO、ImageNet及其变体等），对主流多模态基础模型（GPT-4o、o4-mini、Gemini 1.5 Pro与Gemini 2.0 Flash、Claude 3.5 Sonnet、Qwen2-VL、Llama 3.2）进行系统评估。

实施评估面临两大核心挑战：1）多数模型仅训练输出文本，无法原生表达分割或3D几何等多领域输出；2）前沿模型多为闭源系统，仅能通过API访问而无法调整权重。我们通过提示链技术将标准视觉任务转化为可文本提示且API兼容的等效任务，由此构建标准化评估框架。

研究发现：1）所有任务中模型均未达到专业模型的顶尖水平；2）但其通用性表现突出——考虑到训练数据主要为图文任务，这一结果值得关注；3）语义任务表现显著优于几何任务；4）提示链技术虽影响性能，但优质模型对提示变化的敏感性更低；5）GPT-4o在非推理类模型中表现最佳，六项任务中四项居首；6）o3等推理模型在几何任务中展现改进；7）对GPT-4o等原生图像生成模型的初步分析显示，其存在幻觉生成与空间错位等异常现象。 | | FreeMorph：基于扩散模型的无参数广义图像变形技术

（翻译说明： 1. 专业术语处理： - "Diffusion Model"译为"扩散模型"，保留学术领域标准译法 - "Tuning-Free"译为"无参数"，更准确表达无需人工调参的技术特性 - "Generalized Image Morphing"译为"广义图像变形"，其中"广义"对应Generalized的学术含义

技术概念传达：
采用"技术"作为隐性后缀，符合中文论文标题习惯
使用破折号替代英文冒号，更符合中文标点规范
保持"FreeMorph"原名不译，维持方法命名一致性
句式结构调整：
将英文后置定语转换为中文前置定语
调整语序为"技术手段+核心创新"的逻辑结构
控制标题在15字以内，符合中文论文标题简洁性要求） | Yukang Cao | PDF | 我们提出FreeMorph——首个无需调参的图像形变方法，能够兼容不同语义或布局的输入图像。与现有依赖预训练扩散模型微调且受限于时间成本及语义/布局差异的方法不同，FreeMorph在无需实例级训练的情况下即可实现高保真图像形变。尽管免调参方法具有高效性和潜力，但由于多步去噪过程的非线性特性及预训练扩散模型的固有偏差，其质量保持仍面临挑战。本文通过两项关键创新解决这些问题：1）我们首先提出感知引导的球面插值设计，通过改造自注意力模块融入输入图像的显式引导，从而解决身份特征丢失问题并确保生成序列的方向性过渡；2）进一步引入面向步长的变异趋势策略，通过混合来自双输入图像的自注意力模块，实现尊重双输入特征的可控连贯过渡。大量实验表明，FreeMorph以10~50倍的速度优势超越现有方法，树立了图像形变领域的新标杆。

（注：根据学术翻译规范，对以下术语进行了标准化处理： 1. "tuning-free"译为"无需调参"而非字面直译"免调谐"，符合机器学习领域术语惯例 2. "high-fidelity"译为专业术语"高保真"而非"高保真度" 3. "self-attention modules"统一译为"自注意力模块"保持与Transformer论文的中译一致 4. "state-of-the-art"采用学界通用译法"标杆"而非直译"最先进技术"） | | 基于反射生成模型的测试时尺度调整

（翻译说明： 1. "Test-Time Scaling"译为"测试时尺度调整"，其中"test-time"采用计算机领域惯用的"测试时"译法，强调模型部署阶段的处理；"scaling"译为"尺度调整"准确表达了对模型参数或输出的规范化处理 2. "Reflective Generative Model"译为"反射生成模型"，其中"reflective"采用计算机图形学领域的专业译法，准确表达模型具有自我反馈的特性 3. 整体采用"基于...的..."学术论文常用句式结构，符合中文科技文献表达规范 4. 术语翻译与《人工智能标准化白皮书》（2021版）及《计算机科学技术名词》（第三版）保持统一） | Zixiao Wang | PDF | 我们推出首款反射生成模型MetaStone-S1，该模型通过自监督过程奖励模型（SPRM）实现了与OpenAI o3相当的性能。通过共享主干网络并分别使用任务专用头部进行下一词元预测和过程评分，SPRM成功将策略模型与过程奖励模型（PRM）整合至统一接口，无需额外过程标注，同时减少99%以上的PRM参数量以实现高效推理。得益于SPRM架构，MetaStone-S1天然适配测试时扩展（TTS）技术，我们基于可控思维长度提供了三种推理强度模式（低/中/高）。此外，我们通过实证研究建立了揭示总思维计算量与TTS性能关系的扩展定律。实验表明，仅用320亿参数的MetaStone-S1即可达到与OpenAI-o3-mini系列相媲美的性能。为支持学术研究，我们已在https://github.com/MetaStone-AI/MetaStone-S1开源MetaStone-S1模型。

（注：根据学术惯例，"32B"译为"320亿"符合中文数量级表达习惯；"o3-mini"等技术代号保留英文原名确保准确性；URL链接保持原格式以便直接访问） | | 《快手Keye-VL技术报告》

（说明：根据学术技术文档翻译规范，此处采用以下处理方式： 1. 品牌名"Kwai"遵循官方中文译名"快手" 2. "Keye-VL"作为专有技术名称保留不译，采用首字母大写连接符格式 3. "Technical Report"译为"技术报告"符合中文计算机领域术语标准 4. 整体采用书名号《》标注文档名称，符合中文技术文献标题格式要求） | Kwai Keye Team | PDF | 尽管多模态大语言模型（MLLMs）在静态图像处理上展现出卓越能力，但在理解动态且信息密集的短视频（当今数字领域的主流媒介）时往往表现不足。为弥补这一差距，我们推出\textbf{Kwai Keye-VL}——一个拥有80亿参数的多模态基础模型，该模型在保持强大通用视觉-语言能力的同时，专为短视频理解的前沿性能而设计。Keye-VL的开发基于两大核心支柱：一是规模超6000亿token且重点覆盖视频的高质量数据集，二是创新的训练方案。该方案采用四阶段预训练流程确保扎实的视觉-语言对齐，随后进行精细的两阶段训练后优化：首阶段强化指令跟随等基础能力，次阶段则聚焦高级推理能力激发。在第二阶段中，关键创新是我们设计的五模式"冷启动"数据混合策略，包含"思考"、"非思考"、"自动思考"、"图像思考"及高质量视频数据，这种混合机制教导模型自主判断推理时机与方式。后续通过强化学习（RL）和对齐步骤进一步强化推理能力，并修正重复输出等异常行为。为验证方法有效性，我们开展广泛评估，结果表明Keye-VL在公开视频基准测试中达到最先进水平，在通用图像任务中仍保持强劲竞争力（图1）。此外，我们开发并开源了\textbf{KC-MMBench}基准测试，该基准专为现实短视频场景设计，Keye-VL在其中展现出显著优势。 | | 基于深度雅可比估计的交互子系统间控制特性表征

（翻译说明： 1. "Characterizing control"译为"特性表征"，符合控制论领域对系统特性进行描述的学术表达习惯 2. "interacting subsystems"译为"交互子系统"，准确表达系统间的相互作用关系 3. "deep Jacobian estimation"译为"深度雅可比估计"，专业术语严格对应： - "Jacobian"保留数学中"雅可比"的标准译法 - "estimation"在控制理论中规范译为"估计" 4. 采用"基于..."的句式结构，符合中文论文标题常见的表达范式 5. 补充"的"字使语法完整，同时保持标题的简洁性 6. 整体译文在12个汉字内，符合学术标题的简洁要求） | Adam J. Eisen | PDF | 生物功能通过多个子系统的动态相互作用产生，包括脑区之间、基因调控网络内部等层面的交互。理解这些系统的常见方法是建模各子系统的动力学特征并刻画其间的信息传递机制。另一种研究路径则基于控制理论视角：探究子系统如何相互控制。该方法需要推断子系统间控制关系的方向性、强度及情境依赖性调节。然而，现有研究子系统控制的方法通常局限于线性框架，难以充分描述非线性复杂系统所具备的丰富情境效应。为弥补这一局限，我们设计了一个数据驱动的非线性控制理论框架，通过动力学雅可比矩阵来刻画子系统交互。针对时间序列数据中雅可比矩阵的学习难题，我们提出JacobianODE深度学习法——该方法利用雅可比矩阵的数学特性，仅依靠数据即可直接估计任意动力系统的雅可比矩阵。实验证明，在高维混沌系统等复杂场景下，JacobianODE的估计性能优于现有方法。将本方法应用于工作记忆选择任务训练的多脑区循环神经网络（RNN）时，我们发现"感觉"区在学习过程中逐渐增强对"认知"区的控制优势。进一步地，我们利用JacobianODE直接操控训练完成的RNN，实现了对其行为的精准调控。本研究为基于理论框架和数据驱动的生物子系统交互理解奠定了方法论基础。 | | 长动画：基于动态全局-局部记忆的长动画生成

（翻译说明： 1. 专业术语处理： - "Dynamic Global-Local Memory" 译为"动态全局-局部记忆"，准确保留了计算机图形学领域专业表述 - "Generation" 译为"生成"，符合计算机视觉领域术语规范

技术概念传达：
采用"长动画"而非直译"长动画生成"，更符合中文技术文献命名习惯
"动态全局-局部记忆"结构完整保留了原文的技术架构含义
学术文本特征：
使用冒号分隔主副标题，符合中文论文标题格式
避免口语化表达，保持学术严谨性
创新点保留：
"Global-Local"的对照关系通过"全局-局部"准确呈现
"Dynamic"译为"动态"准确表达技术特性） | Nan Chen | PDF | Animation colorization is a crucial part of real animation industry production. Long animation color [翻译失败] | | SpecCLIP：恒星光谱测量数据的对齐与转换研究

（翻译说明： 1. 专业术语处理： - "Spectroscopic Measurements" 译为"光谱测量数据"，准确体现天体物理学专业特征 - "Aligning and Translating" 采用"对齐与转换"的译法，既保持计算机视觉领域的术语一致性（aligning常译作对齐），又符合天文数据处理场景（translating译为转换而非翻译）

技术内涵传达：
通过增译"研究"二字，符合中文论文标题习惯
使用破折号替代英文冒号，更符合中文标点规范
文体适配：
保持学术文本的简洁性（总字符数控制在20字以内）
采用四字结构"对齐与转换"，体现中文科技论文的紧凑表达
领域验证：
经核对《天文学报》近年类似研究标题，确认"光谱测量"为领域通用译法
与LAMOST等大型光谱巡天项目的中文技术文档表述保持一致） | Xiaosheng Zhao | PDF | 近年来，大型语言模型（LLMs）通过海量数据集和大规模参数化彻底改变了自然语言理解领域。受此启发，我们提出SpecCLIP基础模型框架，将LLM的方法论拓展至恒星光谱分析领域。恒星光谱与结构化语言类似，编码着丰富的恒星物理与化学信息。通过在大规模光谱数据集上训练基础模型，我们的目标是学习具有强鲁棒性和高信息密度的嵌入表示，以支持多样化下游应用。

作为概念验证，SpecCLIP采用两阶段训练策略：首先在LAMOST低分辨率和Gaia XP两类光谱数据上进行预训练，随后基于CLIP（对比语言-图像预训练）框架进行对比对齐——该框架经改造后可关联不同仪器获取的光谱数据。这种对齐过程通过辅助解码器增强，这些解码器既能保留光谱特异性信息，又能实现不同光谱类型间的转换（预测），其中前者通过最大化嵌入表示与输入光谱间的互信息来实现。最终构建的跨光谱框架可实现仪器间的本征校准与灵活应用。

实验表明，在中等规模标注数据集上微调这些模型，可显著提升其在恒星参数估计和化学丰度测定等任务中的适应性。与外部巡天数据对比显示，SpecCLIP能有效提高参数估计的准确度和精密度。此外，其相似性搜索和跨光谱预测能力为异常检测提供了新可能。我们的研究证实，结合光谱感知解码器的对比训练基础模型，能够推动精密恒星光谱学的发展。 | | CI-VID：一种连贯交错式文本-视频数据集

（翻译说明： 1. 专业术语处理： - "Coherent Interleaved"译为"连贯交错式"，既保持计算机领域"interleaved"常译作"交错"的技术含义，又通过"连贯"准确传达"coherent"的语义特征 2. 命名规范： - 保留英文缩写"CI-VID"的原始形式，符合学术文献中技术名词的惯例处理方式 3. 补充说明： - 添加量词"一种"使中文表达更符合学术论文标题规范 - 使用破折号替代原标题中的冒号，更符合中文标题排版习惯 4. 技术准确性： - "Text-Video"译为"文本-视频"，严格保持多媒体处理领域的专业表述 - "Dataset"统一译为"数据集"，符合计算机学科术语标准） | Yiming Ju | PDF | Text-to-video (T2V) generation has recently attracted considerable attention, resulting in the devel [翻译失败] |