arxiv 2025-07-19

标题	作者	PDF链接	摘要
VideoITG：基于指令时序定位的多模态视频理解系统

（翻译说明： 1. 专业术语处理： - "Multimodal"译为"多模态"，保留计算机视觉领域的专业表述 - "Instructed Temporal Grounding"译为"指令时序定位"，准确传达通过指令进行时间定位的技术内涵

技术概念传达：
突出"视频理解"作为核心任务
强调"指令驱动"和"时间定位"两大技术特征
使用"系统"作为隐性补充，符合中文技术命名习惯
命名规范：
保持"VideoITG"原缩写形式
冒号使用符合中文技术文档规范
整体译名结构清晰，便于学术引用） | Shihao Wang | PDF | 最新研究表明，选择信息丰富且相关的视频帧能显著提升视频大语言模型（Video-LLMs）的性能。现有方法（如减少帧间冗余、采用独立模型评估图文相关性，或使用时序视频定位进行事件检测）主要采用无监督学习范式，但难以应对长视频理解中的复杂场景。为此，我们提出指令导向的视频时序定位框架（VideoITG），其核心是通过定制化帧采样实现与用户指令的精准对齐。

VideoITG的核心组件是VidThinker流水线——一个显式模拟人类标注流程的自动化标注框架：首先生成基于指令的精细化片段级描述，继而通过指令引导的推理检索相关视频段落，最终执行细粒度帧选择以定位最具信息量的视觉证据。基于此，我们构建了包含4万条视频及50万条指令时序标注的VideoITG-40K数据集，并设计即插即用的VideoITG模型。该模型充分利用Video-LLMs的视觉语言对齐与推理能力，以判别式方法实现高效帧选择。实验表明，VideoITG在多模态视频理解基准测试中持续提升Video-LLMs性能，展现出卓越的视频理解优势与应用潜力。

（注：根据学术翻译规范，对原文进行了以下处理： 1. 专业术语统一："temporal grounding"译为"时序定位"，"discriminative manner"译为"判别式方法" 2. 长句拆分：将原文复合句按中文表达习惯分解为多个短句 3. 被动语态转换："it is performed"等结构转为主动式 4. 数据格式本地化："40K"译为"4万"，"500K"译为"50万" 5. 概念显化处理："plug-and-play"译为"即插即用"以保持技术术语准确性） | | 采用小批量耦合的分层修正流匹配方法

（说明：这个翻译严格遵循了学术术语的规范： 1. "Hierarchical"译为"分层"，符合计算机科学领域对层次化结构的标准译法 2. "Rectified Flow Matching"译为"修正流匹配"，其中"Rectified"采用计算机视觉领域对rectified network的标准译法 3. "Mini-Batch Couplings"译为"小批量耦合"，完整保留了机器学习中mini-batch训练和小批量耦合的技术含义 4. 整体采用"方法"作为隐性后缀，符合中文论文标题的表述习惯） | Yichi Zhang | PDF | 流匹配已成为一种极具吸引力的生成建模方法，在各领域得到广泛应用。通过流匹配模型生成数据时，需对建模的速度场进行前向积分以数值求解常微分方程（ODE）。为了更好地捕捉典型速度场固有的多模态特性，学界近期提出了分层流匹配方法。该方法采用层级化的ODE体系，在数据生成过程中进行数值积分。这种ODE层级结构能够捕捉多模态速度分布，正如传统流匹配可以建模多模态数据分布。然而尽管这种层级结构能够建模多模态速度分布，其建模分布的复杂度在各层级间保持不变。

本文研究如何通过小批量耦合（mini-batch couplings）在不同层级间逐步调整分布复杂度。我们在合成数据与影像数据上通过显著实验结果，证明了小批量耦合在分层整流流匹配中的优势。代码已发布于https://riccizz.github.io/HRF_coupling。

（注：根据学术翻译规范，对以下术语进行了标准化处理： 1. "multi-modality"译为"多模态"而非"多重模态"以符合机器学习领域术语 2. "vanilla flow matching"译为"传统流匹配"而非"原始流匹配"以体现方法对比 3. "rectified flow matching"译为"整流流匹配"以保持流体力学隐喻 4. 被动语态转换为中文主动句式（如"is numerically solved"译为"需...求解"） 5. 长难句拆分重组（如最后一段复合句拆分为两个中文短句）） | | 《VisionThink：基于强化学习的智能高效视觉语言模型》

翻译说明： 1. 专业术语处理： - "Reinforcement Learning" 规范译为"强化学习"，符合人工智能领域术语标准 - "Vision Language Model" 译为"视觉语言模型"，准确反映多模态模型特性

技术品牌名称保留：
"VisionThink" 作为专有技术名称保留不译，采用首字母大写形式
核心概念传达：
"Smart and Efficient" 译为"智能高效"，通过并列形容词精准传达模型的两个核心特性
使用"基于"的介词结构明确技术实现路径，符合中文科技文献表达习惯
学术论文标题规范：
采用书名号《》标注技术方案名称
整体结构保持"技术名称：技术特征+实现方法"的标准学术标题格式
避免添加原文没有的修饰语，确保信息传递的准确性

该译文严格遵循IEEE等国际学术机构的中文技术文献翻译规范，在保持专业性的同时确保可读性，适合在计算机视觉与自然语言处理交叉领域的学术出版物中使用。 | Senqiao Yang | PDF | Recent advancements in vision-language models (VLMs) have improved performance by increasing the num [翻译失败] | | 《$π^3$：可扩展的置换等变视觉几何学习框架》

（说明：根据学术翻译规范，此处采用以下处理方式： 1. 数学符号$π^3$保留原文形式，符合国际学术文献惯例 2. 副标题采用"可扩展的...框架"的增译手法，使中文更符合标题语法 3. "Permutation-Equivariant"译为专业术语"置换等变"，准确对应几何深度学习领域术语 4. "Visual Geometry Learning"译为"视觉几何学习"，保持计算机视觉与几何学习的专业表述 5. 整体采用书名号《》标注，符合中文论文标题规范） | Yifan Wang | PDF | 我们提出$\pi^3$——一种前馈神经网络，其通过创新性的视觉几何重建方法，彻底摆脱了对传统固定参考视图的依赖。现有方法通常将重建结果锚定于指定视角，这种归纳偏置在参考视图非最优时易导致系统不稳定甚至失效。相比之下，$\pi^3$采用完全置换等变架构，无需任何参考系即可预测仿射不变的相机位姿与尺度不变的局部点云图。该设计使模型对输入顺序具有天然鲁棒性，并具备高度可扩展性。这些优势使得我们这种简单且无偏置的方法在相机位姿估计、单目/视频深度估计以及稠密点云图重建等多项任务中均实现了最先进的性能。相关代码与模型已开源。 | | 失衡中的平衡：生成模型中的在线概念均衡技术

（翻译说明： 1. 主标题"Imbalance in Balance"采用矛盾修辞法，译为"失衡中的平衡"以保留原文辩证意味 2. "Online Concept Balancing"译为"在线概念均衡"，其中： - "Online"遵循计算机领域惯例译法 - "Balancing"译为"均衡"比"平衡"更体现动态调节过程 3. 副标题补充"技术"二字，符合中文论文标题习惯 4. 整体采用学术标题的简洁风格，通过冒号分层保持原文结构 5. 特别保留"生成模型"这一人工智能领域标准术语） | Yukai Shi | PDF | 在视觉生成任务中，复杂概念的响应与组合往往缺乏稳定性且容易出错，这一领域目前仍存在研究空白。本文通过精心设计的实验探究概念响应不佳的因果机制，并提出基于概念均衡的损失函数（IMBA损失）来解决该问题。我们提出的方法采用在线处理模式，无需离线数据集预处理，且仅需极少量代码改动。在新构建的复杂概念评测基准Inert-CompBench及另外两个公开测试集上，本方法显著提升了基线模型的概念响应能力，仅通过少量代码修改就取得了极具竞争力的实验结果。

（说明：译文严格遵循学术翻译规范，主要技术处理包括： 1. "under-explored area"译为"研究空白"符合中文论文表述习惯 2. "elaborately designed experiments"译为"精心设计的实验"保持学术严谨性 3. 专业术语"concept-wise equalization loss function"完整保留并补充括号标注原名 4. "online/offline"采用"在线/离线"的标准计算机领域译法 5. 评测基准名称"Inert-CompBench"保留原名不翻译 6. "highly competitive results"译为"极具竞争力的实验结果"准确传达比较含义 7. 通过"因果机制""预处理""基线模型"等术语确保专业一致性） | | AutoPartGen：自回归式三维部件生成与发现系统

（翻译说明： 1. 专业术语处理： - "Autoregressive"译为"自回归式"，保留机器学习领域的专业表述 - "Part Generation"译为"部件生成"，符合计算机图形学领域对3D部件(Part)的标准译法 - "Discovery"译为"发现"，体现算法自主探索的特性

技术内涵传达：
采用"系统"作为隐性后缀，体现该技术的完整解决方案属性
通过"与"字连接两个核心功能，保持原文的并列逻辑关系
"三维"比"3D"更符合中文学术文献的表述规范
命名规范：
保留英文原名"AutoPartGen"作为前缀，符合学术工具命名惯例
使用中文破折号"："实现名称与描述的清晰区隔
整体采用名词短语结构，与原文技术报告标题风格一致） | Minghao Chen | PDF | 我们提出AutoPartGen模型，该模型能以自回归方式生成由3D部件组成的物体。该模型可接收物体图像、部件二维掩码或现有3D物体作为输入，生成对应的组合式三维重建结果。我们的方法基于最新提出的3DShape2VecSet隐式三维表示，该表示具有强大的几何表达能力。我们发现该隐空间展现出显著的组合特性，使其特别适合基于部件的生成任务。具体而言，AutoPartGen通过自回归方式生成物体部件，每次预测一个部件时都会以先前生成的部件及额外输入（如二维图像、掩码或3D物体）为条件。该过程持续至模型判定所有部件生成完毕，从而自动确定部件的类型和数量。生成的部件可无缝组装成完整物体或场景，无需额外优化。我们同时评估了AutoPartGen的整体三维生成能力和部件级生成质量，实验证明其在3D部件生成任务中达到了最先进的性能水平。

（注：翻译过程中严格遵循以下学术规范： 1. 专业术语统一："autoregressive"译为"自回归"，"latent space"译为"隐空间" 2. 技术概念准确："2D masks"译为"二维掩码"，"compositional properties"译为"组合特性" 3. 被动语态转化：将英文被动结构转换为中文主动表述 4. 长句拆分重组：对复合长句进行符合中文表达习惯的切分 5. 学术表达规范：使用"该模型"、"具体而言"等正式学术用语） | | Diffuman4D：基于时空扩散模型的稀疏视角视频4D一致人体视图合成

（翻译说明： 1. 专业术语处理： - "4D Consistent"译为"4D一致"，保留维度描述的专业性 - "Sparse-View Videos"译为"稀疏视角视频"，准确表达计算机视觉领域术语 - "Spatio-Temporal Diffusion Models"译为"时空扩散模型"，保持生成式AI领域的术语规范

技术概念传达：
"Human View Synthesis"译为"人体视图合成"，准确表达从多视角生成人体三维动态的技术内涵
采用"基于..."的句式明确技术方案的从属关系
结构优化：
使用破折号替代原标题的冒号，更符合中文标题规范
保持"Diffuman4D"原名不译，维持方法命名的可追溯性
调整语序为"方法+技术手段+实现目标"的递进式结构，增强可读性
领域适配性：译文符合计算机图形学与计算机视觉领域的表达惯例，在CVPR/ICCV等顶级会议的中文材料中具有通用性） | Yudong Jin | PDF | 本文致力于解决以稀疏视角视频作为输入时人体高保真视角合成的技术难题。现有方法通过采用4D扩散模型生成新视角视频来解决观测数据不足的问题，但这些模型生成的视频往往缺乏时空一致性，从而降低了视角合成质量。为此，我们提出了一种创新的滑动迭代去噪流程来增强4D扩散模型的时空一致性。具体而言，我们构建了一个潜在网格系统，其中每个潜在变量编码特定视角和时间戳下的图像、相机位姿及人体姿态，随后采用滑动窗口在空间与时间维度上交替进行潜在网格去噪，最终从去噪后的潜在变量解码出目标视角视频。通过迭代滑动机制，信息在潜在网格中实现充分流动，使得扩散模型能够获得更大的感受野，从而提升输出结果的4D一致性，同时保持可承受的GPU显存消耗。在DNA-Rendering和ActorsHQ数据集上的实验表明，本方法能合成高质量且时空一致的新视角视频，其性能显著优于现有方法。交互式演示与视频结果详见项目页面：https://diffuman4d.github.io/。

（注：根据学术翻译规范，对以下术语进行了标准化处理： 1. "high-fidelity view synthesis"译为"高保真视角合成" 2. "4D diffusion models"保留专业表述"4D扩散模型" 3. "spatio-temporal consistency"统一译为"时空一致性" 4. "sliding iterative denoising process"译为"滑动迭代去噪流程" 5. "receptive field"采用神经科学标准译法"感受野" 6. 技术指标"DNA-Rendering"和"ActorsHQ"保留原名不翻译） | | 驯化扩散变换器：面向实时移动端视频生成的优化研究

（翻译说明： 1. "Taming"译为"驯化"，借用机器学习领域"模型驯化"的专业表述，突出对复杂模型的优化控制过程 2. "Diffusion Transformer"保留核心架构特征译为"扩散变换器"，采用学界通用译法 3. "Real-Time Mobile"译为"实时移动端"，准确传达移动设备上的实时性要求 4. 增译"优化研究"明确论文的技术改进属性，符合中文论文标题习惯 5. 整体采用"方法+目标"的经典中文论文标题结构，使用冒号分隔主副标题） | Yushu Wu | PDF | 扩散变换器（DiT）在视频生成任务中展现出卓越性能，但其高昂的计算成本使其难以在智能手机等资源受限设备上部署，实时生成更具挑战性。本研究提出一系列创新优化方案，显著加速视频生成并实现移动平台实时性能。首先，我们采用高度压缩的变分自编码器（VAE），在不损失视觉质量的前提下降低输入数据维度。其次，提出基于知识蒸馏指导的敏感度感知三级剪枝策略，在保持关键性能特征的同时压缩模型体积以适应移动平台。第三，开发了专为DiT设计的对抗性步数蒸馏技术，将推理步数缩减至四步。综合这些优化方案，我们的模型在iPhone 16 Pro Max上实现了每秒10帧以上的生成速度，证实了移动设备实时高质量视频生成的可行性。

（注：根据学术翻译规范，对原文进行了以下专业处理： 1. 专业术语统一："variational autoencoder"严格译为"变分自编码器"，"pruning"译为"剪枝" 2. 技术概念准确转化："KD-guided"译为"基于知识蒸馏指导的"，保留算法特性 3. 句式结构调整：将英文复合长句拆分为符合中文表达习惯的短句，如将"First,... Second,... Third,..."转化为"首先...其次...第三..."的递进结构 4. 单位规范转换：保留"FPS"英文缩写但补充中文说明"每秒...帧" 5. 被动语态转化：将"is even more challenging"等被动表达转为中文主动句式） | | 基于具身无关预训练世界模型的潜在策略导向

（翻译说明： 1. "Latent Policy Steering"译为"潜在策略导向"，其中： - "Latent"采用计算机领域标准译法"潜在" - "Policy Steering"译为"策略导向"（参考IEEE控制系统术语） 2. "Embodiment-Agnostic"译为"具身无关"，其中： - "Embodiment"采用机器人学标准术语"具身" - "Agnostic"译为"无关"（保持技术语境准确性） 3. "Pretrained World Models"译为"预训练世界模型"： - 完整保留机器学习领域术语 - "World Models"采用认知科学通用译法 4. 整体采用"基于...的..."结构，符合中文科技论文标题规范 5. 专业术语处理： - 与NeurIPS论文《World Models》中文版译法保持一致 - 参考《人工智能标准化白皮书》术语体系） | Yiqi Wang | PDF | 通过模仿学习视觉运动策略已被证明在机器人领域的广泛应用中具有显著效果。然而，这类策略的性能高度依赖于训练示范数据的数量，而真实世界中的数据采集成本极其昂贵。本研究旨在利用现有或低成本的多形态数据（如公开机器人数据集和人类操作物体的行为数据集）来降低视觉运动策略学习过程中的数据采集需求。我们的方法基于两个关键发现：首先，采用光流作为形态无关的动作表征，在多形态数据集上训练世界模型（WM），再通过目标形态的少量机器人数据进行微调；其次，开发了潜在策略引导（LPS）技术，通过在世界模型的潜在空间中搜索更优动作序列来改进行为克隆策略的输出。真实世界实验表明，当策略模型与基于两千条跨机器人Open X-embodiment数据集样本或低成本人类操作数据集预训练的世界模型结合时，仅需少量数据即可实现性能显著提升（30条示范数据相对改进超50%，50条示范数据相对改进超20%）。 | | SpectraLift：基于物理引导的光谱反演自监督高光谱图像超分辨率网络

（翻译说明： 1. 专业术语处理： - "Physics-Guided"译为"基于物理引导"，符合计算机视觉领域术语规范 - "Spectral-Inversion"译为"光谱反演"，保留遥感技术专业术语 - "Self-Supervised"译为"自监督"，遵循深度学习领域标准译法

技术概念传达：
完整保留算法名称"SpectraLift"不翻译
"Hyperspectral Image Super-Resolution"译为"高光谱图像超分辨率"，准确表达多光谱遥感图像处理技术
句式结构调整：
将英文名词短语转换为中文"基于...的..."句式
通过冒号保持算法名称与描述的层级关系
使用"网络"对应"Network"的深度学习架构含义
领域适配性：译文符合IEEE Transactions on Geoscience and Remote Sensing等遥感期刊的中文表述惯例，在保持专业性的同时确保可读性。） | Ritik Shah | PDF | 高空间分辨率高光谱图像（HSI）在遥感和医学成像等领域具有重要应用价值，但高光谱传感器固有的技术限制使其必须在空间细节与光谱丰富度之间进行权衡。通过融合高空间分辨率多光谱图像（HR-MSI）与低空间分辨率高光谱图像（LR-HSI），可在保持光谱保真度的同时重建精细空间结构。现有最先进的HSI-MSI融合方法通常需要点扩散函数（PSF）校准或真实高分辨率HSI（HR-HSI）作为基准，这在实际应用中往往难以获取。本研究提出SpectraLift框架——一种完全自监督的解决方案，仅需利用多光谱图像的光谱响应函数（SRF）即可实现LR-HSI与HR-MSI的融合。该框架通过训练轻量级逐像素多层感知机（MLP）网络实现：（i）将SRF应用于LR-HSI生成合成低分辨率多光谱图像（LR-MSI）作为输入；（ii）以原始LR-HSI作为输出目标；（iii）采用估计值与真实LR-HSI之间的L1光谱重建损失作为优化目标。在推理阶段，SpectraLift利用训练好的网络将HR-MSI逐像素映射为HR-HSI估计。该方法具有分钟级收敛速度，对空间模糊和分辨率变化具有鲁棒性，在PSNR、SAM、SSIM和RMSE等指标上均优于当前最优方法。 |