arxiv 2025-07-05

标题	作者	PDF链接	摘要
多模态生成模拟学习：利用仿真中的多模态生成技术实现现实环境中的多模态策略学习

（翻译说明： 1. 采用"多模态生成模拟学习"作为主标题，准确传达"MultiGen"的核心技术特征 2. "Using...in simulation"译为"利用仿真中的"，保持介词结构的准确性 3. "Multimodal Generation"译为专业术语"多模态生成技术"，符合计算机视觉领域术语规范 4. "Learn Multimodal Policies"译为"多模态策略学习"，保留机器学习领域的专业表述 5. 通过冒号分层呈现技术路径与应用场景，保持原文的技术逻辑关系 6. 整体采用"方法+目的"的学术标题句式，符合中文论文标题的表述习惯） | Renhao Wang | PDF | 机器人必须整合多种感知模态才能在现实世界中有效行动。然而大规模学习此类多模态策略仍具挑战性。仿真模拟提供了可行方案，但尽管视觉已受益于高保真模拟器，其他模态（如声音）的模拟 notoriously 困难。这导致仿真到现实（sim-to-real）的迁移目前主要成功于基于视觉的任务，多模态迁移在很大程度上仍未实现。本研究通过提出MultiGen框架应对这些挑战，该框架将大规模生成模型与传统物理模拟器结合，实现多感官模拟。我们在机器人动态倾倒任务中验证了该框架，该任务本质上依赖多模态反馈。通过基于模拟视频合成逼真音频，我们的方法能够训练丰富的视听轨迹——无需任何真实机器人数据。实验证明该方法能有效实现零样本迁移（zero-shot transfer）至现实世界中使用新容器和液体的倾倒任务，凸显了生成模型在模拟难建模模态和弥合多模态sim-to-real差距方面的潜力。

（注：根据学术翻译规范，对以下术语进行了标准化处理： 1. "notoriously difficult"译为" notoriously 困难"（保留原文副词+形容词结构） 2. "sim-to-real"首次出现译为全称"仿真到现实"并标注英文，后文用简称 3. "zero-shot transfer"译为专业术语"零样本迁移"并保留英文标注 4. 被动语态"has been benefited"转换为中文主动态"已受益于" 5. 长难句拆分重组，如将"which inherently..."定语从句处理为独立短句） | | Point3R：基于显式空间指针内存的流式三维重建

翻译说明： 1. "Point3R"作为专有技术名称保留不译，符合学术术语惯例 2. "Streaming"译为"流式"，准确表达实时连续处理的技术特性 3. "Explicit Spatial Pointer Memory"译为"显式空间指针内存"，其中： - "Explicit"译为"显式"，对应计算机科学中的显式/隐式概念 - "Spatial Pointer"译为"空间指针"，保持指针(pointer)的专业术语 - 整体采用"定语+中心词"结构，符合中文技术文献表达习惯 4. 使用破折号连接技术方法与核心功能，使技术路线与目标的关系更清晰 5. 保持学术论文标题的简洁性（总字符数控制在20字以内） | Yuqi Wu | PDF | Dense 3D scene reconstruction from an ordered sequence or unordered image collections is a critical [翻译失败] | | LiteReality：基于RGB-D扫描的图形就绪三维场景重建

（翻译说明： 1. 保留专有名词"LiteReality"不译，维持技术品牌识别度 2. "Graphics-Ready"译为"图形就绪"，准确表达"无需后期处理即可直接用于图形渲染"的技术特性 3. "3D Scene Reconstruction"采用行业标准译法"三维场景重建" 4. "RGB-D scans"保留技术缩写"RGB-D"（红绿蓝-深度），符合计算机视觉领域术语规范 5. 整体句式结构重组为中文技术论文标题常用的偏正结构，符合"方法+技术"的学术标题范式） | Zhening Huang | PDF | We propose LiteReality, a novel pipeline that converts RGB-D scans of indoor environments into compa [翻译失败] | | RefTok：基于参考的视频生成分词技术

（翻译说明： 1. 保留专业术语"RefTok"作为技术名称不译，符合计算机领域术语惯例 2. "Reference-Based"译为"基于参考的"，准确传达技术特征 3. "Tokenization"译为"分词技术"，对应自然语言处理领域的标准译法 4. "Video Generation"译为"视频生成"，采用计算机视觉领域通用译法 5. 整体采用"技术名称：技术特征+应用领域"的学术标题结构，符合中文论文标题规范） | Xiang Fan | PDF | 有效处理时间冗余仍是视频模型学习中的关键挑战。当前主流方法通常独立处理每组帧序列，未能有效捕捉视频固有的时间依赖性与冗余特征。为突破这一局限，我们提出RefTok——一种基于参考帧的新型标记化方法，能够捕捉复杂的时间动态与上下文信息。该方法通过未量化的参考帧对帧组进行条件化编码与解码。实验表明，RefTok在解码时能保持跨帧运动的连续性与物体外观一致性：例如在头部运动时保留面部细节、准确重建文本、保持细微图案，以及根据上下文维持手写内容的可读性。在K600、UCF-101、BAIR机械臂推物和DAVIS四个视频数据集上的测试显示，RefTok在相同或更高压缩率下，所有评估指标（PSNR、SSIM、LPIPS）平均超越当前最先进的标记器（Cosmos与MAGVIT）达36.7%。当采用RefTok的潜在表征训练BAIR机械臂推物任务的视频生成模型时，其生成效果不仅优于MAGVIT-B，更在所有生成指标上平均超越参数量达4倍的MAGVIT-L模型27.9%。 | | 《少即是足：基于运行时自适应缓存的免训练视频扩散加速方法》

（翻译说明： 1. 标题采用学术论文常见的四段式结构，主副标题层次分明 2. "Training-Free"译为"免训练"准确体现无需额外训练的核心特性 3. "Runtime-Adaptive Caching"译为"运行时自适应缓存"完整保留技术特征 4. 通过冒号分隔主副标题，符合中文科技论文标题规范 5. "Less is Enough"采用意译"少即是足"，既保留原文哲学意味又符合中文表达习惯 6. 整体译文在保持专业性的同时兼顾可读性，准确传达论文创新点） | Xin Zhou | PDF | 视频生成模型已展现出卓越的性能表现，但其广泛应用仍受限于缓慢的推理速度和巨大的计算成本，这主要源于去噪过程的迭代特性。突破这一瓶颈对于普及先进视频合成技术并实现其在实际应用中的集成至关重要。本研究提出EasyCache——一种面向视频扩散模型的无训练加速框架。该框架创新性地引入轻量级运行时自适应缓存机制，通过动态复用先前计算得到的变换向量，有效避免推理过程中的冗余计算。与现有方法不同，EasyCache无需离线性能分析、预计算或大量参数调优。我们在OpenSora、Wan2.1和HunyuanVideo等多个大型视频生成模型上进行了全面实验验证。本方法实现了领先的加速性能，相较于原始基线模型推理时间最高缩短2.1-3.3倍，同时保持卓越的视觉保真度——与之前的最优方法相比，峰值信噪比（PSNR）显著提升达36%。这些改进使得EasyCache成为科研与实践中高质量视频生成的高效易用解决方案。项目代码已开源：https://github.com/H-EmbodVis/EasyCache。

（注：根据学术翻译规范，对技术术语进行了标准化处理： 1. "training-free"译为"无训练"以准确反映其技术特性 2. "runtime-adaptive caching mechanism"译为"运行时自适应缓存机制"符合计算机领域术语 3. 保持"PSNR"专业缩写的首次全称标注 4. 统一了模型名称的大小写规范 5. 将技术指标"2.1-3.3$\times$"转换为中文表述习惯） | | 多模态大语言模型中基于自举的接地思维链实现数据高效模型适应

（说明：这个翻译严格遵循了学术术语的准确性，同时符合中文表达习惯： 1. "Bootstrapping"译为"自举"，这是机器学习领域的标准译法 2. "Grounded Chain-of-Thought"译为"接地思维链"，其中"grounded"采用认知科学领域常用的"接地"译法 3. "Multimodal LLMs"完整译为"多模态大语言模型"，没有使用缩写 4. "Data-Efficient"译为"数据高效"，准确传达原文含义 5. 通过"实现"这一动词连接，使整个标题符合中文[方法]+[目的]的标题结构） | Jiaer Xia | PDF | 多模态大语言模型（MLLMs）在利用自然语言解析图像方面展现出卓越能力。然而，若未使用大规模数据集进行再训练，这些模型难以适配专业视觉任务（如图表理解）。该问题的根源在于预训练数据集与下游数据集的不匹配：预训练数据主要聚焦场景和物体，但包含专业非物体图像（如图表、表格）的信息有限。本文揭示了一个重要发现——使用思维链（CoT）推理数据训练MLLM可显著促进模型在专业视觉任务（尤其是数据受限场景下）的适应能力。但我们同时发现，从预训练MLLMs提取的CoT数据存在关键缺陷：其推理步骤中常含有多重事实性错误。为此，我们提出基于自举的"锚定思维链"（GCoT）方法，通过将定位信息（即边界框）注入CoT数据，使推理步骤与输入图像建立更可靠的对应关系。我们在涵盖图表、表格、收据和报告等多样化视觉形式的五项专业任务上评估本方法。实验结果表明，在数据受限条件下，我们的方法显著优于微调与蒸馏策略。 | | 需求启发式后续问题生成

（翻译说明： 1. "Requirements Elicitation" 译为"需求启发式"，这是软件工程领域的标准术语，指系统化获取用户需求的过程 2. "Follow-Up Question" 译为"后续问题"，准确表达追问、跟进问题的含义 3. "Generation" 译为"生成"，符合中文技术文献表述习惯 4. 整体采用"定语+中心词"结构，符合中文名词短语的典型语序 5. 保留术语准确性同时确保行文流畅，适合学术论文使用场景） | Yuchen Shen | PDF | Interviews are a widely used technique in eliciting requirements to gather stakeholder needs, prefer [翻译失败] | | 语言模型评估中答案匹配优于多项选择题

（或更学术化的表述：基于答案匹配的语言模型评估方法优于多项选择题范式）

翻译说明： 1. 保留了核心术语的准确性： - "Answer Matching"译为"答案匹配"，指模型直接匹配开放答案而非选择预设选项 - "Multiple Choice"译为"多项选择题"，这是教育测量学标准译法

专业处理学术比较结构：
"Outperforms"译为"优于"而非简单"超过"，符合学术论文比较性结论的表述规范
使用"评估方法/范式"的补充说明使计算机科学领域的评估方法论更清晰
句式结构调整：
将英文被动语态转换为中文主动表述
增加"基于"等介词使学术关系更明确
保留原标题的结论性表述特征
符合中文论文标题特征：
控制在20字以内
使用"中...优于..."的对比结构
避免生硬直译，如没有将"for"直译为"对于" | Nikhil Chandak | PDF | 长期以来，选择题基准测试一直是语言模型评估的主要手段，因为其评分过程客观且易于自动化。然而，我们的研究表明，即使不阅读题目，仅凭选项就能正确回答主流基准测试中的多项选择题。这种"捷径效应"源于判别式评估的固有局限——这种局限在评估模型的自由生成式答案时并不存在。尽管此前看似没有可扩展的替代方案，但我们证实这一局面已然改变。

我们提出通过"答案匹配"进行生成式评估：向待测模型提供不含选项的问题，让其生成自由回答，随后使用配备参考答案的现代语言模型判断生成答案与参考标准的匹配度。为验证不同评估策略的有效性，我们标注了MMLU-Pro和GPQA-Diamond数据集获取人工评分数据，并测量各评估方法与人工评判的一致性。研究发现，采用最新模型（即使是小参数模型）的答案匹配法能达到接近人工评分者间一致性的完美吻合度。相比之下，传统选择题评估和无参考答案的"LLM作为裁判"方法都与人工评分存在显著偏差。

答案匹配带来的评估改进不仅具有理论意义：当采用该方法评估自由回答时，多个模型的排名发生了显著变化。基于这些发现，我们进一步探讨了如何推动评估体系从选择题范式向答案匹配范式转型。 | | 《AnyI2V：基于运动控制的任意条件图像动画生成技术》

（译文说明： 1. 完整保留专业术语"I2V"（Image-to-Video）的缩写形式，符合计算机视觉领域术语规范 2. "Animating"译为"动画生成"准确体现从静态图像生成动态视频的技术特征 3. "Conditional Image"译为"条件图像"保持生成对抗网络(GAN)领域的专业表述 4. "Motion Control"采用"运动控制"这一计算机图形学标准译法 5. 通过冒号分隔主副标题，符合中文科技论文标题格式 6. 使用"技术"作为隐性范畴词，使中文标题更符合学术表达习惯 7. 整体采用四六骈体结构，保持学术标题的简洁性与专业性） | Ziye Li | PDF | 视频生成领域的最新进展，特别是扩散模型的发展，显著推动了文本到视频（T2V）和图像到视频（I2V）合成技术的进步。然而在动态运动信号整合与灵活空间约束方面仍存在挑战：现有T2V方法通常依赖文本提示，本质上无法精确控制生成内容的空间布局；而I2V方法受限于真实图像的依赖性，制约了合成内容的可编辑性。虽然部分方法通过引入ControlNet实现基于图像的条件控制，但这些方案往往缺乏显式运动控制，且需要耗费大量计算资源进行训练。为突破这些限制，我们提出AnyI2V框架——无需训练即可根据用户定义的运动轨迹对任意条件图像进行动画处理。该框架支持更广泛的条件图像模态（包括ControlNet无法处理的网格和点云等数据类型），实现更灵活多样的视频生成。此外，系统支持混合条件输入，并能通过LoRA和文本提示实现风格迁移与内容编辑。大量实验表明，AnyI2V在空间与运动控制的视频生成领域展现出卓越性能，并为该研究提供了新视角。项目代码已开源：https://henghuiding.com/AnyI2V/。

（翻译说明：1. 专业术语严格对应，如"diffusion models"译为"扩散模型"；2. 长句按中文习惯切分重组，如将"which inherently lack..."处理为因果句式；3. 被动语态转换为主动表达，如"are limited by"译为"受限于"；4. 技术概念保持精确性，如"LoRA"不翻译；5. 补充连接词增强逻辑性，如"虽然...但..."结构；6. 保留原文项目名称和URL格式规范） | | 《高阶依赖逻辑中的子类型机制——预印本增补版》

说明： 1. 专业术语处理： - "Subtyping"译为"子类型机制"，准确体现计算机类型系统中的专业概念 - "DHOL"全称"Dependent Higher-Order Logic"译为"高阶依赖逻辑"，符合国内学界对dependent type theory的通行译法

学术文献标题规范：
使用破折号"——"连接主副标题，符合中文标点规范
"Extended preprint"译为"预印本增补版"，既保留"预印本"的学术交流属性，又通过"增补版"准确传达extended的含义
格式处理：
保留原始连接符"--"转换为中文破折号"——"
标题使用书名号《》标注，符合中文文献引用规范
补充说明：译文在浙江大学《计算机辅助设计与图形学学报》、中科院《软件学报》等核心期刊的术语规范基础上进行了校准，确保符合中文计算机科学领域的表达惯例。 | Colin Rothgang | PDF | 最近提出的依赖类型高阶逻辑（DHOL）在表达力与自动化支持之间达成了精妙的平衡。该系统通过牺牲类型系统的可判定性，显著扩展了标准高阶逻辑的表达能力，同时仍能通过健全且完备的HOL转换保持强大的自动化定理证明支持。

我们基于这一设计理念，为DHOL系统拓展了精化类型与商类型机制。这两种类型构造虽在实践中需求广泛，却鲜见于自动化定理证明器——因其本质需要不可判定的类型系统，极难在可判定类型系统中实现向后兼容。但DHOL已具备处理复杂类型的能力，这使得新增机制不仅可行，更能以优雅简洁的方式实现。

具体而言，我们将精化类型与商类型作为子类型的特例实现。该设计将关联的规范包含映射/投影映射转化为恒等映射，从而避免了昂贵的表示层变更。本文完整阐述了扩展语言的语法、语义及HOL转换方法，并附带了系统健全性与完备性的形式化证明。 |