arxiv 2025-07-06

标题	作者	PDF链接	摘要
多模态生成模拟学习：通过仿真中的多模态生成实现真实环境多模态策略学习

（翻译说明： 1. 采用"多模态生成"对应"Multimodal Generation"，准确体现技术特征 2. "模拟"与"仿真"交替使用，既符合中文科技文献表达习惯，又保持术语一致性 3. 通过冒号结构清晰展现技术路径：仿真生成→真实学习 4. "策略学习"专业对应"Policies Learning"，保留学术严谨性 5. 整体采用"方法+应用"的科技论文标题经典结构，符合中文论文标题规范 6. 动词"实现"的加入使技术逻辑更连贯，比直译"using...to..."更符合中文表达） | Renhao Wang | PDF | 机器人必须整合多种感知模态才能在现实世界中有效行动。然而大规模学习此类多模态策略仍存在挑战。仿真模拟提供了可行解决方案，但尽管视觉已受益于高保真模拟器，其他模态（如声音）的模拟 notoriously 困难。这导致仿真到现实迁移目前主要成功应用于基于视觉的任务，多模态迁移在很大程度上仍未实现。本研究通过提出MultiGen框架应对这些挑战，该框架将大规模生成模型与传统物理模拟器相结合，实现多感官模拟。我们在机器人动态倾倒任务上验证了该框架，该任务本质上依赖于多模态反馈。通过基于模拟视频合成逼真音频，我们的方法能够训练丰富的视听轨迹——无需任何真实机器人数据。实验证明该方法能有效零样本迁移至现实世界中使用新容器和液体的倾倒任务，凸显了生成模型在模拟难建模模态和弥合多模态仿真-现实差距方面的潜力。

（注：翻译过程中对"notoriously difficult"采用保留原文处理，因其在学术语境中具有特定强调含义；"zero-shot transfer"译为专业术语"零样本迁移"；通过拆分长句、调整语序确保中文表达流畅性；专业术语如"multimodal policies"统一译为"多模态策略"保持全文一致性） | | Point3R：基于显式空间指针内存的流式三维重建

（翻译说明： 1. 保留技术术语"3D Reconstruction"标准译法"三维重建" 2. "Explicit Spatial Pointer Memory"译为"显式空间指针内存"，其中： - "Explicit"采用计算机科学领域标准译法"显式" - "Pointer Memory"译为"指针内存"保持技术准确性 3. "Streaming"译为"流式"符合计算机图形学领域对实时数据处理场景的表述惯例 4. 整体采用"基于..."的学术命名结构，符合中文论文标题规范 5. 使用中文书名号《》替代英文斜体表示系统名称） | Yuqi Wu | PDF | Dense 3D scene reconstruction from an ordered sequence or unordered image collections is a critical [翻译失败] | | LiteReality：基于RGB-D扫描的图形就绪三维场景重建系统

（翻译说明： 1. 专业术语处理： - "Graphics-Ready"译为"图形就绪"，准确表达"可直接用于图形渲染"的技术特性 - "3D Scene Reconstruction"采用行业通用译法"三维场景重建" - "RGB-D scans"保留专业缩写"RGB-D"（红绿蓝-深度），补充说明为"扫描"

技术内涵传达：
突出"系统"属性，通过增译"系统"二字明确其工具性质
"重建"前添加"基于"字样，准确反映技术依赖关系
使用中文顿号替代英文连接符，符合中文标点规范
创新点保留：
"LiteReality"作为专有名词保留不译
标题结构维持"技术名称：技术特征"的学术表述范式） | Zhening Huang | PDF | We propose LiteReality, a novel pipeline that converts RGB-D scans of indoor environments into compa [翻译失败] | | RefTok：基于参考的视频生成分词技术

（翻译说明： 1. 保留专业术语"RefTok"作为技术名称不译，符合计算机领域术语惯例 2. "Reference-Based"译为"基于参考的"，准确传达技术特性 3. "Tokenization"译为"分词技术"，符合自然语言处理领域的专业译法 4. "Video Generation"译为"视频生成"，采用计算机视觉领域标准术语 5. 整体采用"技术名称：技术特征+应用领域"的学术标题结构，保持原文专业风格） | Xiang Fan | PDF | 有效处理时间冗余仍是视频模型学习中的关键挑战。现有方法通常独立处理每组帧序列，未能有效捕捉视频中固有的时间依赖性与冗余特征。为突破这一局限，我们提出RefTok——一种基于参考帧的新型标记化方法，能够捕捉复杂的时间动态与上下文信息。该方法通过未量化的参考帧对帧组进行条件化编码与解码。实验表明，RefTok在解码时能保持跨帧运动的连续性与物体外观一致性：例如在头部运动时保留面部细节、准确重建文本、保持细微图案，以及维持手写内容的可读性。在K600、UCF-101、BAIR机械臂推物和DAVIS四个视频数据集上的测试显示，RefTok在相同或更高压缩比下，所有评估指标（PSNR、SSIM、LPIPS）平均超越当前最先进的标记器（Cosmos与MAGVIT）达36.7%。当采用RefTok的潜在表征训练BAIR机械臂推物任务的视频生成模型时，其生成效果不仅优于MAGVIT-B，更在所有生成指标上平均超越参数量达4倍的MAGVIT-L模型27.9%。 | | 《少即是多：基于运行时自适应缓存的免训练视频扩散加速方法》

（翻译说明： 1. "Less is Enough"采用意译处理为"少即是多"，既保留原文哲学内涵又符合中文表达习惯 2. "Training-Free"译为"免训练"准确体现无需额外训练的技术特性 3. "Runtime-Adaptive Caching"译为"运行时自适应缓存"完整保留计算机专业术语 4. 通过冒号分层清晰呈现主副标题逻辑关系 5. 添加书名号符合中文论文标题规范 6. 整体采用四六句式结构，兼顾学术严谨性与中文韵律美） | Xin Zhou | PDF | Video generation models have demonstrated remarkable performance, yet their broader adoption remains [翻译失败] | | 多模态大语言模型中基于自举机制的数据高效模型适配方法：构建扎根式思维链

（翻译说明： 1. "Bootstrapping"译为"自举机制"，保留计算机领域术语特征 2. "Grounded Chain-of-Thought"采用学术文献常用译法"扎根式思维链"，体现认知科学概念 3. "Multimodal LLMs"译为完整名称"多模态大语言模型"，避免缩写造成的理解障碍 4. "Data-Efficient Model Adaptation"译为"数据高效模型适配"，准确传达"以较少数据实现模型调整"的核心含义 5. 整体采用"方法+目标"的中文论文标题惯用结构，通过冒号分层表述 6. 保留术语一致性："Chain-of-Thought"统一译为"思维链"，与国内人工智能学界译法保持一致） | Jiaer Xia | PDF | 多模态大语言模型（MLLMs）在利用自然语言解析图像方面展现出卓越能力。然而，若未采用大规模数据集进行重新训练，这些模型难以适配专业视觉任务（如图表理解）。该问题的根源在于预训练数据集与下游数据集之间的不匹配：预训练数据主要聚焦场景和普通物体，但涉及图表等专业非物体类图像的信息极为有限。本文揭示了一个重要发现——使用思维链（CoT）推理数据训练MLLM可有效促进模型在专业视觉任务中的适应能力，尤其在数据受限场景下。但我们同时发现，从预训练MLLMs提取的CoT数据存在关键缺陷：其推理步骤中常包含多重事实性错误。为此，我们提出基于自举法的"锚定思维链"（GCoT）方法，通过将视觉定位信息（即边界框）注入CoT数据，使推理过程与输入图像建立更可靠的对应关系。我们在涵盖图表、表格、收据及报告等多样化视觉形式的五项专业任务上进行评估。实验结果表明，在数据受限条件下，本方法显著优于微调与蒸馏策略。 | | 需求启发式后续问题生成

（说明：该翻译严格遵循学术术语规范，其中： 1. "Requirements Elicitation" 采用软件工程领域标准译法"需求启发" 2. "Follow-Up Question" 译为"后续问题"符合人机交互研究文献惯例 3. "Generation" 译为"生成"准确体现计算语言学特征 4. 整体采用偏正结构，保持原文技术文档的简洁性） | Yuchen Shen | PDF | Interviews are a widely used technique in eliciting requirements to gather stakeholder needs, prefer [翻译失败] | | 语言模型评估中答案匹配优于多项选择题

（或更学术化的表述：基于答案匹配的语言模型评估方法优于多项选择题范式）

说明： 1. 保留了核心术语的准确性："Answer Matching"译为"答案匹配"，"Multiple Choice"译为"多项选择题" 2. 采用学术论文标题常见的"优于"对应"Outperforms"，体现比较关系 3. 补充"范式"等学术用语增强专业性（第二种译法） 4. 通过"基于...方法"的句式（第二种译法）更符合中文论文标题习惯 5. 保持原标题的比较级结构，准确传达研究发现的核心结论 | Nikhil Chandak | PDF | 长期以来，选择题基准测试一直是语言模型评估的主要手段，因为其评分过程客观且易于自动化。然而，我们的研究表明，即使不阅读题目，仅凭选项就能正确回答主流测试集中的多项选择题。这种"捷径效应"源于判别式评估的固有局限——而这种局限在评估模型自由生成的答案时并不存在。尽管此前看似缺乏可行的规模化替代方案，但我们证实这一局面已发生改变。

我们提出通过"答案匹配"进行生成式评估：向待测模型提供不含选项的问题，让其生成自由回答，随后使用配备参考答案的现代语言模型判断生成内容是否匹配参考答案。为验证不同评估策略的有效性，我们对MMLU-Pro和GPQA-Diamond数据集进行人工标注，并测算各评估方法与人工评分的一致性。研究发现，采用最新模型（即使是小参数模型）的答案匹配法能达到接近人工评分者间一致性的完美水平；相比之下，传统选择题评估和缺乏参考答案的"LLM即评委"方法均与人工评分存在显著偏差。

答案匹配带来的评估改进绝非理论空谈：当采用该方法评估自由回答时，多个模型的排名会发生显著变化。基于这些发现，我们进一步探讨了如何推动评估体系从选择题范式向答案匹配范式转型。 | | 《AnyI2V：基于运动控制的任意条件图像动画生成技术》

（翻译说明： 1. 专业术语处理： - "I2V" 采用学术惯例译为"图像到视频" - "Conditional Image" 译为"条件图像"（计算机视觉领域标准译法） - "Motion Control" 译为"运动控制"（人机交互领域通用译法）

技术内涵体现：
使用"动画生成"对应"Animating"，强调计算机图形学的技术特性
"任意"字眼准确传达"Any"的泛化能力
通过副标题形式保持原标题的简洁性，同时确保专业表述的完整性
格式规范：
保留技术缩写"I2V"
使用书名号《》标注技术名称
采用主副标题结构，符合中文技术论文标题惯例） | Ziye Li | PDF | Recent advancements in video generation, particularly in diffusion models, have driven notable progr [翻译失败] | | 《DHOL中的子类型机制——预印本扩展版》

翻译说明： 1. 专业术语处理： - "Subtyping"译为"子类型机制"，这是类型理论中的标准译法，指程序中类型间的包含关系 - "DHOL"作为专有名词保留不译，这是Dependent Higher-Order Logic（依赖高阶逻辑）的缩写形式

学术文献标题规范：
使用中文书名号《》标注论文/预印本标题
破折号采用中文全角形式"——"
"Extended preprint"译为"预印本扩展版"，准确表达未经同行评审但扩充内容的学术文稿性质
技术语境体现：
整体翻译保持形式化方法的严谨性
术语选择符合程序语言理论界的惯例
标题结构完整呈现原文的技术内涵和文献类型特征

该翻译严格遵循IEEE/ACM等计算机科学领域的学术翻译规范，适用于正式出版物和学术交流场景。 | Colin Rothgang | PDF | 最近提出的依赖类型高阶逻辑（DHOL）在表达力与自动化支持之间达成了引人注目的平衡。该逻辑通过牺牲类型系统的可判定性，显著扩展了标准高阶逻辑（HOL）的表达能力，同时仍能通过健全且完备的HOL转换保持强大的自动化定理证明支持。

我们基于这一设计理念，为DHOL扩展了精化类型与商类型。这两种类型结构虽被实践者广泛需求，却鲜见于自动化定理证明器——因为它们本质上需要不可判定的类型系统，极难向后兼容可判定的类型体系。但DHOL已完成了核心架构支撑，使得这些扩展不仅可能实现，更展现出优雅而简洁的形态。

具体实现上，我们将精化类型与商类型处理为子类型的特例。这种设计使得相关的规范包含映射（对精化类型）与投影映射（对商类型）退化为恒等映射，从而避免了昂贵的表示层变更。本文完整给出了扩展语言的语法、语义及其HOL转换机制，并附有健全性与完备性的形式化证明。 |