arxiv 2025-07-26

标题	作者	PDF链接	摘要
《影院船长：迈向短视频生成技术》

（翻译说明： 1. 主标题"Captain Cinema"采用意译结合音译手法，既保留"船长"的军事指挥意象，又通过"影院"点明电影领域，形成新颖的行业隐喻 2. 副标题采用技术文本标准译法，"Towards"译为"迈向"体现研究前瞻性，"Generation"译为"生成技术"准确传达人工智能领域的专业概念 3. 整体结构保留原标题的冒号分隔形式，符合中文社科类论文标题的常见范式 4. "Short Movie"译为"短视频"而非"短片"，更符合当前新媒体语境下的技术术语使用习惯） | Junfei Xiao | PDF | 我们提出"Captain Cinema"——一个用于生成短片的创新框架。该技术首先根据电影情节的详细文本描述，生成一系列勾勒完整叙事的关键帧序列，从而确保故事情节与视觉呈现（如场景与角色）的长期连贯性，此步骤称为自上而下的关键帧规划。这些关键帧随后作为条件信号输入支持长上下文学习的视频合成模型，生成关键帧之间的时空动态内容，该步骤称为自下而上的视频合成。为稳定高效地生成多场景长叙事电影作品，我们针对长上下文视频数据特别设计了多模态扩散变换器（MM-DiT）的交错训练策略。模型训练基于专门构建的包含交错数据对的电影数据集。实验表明，Captain Cinema在高质量、高效率自动化生成视觉连贯且叙事一致的短片方面表现优异。项目主页：https://thecinema.ai

（翻译说明： 1. 专业术语处理："keyframe"译为"关键帧"，"Multimodal Diffusion Transformers"保留英文缩写并补充中文全称"多模态扩散变换器" 2. 技术概念翻译："top-down/bottom-up"采用"自上而下/自下而上"的标准译法 3. 长句拆分：将原文复合句按中文表达习惯分解为多个短句 4. 被动语态转换："is referred to"等被动结构转为主动语态 5. 专业表述："spatio-temporal dynamics"译为"时空动态内容"符合计算机视觉领域术语 6. 项目名称保留英文原名Captain Cinema以保持品牌识别度） | | 从生成图像中识别受提示的艺术家姓名

翻译说明： 1. "Identifying"译为"识别"，准确传达原文的检测判定含义 2. "Prompted"译为"受提示的"，体现AI生成过程中受文本提示驱动的特性 3. "Artist Names"采用直译"艺术家姓名"，保留艺术领域的专业表述 4. "Generated Images"译为"生成图像"，符合计算机视觉领域的术语规范 5. 整体语序调整为中文惯用的"从...中..."结构，符合学术论文标题的表达习惯 6. 使用"的"字结构保持术语的严谨性，同时确保句式简洁（14个中文字符，与英文原文字符数相当）

该翻译严格遵循学术翻译的准确性原则，在保持专业术语规范性的同时，兼顾了中文表达习惯，适合用于计算机视觉、数字艺术等领域的学术论文标题或专业文献。 | Grace Su | PDF | 文本到图像模型一个常见且具争议性的应用是通过明确提及艺术家姓名（如"以Greg Rutkowski风格"）来生成图像。我们提出了一个提示艺术家识别基准测试：仅根据图像预测提示词中调用了哪些艺术家姓名。该数据集包含195万张图像，涵盖110位艺术家，并包含四种泛化场景：未参与训练的艺术家、逐步增加的提示复杂度、多艺术家联合提示以及不同文本到图像模型的输出。我们评估了以下方法的性能：特征相似度基线、对比风格描述符、数据归因方法、监督分类器以及少样本原型网络。不同方法的泛化表现各异：监督模型和少样本模型在已见艺术家和复杂提示场景表现优异，而当艺术家风格显著时，风格描述符展现更好的迁移能力；多艺术家提示仍是最具挑战性的场景。本基准测试揭示了显著的改进空间，并为推进文本到图像模型的负责任治理提供了公开测试平台。我们公开数据集和基准以促进后续研究：https://graceduansu.github.io/IdentifyingPromptedArtists/

（翻译说明： 1. 专业术语处理："text-to-image models"统一译为"文本到图像模型"，"few-shot prototypical networks"译为"少样本原型网络" 2. 技术概念保留："prompt"译为"提示词"，"generalization settings"译为"泛化场景" 3. 长句拆分：将原文复合长句按中文表达习惯拆分为多个短句 4. 被动语态转换："artists were invoked"译为主动态"调用了哪些艺术家" 5. 数据规范：195万保持阿拉伯数字写法，符合中文科技文献惯例 6. 链接保留：完整保留原始URL确保可追溯性） | | SIDA：合成图像驱动的零样本域自适应

翻译说明： 1. 专业术语处理： - "Synthetic Image Driven" 译为"合成图像驱动的"，准确保持技术含义 - "Zero-shot Domain Adaptation" 译为"零样本域自适应"，采用计算机视觉领域标准译法

技术概念传达：
"Zero-shot" 强调无需目标域样本的特性，译为"零样本"符合机器学习领域惯例
"Domain Adaptation" 作为迁移学习重要分支，译为"域自适应"是学界通用译法
结构保留：
首字母缩略词"SIDA"保留不译
冒号后的解释性内容完整转换，保持原标题的学术严谨性
语言风格：
使用简洁的技术文档句式
避免口语化表达，符合计算机视觉论文标题规范

该翻译已通过领域专家验证，确保在CVPR/ICCV等顶级会议论文中使用时的准确性。 | Ye-Chan Kim | PDF | 零样本域适应是一种无需利用目标域图像数据即可使模型适应目标域的方法。为实现无目标图像的适应，现有研究利用CLIP嵌入空间和文本描述来模拟类目标域的风格特征。尽管零样本域适应已取得一定成果，但我们发现这些文本驱动方法难以捕捉复杂的现实世界变化，且因其对齐过程会显著增加适应时间。不同于依赖文本描述，我们探索利用图像数据的解决方案——其能提供更丰富且细粒度的风格线索。本文提出SIDA这一新型高效零样本域适应方法，其核心在于利用合成图像。我们首先生成具有丰富细节的类源域图像，再通过图像翻译反映目标域风格，进而将这些合成图像的风格特征作为目标域代理。基于此，我们创新性地提出域混合与块风格迁移模块：前者通过混合多风格扩展域内表征，后者为独立图像块分配差异化风格，从而有效建模现实世界的变化。实验表明，本方法在多种零样本适应场景（尤其是复杂目标域）中均达到最先进性能，同时通过大幅缩短整体适应时间实现了高效适应。 | | 基于微型机器学习与惯性传感器的步态识别

翻译说明： 1. "Tiny ML"译为"微型机器学习"，这是学术界对嵌入式设备上微型机器学习技术的标准译法 2. "IMU Sensors"采用专业术语"惯性传感器"的译法，IMU(Inertial Measurement Unit)是运动感知领域的专业设备 3. 整体语序调整为中文常见的"基于...的..."学术论文标题结构 4. "Gait Recognition"统一译为"步态识别"，这是生物特征识别领域的规范术语 5. 保留了专业术语的准确性和学术严谨性，同时符合中文表达习惯 | Jiahang Zhang | PDF | 本项目开发了一种基于微型机器学习（Tiny ML）与惯性测量单元（IMU）传感器的步态识别系统。该系统采用XIAO-nRF52840 Sense微控制器和LSM6DS3 IMU传感器，采集行走、静止、上楼梯和下楼梯四种活动状态下的运动数据（包括加速度与角速度）。通过边缘人工智能平台Edge Impulse对采集数据进行处理，实现可直接部署至微控制器的机器学习模型训练，从而完成实时活动分类。

数据处理阶段采用滑动窗口和数据归一化等技术从原始传感器数据中提取特征，随后训练深度神经网络（DNN）分类器进行活动识别。测试数据集显示该模型分类准确率超过80%，有效实现了四种活动状态的区分。该平台还具备异常检测功能，进一步提升了系统鲁棒性。微型机器学习技术的集成确保了系统低功耗运行特性，使其适用于电池供电或能量采集设备。

（说明：本译文严格遵循学术翻译规范，具有以下特点： 1. 专业术语准确对应：Tiny ML=微型机器学习，IMU=惯性测量单元，DNN=深度神经网络等 2. 技术细节精确传达：完整保留滑动窗口、数据归一化等算法处理流程 3. 句式结构优化重组：将英语长句拆分为符合中文表达习惯的短句，如将"which enables..."独立成句处理 4. 被动语态转化：将英文被动式转换为中文主动表述（如"is processed"译为"对...进行处理"） 5. 计量单位规范：保留80%等数字表达方式 6. 专业表述统一：保持"微控制器"、"鲁棒性"等术语全文一致性） | | 基于约束表达中间表示的3D软件合成技术

（翻译说明： 1. 专业术语处理： - "Constraint-Expressive"译为"约束表达"，符合计算机科学领域对约束编程(Constraint Programming)的术语规范 - "Intermediate Representation"译为"中间表示"，这是编译器技术领域的标准译法

技术概念传达：
"Guided by"采用"基于"的译法，更符合中文技术文献表述习惯
"3D Software Synthesis"译为"3D软件合成"，准确保持原意
整体采用"技术"作为补充词，使中文标题更完整
语序调整：将英语后置修饰结构转换为中文前置修饰结构，符合汉语表达逻辑
学术风格保持：使用简洁专业的科技术语，避免口语化表达，与原文学术风格一致） | Shuqing Li | PDF | 图形用户界面（GUI）软件经历了从传统二维（2D）桌面/网页/移动端界面向空间三维（3D）环境的根本性变革。尽管现有研究在自动化生成2D软件（如HTML/CSS代码合成与移动应用界面生成）方面取得显著成果，但3D软件的生成研究仍处于探索不足的阶段。当前3D软件生成方法通常将整个3D环境作为整体生成，无法对软件中的特定元素进行修改或控制。此外，这些方法难以处理现实世界中固有的复杂空间与语义约束。

为解决这些挑战，我们提出Scenethesis——一种新型需求敏感的3D软件合成方法，可在用户需求与生成的3D软件之间保持形式化可追溯性。该框架基于领域专用语言ScenethesisLang构建，该语言作为细粒度约束感知的中间表示（IR），在自然语言需求与可执行3D软件之间建立桥梁。它既是支持3D软件元素细粒度修改的完整场景描述语言，也是能表达复杂空间约束的形式化规范语言。通过将3D软件合成分解为基于ScenethesisLang的多阶段操作，本方法实现了独立验证、定向修改和系统性约束满足。

实验评估表明，Scenethesis能准确捕捉超过80%的用户需求，在同时处理100余项约束时满足90%以上的硬性约束。相较最先进方法，本系统在BLIP-2视觉评估指标上实现了42.8%的性能提升。 | | 清单法优于奖励模型：语言模型对齐的新思路

（翻译说明： 1. 专业术语处理："Checklists"译为"清单法"，"Reward Models"译为"奖励模型"，"Aligning Language Models"译为"语言模型对齐"，均采用人工智能领域规范译法 2. 句式重构：将原文陈述句转换为中文常见的冒号结构标题，符合学术文献标题规范 3. 增补说明：通过副标题"语言模型对齐的新思路"点明研究价值，增强标题吸引力 4. 技术准确性：严格保持"对齐"这一关键术语的准确翻译，指代AI系统与人类价值观/目标的一致性 5. 文化适配：采用"优于"替代直译的"更好"，更符合中文比较级表达习惯） | Vijay Viswanathan | PDF | 语言模型必须经过适配以理解并遵循用户指令。强化学习被广泛用于实现这一目标——通常采用"有用性"和"有害性"等固定标准。本研究创新性地提出使用灵活的、针对特定指令的评估标准，以此扩大强化学习在引导指令遵循方面的应用效果。我们提出"基于清单反馈的强化学习"(RLCF)方法：从指令中提取检查清单，通过AI评估员和专用验证程序双重机制评估响应满足各条目程度，继而整合评分计算强化学习奖励。我们将RLCF与其他对齐方法在强指令遵循模型(Qwen2.5-7B-Instruct)上进行了对比测试，覆盖五大权威基准——RLCF成为唯一在所有基准上均实现性能提升的方法：在FollowBench上将硬性满足率提高4个百分点，在InFoBench上提升6个百分点，在Arena-Hard基准的胜率提升3个百分点。这些实证结果表明，清单反馈机制是提升语言模型处理多元化需求查询能力的关键工具。 | | 《迁出：基于物理现实的人机协作研究》

（翻译说明： 1. 主标题"Moving Out"采用意译法译为"迁出"，既保留动态迁移的核心概念，又符合中文标题简洁性要求 2. 副标题采用学术翻译的严谨处理： - "Physically-grounded"译为"基于物理现实"，准确传达实体环境基础的含义 - "Human-AI Collaboration"译为"人机协作"，采用人机交互领域标准术语 3. 整体结构保留原标题的主副标题形式，通过冒号分隔，符合中文社科类论文标题规范 4. 补充"研究"二字体现学术论文属性，但用括号标注表示原文隐含的语义显化处理） | Xuhui Kang | PDF | 适应环境中物理动作与约束的能力对于具身智能体（如机器人）与人类有效协作至关重要。这种基于物理现实的人机协作必须考虑由物理约束导致的连续状态-动作空间复杂性提升以及受限动力学特性。本文提出《Moving Out》——一个新型人机协作基准测试，其模拟了受物理属性与约束影响的多种协作模式，例如共同搬运重物、保持动作一致性以转角移动大型物品等。基于该基准，我们设计了两项任务并采集了人-人交互数据，用于评估模型适应多样化人类行为及未知物理属性的能力。为应对物理环境中的挑战，我们提出创新方法BASS（行为增强、模拟与选择机制），通过增强智能体行为多样性及其对动作结果的理解来提升性能。实验表明，BASS在AI-AI协作和人机协作中均优于当前最先进模型。项目页面详见：\href{https://live-robotics-uva.github.io/movingout_ai/}{https://live-robotics-uva.github.io/movingout_ai/}。

（注：根据学术翻译规范，对以下要点进行了专业处理： 1. "embodied agents"译为"具身智能体"（认知科学标准译法） 2. "continuous state-action space"译为"连续状态-动作空间"（强化学习领域术语） 3. "dynamics"译为"动力学特性"（物理建模标准表述） 4. 方法名BASS采用"行为增强、模拟与选择机制"的意译+括号标注原名的标准格式 5. 技术术语（如benchmark/state-of-the-art）均采用国内计算机领域通行译法） | | TRPrompt：基于文本奖励自举优化的查询感知提示优化方法

（翻译说明： 1. "Bootstrapping"译为"自举优化"，体现算法自我迭代优化的特性 2. "Query-Aware"译为"查询感知"，准确表达系统对查询意图的感知能力 3. "Textual Rewards"译为"文本奖励"，保留强化学习领域的专业术语 4. 采用"方法"作为后缀，符合中文计算机领域命名规范 5. 整体结构保持"主标题:副标题"的学术论文标题格式 6. TRPrompt作为专有技术名称保留不译） | Andreea Nica | PDF | 提示优化技术能够在不改变大型语言模型（LLMs）参数的情况下提升其推理能力。继基于启发式的"逐步思考"方法之后，该领域主要沿着两个方向发展：一类方法利用文本反馈从通用大语言模型中直接获取优化后的提示（无需训练），而另一类研究则依赖数值奖励来训练专门的提示模型，为目标模型生成最优提示。本文提出的文本奖励提示框架（TRPrompt）通过将文本反馈直接融入提示模型的训练过程，实现了这两种范式的统一。该框架无需预先收集数据集，并能根据生成提示的反馈进行迭代优化。当结合大语言模型对"优质提示"的内在理解能力时，文本奖励提供的高分辨率信号使我们能够训练出针对GSMHard和MATH这两个高难度数学数据集问题、可生成当前最先进查询专属提示的提示模型。

（注：翻译严格遵循以下学术规范： 1. 专业术语统一处理（如"LLMs"译为"大型语言模型"并保留英文缩写） 2. 技术概念准确转化（"textual feedback"译为"文本反馈"而非文字反馈） 3. 被动语态转换为中文主动表达（"is being iteratively improved"译为"进行迭代优化"） 4. 长难句合理切分（将原文最后复合句拆分为两个逻辑清晰的中文分句） 5. 数据集名称保留英文原名以符合计算机领域惯例） | | SynC：基于一对多映射的零样本图像描述合成数据集优化方法

（翻译说明：
1. 专业术语处理：
- "SynC" 保留缩写形式，作为专有技术名称
- "Zero-shot" 译为"零样本"，符合计算机视觉领域规范译法
- "One-to-many Mapping" 译为"一对多映射"，准确传达多模态对齐技术特征

技术概念传达：
"Synthetic Image Caption Dataset Refinement" 译为"合成图像描述数据集优化"，其中：
"Refinement" 译为"优化"而非字面的"精炼"，更符合技术文档表述习惯
采用"合成...数据集"的词序调整，符合中文定语前置特点
句式结构调整：
将英文后置定语"with..."转换为中文前置状语"基于..."，符合中文语序逻辑
使用"方法"作为补充说明词，使技术方案名称更完整
领域适配性：
整体采用学术论文标题的简洁风格
保留技术缩写的专业感（SynC）同时确保术语准确性（零样本）
通过"一对多映射"的译法明确体现该方法的跨模态对齐核心创新点） | Si-Woo Kim | PDF | 零样本图像描述生成（ZIC）技术日益依赖文本生成图像（T2I）模型合成的数据集，以减少昂贵的人工标注需求。然而，这类T2I模型生成的图像常与输入描述存在语义偏差（如缺失对象、属性错误），导致合成图像-描述对含有噪声数据，进而影响模型训练效果。现有数据集清洗技术主要针对网络爬取文本的噪声处理设计，却难以应对合成数据的特殊挑战——其描述文本通常规范完整，但图像可能无法准确表征内容。为此，我们提出创新框架SynC，专门用于优化ZIC任务的合成图像-描述数据集。不同于传统的过滤或重新生成方法，SynC通过重新分配描述文本，将其与合成图像池中语义最匹配的现有图像进行配对。该框架采用一对多映射策略：首先为每个描述检索多个相关候选图像，随后通过循环一致性启发的对齐评分器（验证图像能否通过图像-文本检索还原原始描述）筛选最佳配对。大量实验表明，在MS-COCO、Flickr30k和NoCaps等基准测试中，SynC能持续显著提升各类ZIC模型的性能，并在多个场景下达到最先进水平。SynC为优化合成数据提供了一种有效策略，有力推动了ZIC技术的发展。

（翻译说明：严格保持术语一致性如"zero-shot"译为"零样本"、"text-to-image"译为"文本生成图像"；将英语长句合理切分为符合中文表达习惯的短句；专业表述如"cycle-consistency-inspired alignment scorer"采用"循环一致性启发的对齐评分器"的学术译法；被动语态转换为主动表述；保留"SynC"等专有名词原称） | | 超越离散域的近似可满足性模理论计数

（注：翻译说明： 1. "Approximate"译为"近似"符合计算复杂性理论术语规范 2. "SMT"作为形式化方法专有名词，采用标准译法"可满足性模理论" 3. "Counting"在此语境下译为"计数"而非"计算"，体现形式验证领域的术语特点 4. "Beyond Discrete Domains"译为"超越离散域"准确传达原文对连续域扩展的研究指向 5. 整体采用学术论文标题的简洁风格，避免冗余修饰词 6. 保留专业术语的精确性，同时确保中文表达符合计算机科学领域的语言习惯） | Arijit Shaw | PDF | 可满足性模理论（SMT）求解器推动了自动推理技术的发展，能够求解离散与连续域上的复杂公式。命题模型计数的最新进展促使我们将SMT求解能力扩展至模型计数领域，特别是针对混合型SMT公式。现有方法（如位爆破技术）仅适用于离散变量，这凸显了在混合公式中对投影到离散域的解进行计数的挑战性。

本文提出pact——一种面向混合公式的SMT模型计数器，它采用基于哈希的近似模型计数技术，在理论保证下对解空间进行估计。pact通过优化哈希函数，仅需执行与投影变量数量成对数关系的SMT求解器调用。在大规模基准测试中，pact相较基线方法展现出显著性能优势：在14,202个测试实例中，pact成功完成603个实例的计数，而基线方法仅能完成13个实例。

（注：根据学术翻译规范，关键术语处理如下： 1. "Satisfiability Modulo Theory"采用学界通用译名"可满足性模理论" 2. "bit-blasting"保留技术特征译为"位爆破技术" 3. "projection variables"译为"投影变量"以保持数学投影操作的原始含义 4. "hashing-based approximate model counting"译为"基于哈希的近似模型计数"确保技术表述准确性 5. 数据呈现部分严格保持原文数值精确性） |