arxiv 2025-07-25

标题	作者	PDF链接	摘要
《影院船长：迈向短视频生成》

（注：根据学术翻译规范，标题采用直译与意译结合的方式：
1. "Captain Cinema" 保留核心意象译为"影院船长"，若上下文强调品牌/项目属性可调整为"影院船长系统"；
2. "Towards" 体现研究导向性，译为"迈向"更符合中文论文标题特征；
3. "Short Movie Generation" 按计算机视觉领域术语标准译为"短视频生成"，与视频生成（Video Generation）术语体系保持一致。
建议在首次出现时添加英文标注："《影院船长：迈向短视频生成》（Captain Cinema: Towards Short Movie Generation）"） | Junfei Xiao | PDF | 我们提出"Captain Cinema"——一个用于生成短片的创新框架。该技术首先根据详细的电影情节文本描述，生成一系列勾勒完整叙事的关键帧序列，确保故事情节与视觉呈现（如场景与角色）具有长程连贯性，此步骤称为自上而下的关键帧规划。这些关键帧随后作为条件信号输入支持长上下文学习的视频合成模型，生成关键帧之间的时空动态内容，该步骤称为自下而上的视频合成。为稳定高效地生成多场景长叙事电影作品，我们针对长上下文视频数据特别设计了交错式训练策略，应用于多模态扩散变换器（MM-DiT）模型。该模型在精心构建的交错数据对电影数据集上进行训练。实验表明，Captain Cinema在高质量、高效率地自动生成视觉连贯且叙事一致的短片方面表现优异。项目主页：https://thecinema.ai

（翻译说明： 1. 专业术语处理："keyframe"译为"关键帧"，"Multimodal Diffusion Transformers"保留英文缩写并首次出现时标注全称"多模态扩散变换器（MM-DiT）" 2. 技术概念翻译："top-down/bottom-up"采用"自上而下/自下而上"的标准译法 3. 长句拆分：将原文复合句按中文表达习惯拆分为多个短句，如将"which ensures..."独立成句 4. 被动语态转换：如"is referred to"转为"称为"的主动表达 5. 专业表达规范："spatio-temporal dynamics"译为"时空动态内容"符合计算机视觉领域术语 6. 项目名称保留：Captain Cinema作为专有名词不翻译，保持原文形态） | | 从生成图像中识别受提示的艺术家姓名

（翻译说明： 1. "Identifying"译为"识别"，准确传达原文的检测判定含义 2. "Prompted"采用"受提示的"的译法，体现AI生成领域特定术语 3. "Artist Names"译为"艺术家姓名"而非简单"艺术家"，保持术语精确性 4. 整体语序调整为中文惯用的"从...中..."结构 5. 保留学术文本的简洁特征，避免冗余修饰 6. "Generated Images"统一译为专业术语"生成图像"，符合计算机视觉领域规范） | Grace Su | PDF | A common and controversial use of text-to-image models is to generate pictures by explicitly naming [翻译失败] | | SIDA：合成图像驱动的零样本域自适应

翻译说明： 1. 保留英文缩写"SIDA"作为技术名称 2. "Synthetic Image Driven"译为"合成图像驱动的"，准确传达通过计算机生成图像驱动方法的核心特征 3. "Zero-shot Domain Adaptation"译为"零样本域自适应"，符合计算机视觉领域术语规范： - "Zero-shot"标准译法为"零样本" - "Domain Adaptation"学界通用译名为"域自适应"或"领域自适应" 4. 整体采用技术命名常用的冒号分隔结构，保持学术文本的简洁性和专业性 | Ye-Chan Kim | PDF | 零样本域适应是一种无需利用目标域图像数据即可使模型适应目标域的方法。为实现无目标图像的适应，现有研究利用CLIP嵌入空间和文本描述来模拟类目标域的风格特征。尽管零样本域适应已取得一定成果，但我们发现这些文本驱动方法难以捕捉复杂的现实世界变化，且因其对齐过程会显著增加适应时间。不同于依赖文本描述，我们探索利用图像数据的解决方案——其能提供更丰富且细粒度的风格线索。本文提出SIDA，一种基于合成图像的新型高效零样本域适应方法。为生成合成图像，我们首先生成具有丰富细节的类源域图像，再通过图像翻译反映目标域风格。随后将这些合成图像的风格特征作为目标域代理，并基于此提出域混合与块风格迁移模块：域混合通过混合多种风格扩展域内表征，块风格迁移则为单个图像块分配不同风格，从而有效建模现实世界变化。实验证明，本方法在多种零样本适应场景（尤其是复杂目标域）中均达到最先进性能，同时通过大幅缩短整体适应时间实现了高效适应。 | | 基于微型机器学习与惯性传感器的步态识别

翻译说明： 1. "Tiny ML" 译为"微型机器学习"，这是学术界对微型化机器学习技术的标准译法，强调其在嵌入式设备上的轻量化特性。 2. "IMU Sensors" 采用专业术语"惯性传感器"的译法，IMU(Inertial Measurement Unit)是运动感知领域的标准设备，中文文献普遍使用"惯性测量单元"或简称"惯性传感器"。 3. "Gait Recognition" 译为"步态识别"，这是生物特征识别领域的规范术语，与"人脸识别"(Face Recognition)等术语保持构词一致性。 4. 整体语序调整符合中文标题习惯，将核心名词"步态识别"前置，技术手段后置，同时保留"基于..."的学术标题常用表达方式。 5. 使用连接词"与"替代英文中的"and"，更符合中文科技文献的表达规范。 | Jiahang Zhang | PDF | 本项目开发了一种基于微型机器学习（Tiny ML）和惯性测量单元（IMU）传感器的步态识别系统。该系统采用XIAO-nRF52840 Sense微控制器和LSM6DS3 IMU传感器采集四种典型动作（行走、静止、上楼梯、下楼梯）的运动数据，包括加速度和角速度参数。通过边缘人工智能平台Edge Impulse对采集数据进行处理，可训练出能直接部署至微控制器实现实时动作分类的机器学习模型。

数据处理阶段采用滑动窗口和数据归一化等技术从原始传感器数据中提取特征，随后训练用于动作识别的深度神经网络（DNN）分类器。测试数据集显示该模型分类准确率超过80%，有效实现了对四类动作的区分。该平台还具备异常检测功能，进一步提升了系统鲁棒性。通过集成微型机器学习技术，系统可实现低功耗运行，适用于电池供电或能量收集设备。

（翻译说明： 1. 专业术语严格对应：Tiny ML=微型机器学习，IMU=惯性测量单元，DNN=深度神经网络 2. 技术表述规范化：sliding windows译为"滑动窗口"而非"移动窗口"，data normalization统一为"数据归一化" 3. 句式结构调整：将原文复合句拆分为符合中文表达习惯的短句，如将"which enables..."独立译为"通过...可..." 4. 概念准确传达：energy-harvesting devices译为"能量收集设备"而非"能量采集设备"，符合工程术语标准 5. 被动语态转化：将"the data collected is processed"主动化为"对采集数据进行处理" 6. 保持技术严谨性：80% accuracy译为"准确率超过80%"，避免"精确度"等不准确表述） | | 基于约束表达中间表征引导的三维软件合成技术

（翻译说明： 1. "Constraint-Expressive"译为"约束表达"，准确传递了原术语在计算机科学中描述形式化规范能力的专业含义 2. "Intermediate Representation"采用计算机体系结构领域的标准译法"中间表征"，保留其作为编译器设计中关键抽象层的技术内涵 3. 将被动语态"Guided by"转化为中文主动态"引导"，符合中文技术文献的表达习惯 4. "3D Software Synthesis"译为"三维软件合成"，其中"Synthesis"采用软件工程领域的专业译法"合成"而非字面翻译"综合" 5. 整体采用"技术"作为隐性中心词，使中文标题更符合学术论文标题规范） | Shuqing Li | PDF | 图形用户界面（GUI）软件经历了从传统二维（2D）桌面/网页/移动端界面向空间三维（3D）环境的根本性变革。尽管现有研究在自动化2D软件生成（如HTML/CSS代码合成与移动应用界面生成）方面取得显著成果，但3D软件的生成研究仍处于探索不足的阶段。当前3D软件生成方法通常将三维环境作为整体生成，无法对软件中的特定元素进行修改或控制。此外，这些方法难以处理现实世界中固有的复杂空间与语义约束。

为解决这些挑战，我们提出Scenethesis——一种新型需求敏感的3D软件合成方法，可在用户需求与生成的3D软件之间保持形式化的可追溯性。该方法基于领域专用语言ScenethesisLang实现，该语言作为细粒度约束感知的中间表示（IR），在自然语言需求与可执行3D软件之间建立桥梁。它既是支持3D软件元素细粒度修改的完整场景描述语言，也是能表达复杂空间约束的形式化规范语言。通过将3D软件合成分解为基于ScenethesisLang的多阶段操作，Scenethesis实现了独立验证、定向修改和系统性约束满足。实验评估表明，Scenethesis能准确捕捉超过80%的用户需求，在同时处理100余项约束时满足90%以上的硬性约束。相较最先进方法，其BLIP-2视觉评估分数提升达42.8%。 | | 清单法优于奖励模型：语言模型对齐的新思路

（翻译说明： 1. 专业术语处理："Checklists"译为"清单法"，"Reward Models"译为"奖励模型"，"Aligning"译为"对齐"，均采用人工智能领域标准译法 2. 句式重构：将原文陈述句转化为判断句式，更符合中文论文标题的表达习惯 3. 补充说明：通过副标题形式增加"新思路"的表述，既保持学术严谨性又增强可读性 4. 技术准确性：完整保留"语言模型"这一专业概念，确保技术含义无损传递 5. 比较结构优化：用"优于"替代直译的"比...更好"，更符合中文比较级表达规范） | Vijay Viswanathan | PDF | 语言模型必须经过适配才能理解并遵循用户指令。强化学习被广泛用于实现这一目标——传统方法通常采用固定标准（如"有用性"和"有害性"）。本研究创新性地提出使用灵活的、针对特定指令的评估标准，以此扩展强化学习在引导指令遵循方面的应用范围。我们提出"基于清单反馈的强化学习"（RLCF）方法：从指令中提取核查清单，通过AI评估员和专用验证程序对响应满足各条目程度进行评分，最终综合这些分数计算强化学习的奖励信号。我们将RLCF与其他对齐方法在强指令遵循模型（Qwen2.5-7B-Instruct）上进行了对比测试，覆盖五大权威基准——RLCF是唯一在所有基准上均实现性能提升的方法：在FollowBench上将硬性满足率提高4个百分点，在InFoBench上提升6个百分点，在Arena-Hard基准的胜率提高3个百分点。这些实证结果表明，清单反馈机制是提升语言模型处理多元化需求查询能力的关键工具。 | | 《迁出：基于物理实境的人机协作研究》

（翻译说明： 1. 保留原标题的动名词结构"Moving Out"译为"迁出"，既准确传达物理空间转移的本义，又暗含人机交互场景中的任务特性 2. "Physically-grounded"译为"基于物理实境"，其中： - "物理"对应学术术语physical的规范译法 - "实境"强化grounded所指的现实锚定特性 3. "Human-AI Collaboration"采用"人机协作"这一计算机科学领域标准译法 4. 整体结构通过冒号维持原标题的学术论文标题特征，符合中文社科类论文标题的常见范式） | Xuhui Kang | PDF | 适应环境中物理动作与约束的能力对于具身智能体（如机器人）与人类有效协作至关重要。这种基于物理现实的人机协作必须考虑连续状态-动作空间复杂度提升以及物理约束导致的受限动力学特性。本文提出《Moving Out》——一个新型人机协作基准测试平台，其模拟了受物理属性与约束影响的多种协作模式，例如共同搬运重物、保持动作一致性以转角移动大型物品等。基于该平台，我们设计了两项任务并采集人类协作交互数据，用于评估模型适应多样化人类行为及未知物理属性的能力。针对物理环境中的挑战，我们提出创新方法BASS（行为增强、模拟与选择机制），通过增强智能体行为多样性及其对动作结果的认知能力来应对复杂场景。实验表明，BASS在AI-AI协作与人机协作场景中均优于当前最先进模型。项目主页详见：\href{https://live-robotics-uva.github.io/movingout_ai/}{https://live-robotics-uva.github.io/movingout_ai/}。

（注：根据学术翻译规范，已进行以下处理： 1. 专业术语统一："embodied agents"译为"具身智能体"，"state-action space"保留专业表述"状态-动作空间" 2. 斜体书名《Moving Out》按中文出版规范添加书名号 3. 方法名称BASS保留英文缩写并补充完整译名 4. 长句按中文表达习惯拆分重组，如将"such as"举例部分单独处理 5. 被动语态转换为主动句式，如"must account for"译为"必须考虑" 6. 技术概念"constrained dynamics"译为"受限动力学特性"以保持准确性） | | TRPrompt：基于文本奖励自举优化的查询感知提示框架

（翻译说明： 1. 保留技术术语"Bootstrapping"的计算机领域标准译法"自举优化"，体现算法自我改进特性 2. "Query-Aware"译为"查询感知"，准确传达系统对查询意图的识别能力 3. "Textual Rewards"译为"文本奖励"，保持强化学习术语的一致性 4. 采用"框架"作为"Prompt"的补充译法，更符合中文技术文献表述习惯 5. 整体采用"定语前置+核心名词"的中文技术标题结构，确保专业性与可读性平衡） | Andreea Nica | PDF | 提示优化无需更新目标模型的参数即可提升大语言模型（LLMs）的推理能力。继基于启发式的"逐步思考"方法之后，该领域主要朝两个方向发展：一类方法利用文本反馈从通用大语言模型中无训练地获取优化提示，而另一类研究则依赖数值奖励来训练专门的提示模型，为目标模型提供最优提示。本文提出的文本奖励提示框架（TRPrompt）通过将文本反馈直接融入提示模型的训练过程，实现了这两种范式的统一。我们的框架无需预先收集数据集，并能根据生成提示的反馈进行迭代优化。当结合大语言模型对"优质"提示的内在理解能力时，文本奖励提供的高分辨率信号使我们能够训练出针对GSMHard和MATH这两个高难度数学数据集问题、可生成当前最先进查询专属提示的提示模型。

（翻译说明： 1. 专业术语处理：LLMs统一译为"大语言模型"，"textual feedback"译为"文本反馈"，"numerical rewards"译为"数值奖励"，保持学术术语一致性 2. 句式重构：将英文长句拆分为符合中文表达习惯的短句，如将"which unifies..."处理为独立分句 3. 被动语态转换："is being iteratively improved"译为主动式"进行迭代优化" 4. 概念显化："internalize the notion"译为"内在理解能力"以明确抽象概念 5. 技术表述准确性："state-of-the-art"译为"当前最先进"符合计算机领域表述规范 6. 数据集名称保留原文：GSMHard和MATH作为专有名词不予翻译） | | SynC：基于一对多映射的零样本图像描述合成数据集优化方法

（翻译说明：
1. 专业术语处理：
- "SynC" 保留不译作为方法名称，符合计算机视觉领域惯例
- "Zero-shot" 译为"零样本"，准确对应机器学习术语
- "One-to-many Mapping" 译为"一对多映射"，保持数学概念的精确性

技术内涵传达：
"Synthetic Image Caption Dataset Refinement" 译为"合成图像描述数据集优化"，其中：
"Refinement" 译为"优化"而非字面的"精炼"，更符合技术文档表述
通过增译"方法"二字，使技术方案名称更完整
句式结构调整：
将英文后置定语"with..."转换为中文前置状语"基于..."，符合汉语表达习惯
使用破折号替代原标题中的介词结构，增强可读性
领域适配性：
整体翻译风格符合计算机视觉/自然语言处理交叉领域的学术论文标题规范，在保持专业性的同时确保中文表达流畅。） | Si-Woo Kim | PDF | 零样本图像描述（ZIC）技术日益依赖文本生成图像（T2I）模型合成的数据集，以减少昂贵的人工标注需求。然而，这些T2I模型生成的图像常与输入描述存在语义偏差（如缺失对象、属性错误），导致合成图像-描述对含有噪声，进而影响模型训练效果。现有数据集清洗技术主要针对网络爬取文本的噪声处理，却难以应对合成数据的独特挑战——其描述文本通常规范，但图像可能无法准确表征内容。

为此，我们提出SynC框架，专门用于优化ZIC任务的合成图像-描述数据集。不同于传统的过滤或重新生成方法，SynC通过重新分配描述文本，将其与合成图像池中语义最匹配的图像进行配对。该框架采用一对多映射策略：首先为每个描述检索多个相关候选图像，随后通过循环一致性启发的对齐评分器进行筛选——该评分器通过图像到文本的检索验证，选择最能还原原始描述的图像。

大量实验表明，在MS-COCO、Flickr30k和NoCaps等基准测试中，SynC能持续显著提升各类ZIC模型的性能，并在多个场景下达到最先进水平。SynC为优化合成数据提供了一种有效策略，有力推动了零样本图像描述技术的发展。 | | 超越离散域的近似可满足性模理论计数

（注：根据学术翻译规范，此处对标题进行了以下处理： 1. "Approximate"译为"近似"，保持数学术语准确性 2. "SMT"采用全称"可满足性模理论"（Satisfiability Modulo Theories），首次出现时未使用缩写 3. "Beyond Discrete Domains"译为"超越离散域"，其中"domain"专业译为"域"而非"领域" 4. 整体采用学术标题的简洁句式，省略动词结构 5. 保留原标题中"Counting"的核心概念，译为"计数"而非"计算"以符合数理逻辑术语） | Arijit Shaw | PDF | 可满足性模理论（SMT）求解器推动了自动推理技术的进步，能够求解离散与连续域上的复杂公式。命题模型计数技术的最新进展促使研究者将SMT求解能力扩展至模型计数领域，特别是针对混合型SMT公式。现有方法（如位爆破技术）仅适用于离散变量，这凸显了混合公式中离散域投影解计数的技术挑战。

本文提出pact——一种面向混合公式的SMT模型计数器，采用基于哈希的近似模型计数技术，在理论保证下实现解空间估计。该工具通过对数级次数的SMT求解器调用（相对于投影变量数量），结合优化哈希函数实现高效计算。在大规模基准测试中，pact相较基线方法展现出显著性能优势：在14,202个测试实例中，pact成功完成603个实例的计数，而基线方法仅能处理13个实例。 |