arxiv 2025-09-06

标题	作者	PDF链接	摘要
虚拟试衣间：基于单张图像生成任意长度虚拟试穿视频——技术预览版

（注：该翻译严格遵循了学术术语的准确性要求： 1. "Virtual Fitting Room" 采用行业通用译法"虚拟试衣间" 2. "Generating Arbitrarily Long Videos" 译为"生成任意长度视频"保持技术准确性 3. "Virtual Try-On" 译为"虚拟试穿"符合计算机视觉领域术语规范 4. "Technical Preview" 译为"技术预览版"准确体现阶段性技术展示属性 5. 整体采用破折号连接主副标题，符合中文技术文献标题规范） | Jun-Kun Chen | PDF | 我们推出虚拟试衣间（VFR）——一种创新的视频生成模型，能够生成任意时长的虚拟试穿视频。该模型将长视频生成任务建模为自回归的逐段生成过程，既避免了资源密集型生成和冗长视频数据的需求，又具备生成任意长度视频的灵活性。此任务面临双重关键挑战：确保相邻片段间的局部流畅性，以及维持不同片段间的全局时序一致性。为解决这些挑战，我们提出VFR框架：通过前缀视频条件保证片段间平滑过渡，并借助锚点视频（完整记录人体360度外观的全方位视频）强化全局一致性。我们的VFR模型能在各种运动状态下生成具有局部流畅性和全局时序一致性的分钟级虚拟试穿视频，是长时序虚拟试穿视频生成领域的开创性工作。 | | ChronoGraph：基于真实世界图结构的多元时间序列数据集

（注：翻译严格遵循以下原则： 1. 保留专业术语"Graph-Based"译为"基于图结构"、"Multivariate Time Series"译为"多元时间序列" 2. 保持学术文献命名规范，使用冒号分隔主副标题 3. "Real-World"准确译为"真实世界"以区分仿真数据集 4. 术语"Dataset"统一译为"数据集"符合计算机领域惯例） | Adrian Catalin Lutu | PDF | 我们推出ChronoGraph——一个基于真实生产环境微服务构建的图结构多元时间序列预测数据集。每个节点代表一个服务，可发出包含CPU、内存及网络使用模式等多维度系统性能指标的数据流，而有向边则编码服务间的依赖关系。该数据集的核心任务是实现服务层级信号的未来值预测。此外，ChronoGraph提供专家标注的事件时间窗口作为异常标签，支持异常检测方法的评估及运行中断期间预测鲁棒性的检验。相较于工业控制系统或交通与空气质量领域的现有基准数据集，ChronoGraph独特地融合了三大要素：(i) 多元时间序列；(ii) 显式机器可读的依赖图谱；(iii) 与真实事件对齐的异常标签。我们报告了涵盖预测模型、预训练时间序列基础模型及标准异常检测器的基线结果。ChronoGraph为研究微服务系统中结构感知预测与事件感知评估提供了真实可靠的基准平台。 | | TRUST-VL：面向通用多模态虚假信息检测的可解释新闻助手

（注：TRUST-VL作为专有名词保留原文形式，通过冒号衔接解释性译名。"Explainable"译为"可解释"符合人工智能领域术语规范，"Multimodal Misinformation Detection"采用"多模态虚假信息检测"这一学界通用译法，整体结构保持学术标题的简洁性与专业性。） | Zehong Yan | PDF | 多模态虚假信息——涵盖文本、视觉及跨模态的失真形式——正因生成式人工智能的推波助澜而构成日益严峻的社会威胁。现有检测方法通常仅针对单一失真类型，且难以泛化至未见过的新场景。本研究通过观察发现：不同类型的失真虽然需要特定任务技能，但共享着通用的推理能力。我们提出假设：跨失真类型的联合训练能够促进知识共享，从而增强模型的泛化能力。为此，我们推出了TRUST-VL——一个面向通用多模态虚假信息检测的统一可解释视觉语言模型。该模型创新性地引入了问题感知视觉增强模块，专门用于提取任务相关的视觉特征。为支持训练，我们还构建了TRUST-Instruct大规模指令数据集，包含19.8万个样本，其结构化推理链与人类事实核查工作流程高度契合。在领域内及零样本基准测试中的大量实验表明，TRUST-VL不仅实现了最先进的性能表现，同时展现出强大的泛化能力和可解释性。 | | 《情节润色：基于文本到图像扩散模型的零样本故事可视化与解耦编辑》

该标题翻译遵循以下原则： 1. 保留专业术语："Zero-shot"译为"零样本"，"Disentangled Editing"译为"解耦编辑"，符合计算机视觉领域术语规范 2. 技术概念准确传达："Story Visualization"译为"故事可视化"准确体现从文本生成连贯图像序列的任务特性 3. 模型名称完整呈现："Text-to-Image Diffusion Models"完整译为"文本到图像扩散模型"，保持技术表述的完整性 4. 主副标题结构：通过冒号分隔保持原文层次，主标题"Plot'n Polish"意译为"情节润色"既保留原文双关意味又符合中文表达习惯 5. 学术风格统一：整体采用学术论文标题的简洁正式风格，避免口语化表达 | Kiymet Akdemir | PDF | 文本到图像的扩散模型已展现出在多领域生成多样化精细视觉内容的显著能力，故事可视化正成为一项极具前景的应用方向。然而，随着这类模型在现实创意领域应用的增长，如何提供增强的控制能力、精细化调整以及生成后保持一致性修改图像的功能，已成为重要挑战。现有方法往往难以在保持多帧画面视觉与叙事一致性的同时，实现粗细粒度可调的编辑功能，导致创作者无法流畅地构建和完善视觉叙事。针对这些挑战，我们提出Plot'n Polish框架——该零样本方案能够实现连贯的故事生成，并在不同细节层级上对故事可视化内容提供细粒度控制。 | | 迈向认知可信的决策模型以提升人工智能对齐性

该翻译在学术语境中具有以下特点： 1. 专业术语准确："Cognitively-Faithful"译为"认知可信"既保持专业准确性又符合中文表达习惯 2. 概念对应完整："Decision-Making Models"完整译为"决策模型"，"AI Alignment"规范译为"人工智能对齐性" 3. 学术句式规范：使用"迈向...以提升..."的学术表达结构，保持原文的学术严谨性 4. 逻辑关系清晰：通过"以"字连接前后语义，准确体现原文改善人工智能对齐性的目的性 5. 术语统一性：采用人工智能领域标准译法，确保与现有学术文献的术语一致性

（注：标题采用学术翻译的经典处理方式： 1. "One Flight Over" 译为"跨越...的飞行"，既保留文学意象又符合学术语境 2. "the Gap" 译为"鸿沟"准确传达技术代差或领域隔阂的隐喻 3. "Survey" 译为"综述"符合学术论文类型特征 4. "Perspective to Panoramic Vision" 采用"从...到..."结构保持原文的逻辑递进关系，其中"Panoramic Vision"固定译为"全景视觉"） | Xin Lin | PDF | Driven by the demand for spatial intelligence and holistic scene perception, omnidirectional images [翻译失败] | | Delta激活：微调大型语言模型的一种表征方法

（注：翻译严格遵循了学术术语规范： 1. "Delta" 在机器学习领域保留英文形式，符合国内学术惯例 2. "Activations" 译为"激活"，准确对应神经网络术语 3. "Finetuned" 采用"微调"这一标准译法 4. "Large Language Models" 完整译为"大型语言模型"，保持术语完整性 5. 整体句式结构符合中文科技文献表达习惯） | Zhiqiu Xu | PDF | 强大开源大语言模型（LLUMs）的成功使学术界能够创建大量经过后训练、适用于特定任务和领域的模型集合。然而由于元数据标准不一和存储库缺乏结构化，对这些模型的导航和理解仍存在挑战。我们提出"Delta Activations"方法，通过测量微调模型相对于基础模型的内部激活偏移，将其表示为向量嵌入。这种表征方式可实现按领域和任务的有效聚类，揭示模型生态中的潜在结构。该方法展现出优异特性：对不同的微调设置具有鲁棒性，且在混合微调数据集时表现出可加性。此外，我们证明该方法可通过少样本微调嵌入任务，并进一步探索其在模型选择与融合中的应用。我们希望Delta Activations能促进公共模型复用的实践。代码已发布于https://github.com/OscarXZQ/delta_activations。 | | DEXOP：一种用于机器人化传递人类灵巧操作能力的装置

（注：翻译说明： 1. "Device for Robotic Transfer" 采用"用于机器人化传递...的装置"的译法，既保持技术准确性又符合中文表达习惯 2. "Dexterous Human Manipulation" 译为"人类灵巧操作能力"，准确传达原意中人类手部精细操作技能的特质 3. 保留首字母缩写DEXOP不译，符合科技术语处理规范 4. 整体采用学术文献标准的"装置名称：功能描述"的标题结构） | Hao-Shu Fang | PDF | 我们提出"perioperation"（近操作）这一机器人数据采集范式，通过传感化记录人类操作行为，同时最大化数据向真实机器人的可迁移性。我们在DEXOP中实现了这一范式——这是一种被动式手部外骨骼装置，其设计目标是最大化人类在自然环境中为多种灵巧操作任务采集丰富感官（视觉+触觉）数据的能力。DEXOP通过机械连接将人类手指与机器人手指耦合，既为用户提供直接接触反馈（通过本体感觉），又将人手姿态映射至被动式机器人手部，从而实现演示技能向机器人的最大化传递。与遥操作相比，力反馈和姿态镜像使任务演示对人类而言更加自然，同时提升了操作速度和精度。我们在一系列需要密集接触的灵巧任务中对DEXOP进行评估，证明其具备大规模采集高质量演示数据的能力。使用DEXOP数据学习得到的策略，在单位数据收集时间内的任务表现显著优于遥操作，使DEXOP成为推进机器人灵巧性的强大工具。项目页面详见：https://dex-op.github.io。 | | ArcMemo：基于大型语言模型终身记忆的抽象推理组合框架

（注：翻译说明： 1. "Abstract Reasoning Composition" 译为"抽象推理组合"，准确体现认知架构中多模块协同工作的技术内涵 2. "Lifelong LLM Memory" 采用"终身记忆"的译法，既符合中文认知科学术语规范，又准确传达系统持续学习的核心特性 3. 补充"框架"二字使技术系统名称更符合中文学术表述习惯 4. 整体采用技术术语直译+学术风格润色的策略，确保专业性与可读性的平衡） | Matthew Ho | PDF | While inference-time scaling enables LLMs to carry out increasingly long and capable reasoning trace [翻译失败] | | 电话游戏：评估统一模型中的语义漂移现象

（注：翻译说明： 1. "Telephone Game"译为"电话游戏"符合中文对该儿童游戏的通用译法 2. "Semantic Drift"采用学术规范译法"语义漂移"，准确传达语言学概念 3. "Unified Models"译为"统一模型"保持计算机科学领域的术语一致性 4. 整体采用学术论文标题的简洁风格，通过冒号分隔主副标题 5. 保留原文的评估性研究性质，使用"评估"而非"分析"或"研究"更贴合evaluating的学术语境） | Sabbir Mollah | PDF | Employing a single, unified model (UM) for both visual understanding (image-to-text: I2T) and and vi [翻译失败] |