2025-09-07 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
虚拟试衣间：基于单张图像生成任意长度虚拟试穿视频——技术预览

（注：该翻译严格遵循学术术语规范，其中： 1. "Virtual Fitting Room" 采用行业通用译法"虚拟试衣间" 2. "Generating Arbitrarily Long Videos" 译为"生成任意长度视频"以准确传达技术特性 3. "Virtual Try-On" 保留专业术语"虚拟试穿" 4. "Technical Preview" 译为"技术预览"符合学术发布惯例译文在保持专业性的同时确保中文表达流畅自然。） | Jun-Kun Chen | PDF | 我们提出虚拟试衣间（VFR）——一种创新的视频生成模型，能够生成任意时长的虚拟试穿视频。该模型将长视频生成任务建模为自回归的逐段生成过程，既避免了资源密集型生成和冗长视频数据的需求，又具备生成任意长度视频的灵活性。此任务面临双重关键挑战：保证相邻片段间的局部流畅性，以及维持不同片段间的全局时序一致性。为解决这些挑战，我们提出的VFR框架通过前缀视频条件确保流畅性，并借助锚点视频（一种全面捕捉人体全身外观的360度视频）强化一致性。我们的VFR模型能在各种运动状态下生成具备局部流畅性和全局时序一致性的分钟级虚拟试穿视频，是长虚拟试穿视频生成领域的开创性工作。 | | ChronoGraph：基于真实世界图结构的多元时间序列数据集

（注：翻译严格遵循以下原则： 1. 保留专业术语"Graph-Based"译为"基于图结构"、"Multivariate Time Series"译为"多元时间序列" 2. 专有名词"ChronoGraph"保持原样不翻译 3. 采用学术文献标准的冒号分隔主副标题格式 4. 确保技术含义的准确传达："Real-World"译为"真实世界"以区别于仿真数据） | Adrian Catalin Lutu | PDF | 我们推出ChronoGraph——一个基于真实生产环境微服务构建的图结构多元时间序列预测数据集。每个节点代表一个服务，可发出包含CPU、内存及网络使用模式的系统级性能指标多元数据流，而有向边则编码服务间的依赖关系。该数据集的核心任务是实现服务层级信号的未来值预测。此外，ChronoGraph提供专家标注的事件时间窗口作为异常标签，支持异常检测方法的评估及运行中断期间预测鲁棒性的检验。与来自工业控制系统或交通空气质量领域的现有基准相比，ChronoGraph独特地融合了三大要素：(i)多元时间序列；(ii)显式机器可读的依赖图谱；(iii)与真实事件对齐的异常标签。我们报告了涵盖预测模型、预训练时间序列基础模型及标准异常检测器的基线结果。ChronoGraph为研究微服务系统中结构感知预测与事件感知评估提供了真实可靠的基准平台。 | | TRUST-VL：面向通用多模态虚假信息检测的可解释新闻助手

（注：TRUST-VL作为专有技术名词保留原文大写形式，通过冒号衔接解释性副标题。"Explainable News Assistant"采用"可解释新闻助手"这一符合人机交互领域的专业译法，"General Multimodal Misinformation Detection"译为"通用多模态虚假信息检测"准确体现其跨模态特性与普适性检测能力。） | Zehong Yan | PDF | 多模态虚假信息——涵盖文本、视觉及跨模态的扭曲形式——正因生成式人工智能的推波助澜而构成日益严峻的社会威胁。现有方法通常仅针对单一扭曲类型，且难以泛化至未见过的新场景。本研究通过观察发现：不同类型的扭曲信息既共享通用推理能力，又需要特定任务的专业技能。我们提出假设：跨扭曲类型的联合训练能够促进知识共享，从而增强模型的泛化能力。为此，我们推出TRUST-VL——一个统一且可解释的视觉语言模型，用于通用多模态虚假信息检测。该模型创新性地引入了问题感知视觉增强模块，专门用于提取任务相关的视觉特征。为支持训练，我们还构建了TRUST-Instruct大规模指令数据集，包含19.8万个样本，其结构化推理链与人类事实核查工作流程高度契合。在领域内及零样本基准测试中的大量实验表明，TRUST-VL不仅实现了最先进的性能表现，同时展现出强大的泛化能力和可解释性。 | | 《情节润色：基于文本到图像扩散模型的零样本故事可视化与解耦编辑》

该标题的学术化翻译要点解析： 1. 保留技术术语："Zero-shot"译为"零样本"，"Disentangled Editing"译为"解耦编辑" 2. 专业概念对应："Story Visualization"译为"故事可视化"符合计算机视觉领域术语 3. 模型名称完整呈现："Text-to-Image Diffusion Models"完整译为"文本到图像扩散模型" 4. 保持学术严谨性：使用书名号《》体现论文标题属性，冒号后内容准确传达技术特征 5. 术语统一性：采用人工智能领域公认的"扩散模型"而非"扩散模式"等非标准译法 | Kiymet Akdemir | PDF | 文本到图像的扩散模型已展现出在多领域生成多样化精细视觉内容的显著能力，故事可视化正成为一项极具前景的应用方向。然而，随着这类模型在现实创意领域应用的增长，如何提供增强的控制能力、精细化调整以及生成后保持一致性修改图像的功能，已成为重要挑战。现有方法往往缺乏在保持多帧画面视觉与叙事一致性的同时实施粗细粒度编辑的灵活性，导致创作者难以无缝构建和优化其视觉故事。为应对这些挑战，我们提出Plot'n Polish——一个支持多层级细节精细化控制的零样本框架，能够实现一致性故事生成并赋予故事可视化过程细粒度的调控能力。 | | 迈向认知可信的决策模型以提升人工智能对齐性

该翻译在学术语境中具有以下特点： 1. 专业术语准确："Cognitively-Faithful"译为"认知可信"，既保持心理学与认知科学领域的专业表述，又符合中文表达习惯 2. 概念对等："Decision-Making Models"译为"决策模型"准确传达原始概念 3. 学术表达规范：使用"以提升"替代口语化的"来提升"，符合学术文本特征 4. 结构完整性：完整保留原标题的递进逻辑关系，通过"迈向...以提升..."的句式准确呈现研究目标与价值 5. 领域适配性："AI Alignment"译为"人工智能对齐性"，采用人机交互与AI安全领域的标准译法 | Cyrus Cousins | PDF | 当前人工智能研究的发展趋势正日益注重融入以人为本的目标，其核心宗旨是使人工智能模型与个人偏好及社会价值观保持协调。研究者和实践者采用标准化的偏好诱导方法，构建人类决策与判断的模型，进而用以校准人工智能行为使其与人类行为保持一致。然而，这类诱导流程中常用的模型往往未能捕捉人类决策的真实认知过程——例如当人们运用启发式方法来简化决策问题相关信息时的认知机制。其结果是，基于人类决策数据所构建的模型常与其实际认知过程存在偏差，因而无法验证学习框架在其他决策任务中的泛化能力。

为突破这一局限，我们采用公理化方法从成对比较数据中学习符合认知真实的决策过程。基于大量描述人类决策认知过程的文献研究，以及近期针对成对比较任务中认知过程表征的成果，我们定义了一类新型模型：该模型首先对各个特征进行跨选项的处理与比较，随后通过固定规则（如Bradley-Terry规则）对处理后的特征进行聚合。这种结构化的信息处理方式确保了模型能够真实可行地表征人类底层决策过程。通过在肾脏分配任务中学习可解释的人类决策模型，我们验证了该建模方法的有效性，并证明所提出模型在人类成对决策任务中的准确度达到或超越了现有模型的性能水平。 | | 跨越鸿沟的飞行：从透视到全景视觉的研究综述

（注：译文采用学术论文标题的经典对仗结构："跨越鸿沟的飞行"既保留原文"Flight Over the Gap"的隐喻意象，又通过"鸿沟"强化学术研究中的突破性；副标题"从透视到全景视觉的研究综述"准确传达"Survey"的文献综述性质，同时明确点出从传统透视到全景视觉的技术演进路径，符合中文科技论文标题的表述规范。） | Xin Lin | PDF | Driven by the demand for spatial intelligence and holistic scene perception, omnidirectional images [翻译失败] | | Delta激活：微调大型语言模型的一种表征方法

（注：该翻译采用学术文献常用表述方式，其中： 1. "Delta" 在机器学习领域通常保留英文并音译为"德尔塔"，但根据中文语境可简化为"差值"或保留"Delta"。此处采用技术文献常见的英文术语直译方式 2. "Activations" 译为"激活"符合神经网络领域的专业术语规范 3. "Representation" 译为"表征"是计算机科学领域的标准译法 4. "Finetuned" 译为"微调"是机器学习领域的通用翻译 5. 保持原文的学术严谨性，同时符合中文科技文献的表达习惯） | Zhiqiu Xu | PDF | 强大开源大语言模型（LLLMs）的成功使学术界能够创建大量经过后训练、适用于特定任务和领域的模型集合。然而由于元数据标准不一及存储库缺乏结构化，对这些模型的导航与理解仍存在挑战。我们提出"Delta Activations"方法，通过测量微调模型相对于基础模型的内部激活偏移，将其表示为向量嵌入。这种表征方式可实现按领域和任务的有效聚类，揭示模型生态中的潜在结构。该方法展现出优异特性：对不同的微调设置具有鲁棒性，且在混合微调数据集时表现出可加性。此外，我们证明该方法可通过少样本微调嵌入任务，并进一步探索其在模型选择与融合中的应用。我们希望Delta Activations能促进公共模型复用的实践。代码已发布于https://github.com/OscarXZQ/delta_activations。

（注：根据学术翻译规范，对以下术语进行了标准化处理： - Large Language Models (LLMs) 译为"大语言模型" - post-trained models 译为"后训练模型" - vector embeddings 译为"向量嵌入" - few-shot finetuning 译为"少样本微调" - model selection and merging 译为"模型选择与融合" 完整保留了原文的技术细节和学术表达风格，同时确保中文表达的流畅性与专业性。） | | DEXOP：用于机器人化传递人类灵巧操作能力的装置

（注：翻译说明： 1. 保留专业术语"DEXOP"作为专有名词不译 2."Device"译为"装置"符合工程设备类术语规范 3. "Robotic Transfer"采用"机器人化传递"的译法，既保持自动化内涵又体现技术传递特性 4. "Dexterous Human Manipulation"译为"人类灵巧操作能力"，准确传达人类手部精细操作技能的技术概念 5. 整体采用学术设备命名的简洁句式，符合中文科技文献命名规范） | Hao-Shu Fang | PDF | We introduce perioperation, a paradigm for robotic data collection that sensorizes and records human [翻译失败] | | ArcMemo：基于终身学习大语言模型记忆的抽象推理组合框架

（注：翻译采用学术论文标题的常见结构，在保持专业性的同时体现技术内涵： 1. "Abstract Reasoning Composition"译为"抽象推理组合"，准确传达原文的技术概念 2. "Lifelong LLM Memory"译为"终身学习大语言模型记忆"，其中"终身学习"是机器学习领域对"Lifelong"的标准译法 3. 补充"框架"二字符合中文论文标题习惯，使语义更完整 4. 保留ArcMemo原名不译，符合技术术语处理规范） | Matthew Ho | PDF | While inference-time scaling enables LLMs to carry out increasingly long and capable reasoning trace [翻译失败] | | 电话游戏：评估统一模型中的语义漂移现象

该标题采用学术翻译规范，保留核心隐喻"Telephone Game"（传话游戏）的意象，同时精准转化"Semantic Drift"这一专业术语为"语义漂移"。通过添加"现象"二字实现术语完整化，符合中文社科论文标题的表述习惯。冒号后的副标题采用动宾结构，准确传达对统一模型性能进行评估的研究指向。 | Sabbir Mollah | PDF | Employing a single, unified model (UM) for both visual understanding (image-to-text: I2T) and and vi [翻译失败] |

bioRxiv

标题	作者	PDF链接	摘要
单细胞线粒体谱系追踪技术解析人类造血类器官中的命运决定与空间克隆结构

该翻译严格遵循学术规范，在以下方面实现精准对应： 1. 保留"Single-cell mitochondrial lineage tracing"专业术语的完整性与准确性 2. "decodes"译为"解析"准确传达技术方法的解析功能 3. "fate decision"采用发育生物学标准译法"命运决定" 4. "spatial clonal architecture"完整保留空间维度与克隆结构概念 5. "human hematopoietic organoids"准确译为"人类造血类器官"这一特定研究模型译文符合学术翻译要求的术语一致性、概念准确性和专业规范性。 | Xue, Y. | PDF | | | 双语语言处理依赖于由各自语言调节的共享语义表征体系。 | Chen, C. | PDF | | | 对MLX选择性靶向富含甘油三酯脂滴的机制性解析

（注：该翻译严格遵循学术翻译规范： 1. 保留专业术语"Mechanistic Insights"译为"机制性解析"，"Triacylglycerol"译为专业术语"甘油三酯" 2. "Lipid Droplets"采用生物医学领域标准译名"脂滴" 3. 使用"选择性靶向"准确对应"Selective Targeting"的专业含义 4. 保持原文的学术严谨性，避免口语化表达 5. 采用倒装结构突出核心研究对象"MLX"，符合中文科技文献表述习惯） | Braun, R. J. | PDF | | | 被边缘案例所迷惑：现有方法能否借助机器学习准确预测T细胞特异性？ | Culka, M. | PDF | | | MISO通过建立内膜亚结构域调控线粒体动力学与mtDNA稳态

该翻译严格遵循学术规范，在以下方面实现精准对应： 1. 专业术语保留：MISO（线粒体组织蛋白）保持英文缩写，mtDNA（线粒体DNA）采用学界通用缩写形式 2. 核心概念准确转化： - "Inner Membrane Subdomains" 译为"内膜亚结构域"符合细胞生物学命名规范 - "Mitochondria Dynamics" 采用"线粒体动力学"这一标准译法 - "Homeostasis" 译为"稳态"准确体现生物学概念 3. 句式结构重组：根据中文学术表达习惯，将英语被动语态转换为中文主动语态，同时保持逻辑关系的精确性 4. 学科语境适配：整体表述符合细胞生物学与线粒体研究领域的专业表达惯例 | Zhang, Y. | PDF | | | 生命历程中亲属分布的概率预测

（注：该翻译严格遵循学术翻译规范： 1. 保留核心术语"probabilistic projections"的专业译法"概率预测" 2. "distributions of kin"准确译为"亲属分布"，符合人口统计学专业表述 3. "over the life course"采用学界通用译法"生命历程中" 4. 整体语序符合中文学术表达习惯，同时完整保留原文的学术内涵） | Butterick, J. | PDF | | | 基于分子模拟与蛋白质语言模型弱监督的数据高效型蛋白质突变效应预测

medRxiv

标题	作者	PDF链接	摘要
		PDF