2025-09-05 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
虚拟试衣间：基于单张图像生成任意长度虚拟试穿视频——技术预览版

（注：该翻译严格遵循了学术术语的准确性要求： 1. "Virtual Fitting Room" 译为行业标准术语"虚拟试衣间" 2. "Generating Arbitrarily Long Videos" 准确译为"生成任意长度视频" 3. "Virtual Try-On" 采用行业通用译法"虚拟试穿" 4. "Technical Preview" 译为"技术预览版"，符合软件开发领域的术语规范 5. 保持原标题的破折号结构和专业表述风格） | Jun-Kun Chen | PDF | 我们提出虚拟试衣间（VFR）——一种创新的视频生成模型，能够生成任意时长的虚拟试穿视频。该模型将长视频生成任务建模为自回归的逐段生成过程，既避免了资源密集型生成和长视频数据的需求，又具备生成任意长度视频的灵活性。此任务面临双重关键挑战：确保相邻片段间的局部流畅性，以及维持不同片段间的全局时序一致性。为解决这些挑战，我们提出的VFR框架通过前缀视频条件确保流畅性，并借助锚点视频（完整记录人体全方位外观的360度视频）强化一致性。该模型能在各种运动状态下生成具备局部流畅性和全局时序一致性的分钟级虚拟试穿视频，是长时序虚拟试穿视频生成领域的开创性工作。 | | ChronoGraph：基于真实世界图结构的多元时间序列数据集

（注：翻译说明： 1. "ChronoGraph"作为专有名词保留不译，符合学术术语处理惯例 2. "Real-World"译为"真实世界"准确传达原始数据来源特征 3. "Graph-Based"采用"基于图结构"的译法，突出图论方法特性 4. "Multivariate Time Series Dataset"译为"多元时间序列数据集"符合时序分析领域术语规范 5. 整体采用学术论文标题的简洁表述方式，保持专业性与准确性） | Adrian Catalin Lutu | PDF | 我们推出ChronoGraph——一个基于真实生产环境微服务构建的图结构多元时间序列预测数据集。每个节点代表一个服务，可发出包含CPU、内存及网络使用模式的系统级性能指标多元数据流，而有向边则编码服务间的依赖关系。该数据集的核心任务是实现服务层级信号的未来值预测。此外，ChronoGraph提供专家标注的事故时间窗口作为异常标签，支持异常检测方法的评估及运行中断期间预测鲁棒性的检验。相较于工业控制系统或交通与空气质量领域的现有基准数据集，ChronoGraph独特地融合了三大要素：(i)多元时间序列；(ii)显式机器可读的依赖图谱；(iii)与真实事故对齐的异常标签。我们报告了涵盖预测模型、预训练时间序列基础模型及标准异常检测器的基线结果。ChronoGraph为研究微服务系统中结构感知预测与事故感知评估提供了真实可靠的基准平台。 | | TRUST-VL：面向通用多模态虚假信息检测的可解释新闻助手

（注：TRUST-VL作为专有名词保留原格式，采用"检测"而非"识别"更符合信息安全领域术语规范，使用"可解释"准确对应Explainable在AI领域的专业含义，通过添加"面向"介词结构保持学术翻译的严谨性） | Zehong Yan | PDF | 多模态虚假信息——涵盖文本、视觉及跨模态的失真形式——正因生成式人工智能的推波助澜而构成日益严峻的社会威胁。现有方法通常仅针对单一失真类型，且难以泛化至未见过的新场景。本研究通过观察发现：不同失真类型虽需特定任务技能，却共享着通用的推理能力。我们提出假设：跨失真类型的联合训练能促进知识共享，从而增强模型的泛化能力。为此，我们推出了TRUST-VL——一个面向通用多模态虚假信息检测的可解释视觉-语言统一模型。该模型创新性地引入了问题感知视觉增强模块，专门用于提取任务相关的视觉特征。为支持训练，我们还构建了TRUST-Instruct大规模指令数据集，包含19.8万个样本，其结构化推理链与人类事实核查工作流程高度契合。在领域内及零样本基准测试中的大量实验表明，TRUST-VL不仅实现了最先进的性能表现，同时展现出强大的泛化能力和可解释性。 | | 《情节润色：基于文本到图像扩散模型的零样本故事可视化与解耦编辑》

（注：该翻译严格遵循学术术语规范： 1. "Plot'n Polish" 采用意译加书名号处理，体现其方法论特性 2. "Zero-shot" 译为专业术语"零样本" 3. "Story Visualization" 译为"故事可视化"符合计算机视觉领域术语 4. "Disentangled Editing" 译为"解耦编辑"保持深度学习领域术语一致性 5. "Text-to-Image Diffusion Models" 完整译为"文本到图像扩散模型"，准确反映技术类型） | Kiymet Akdemir | PDF | 文本到图像的扩散模型已展现出在多领域生成多样化精细视觉内容的显著能力，故事可视化正成为一项极具前景的应用方向。然而，随着这类模型在现实创意领域应用的增长，如何提供增强的控制能力、精细化调整以及生成后保持一致性修改图像的功能，已成为重要挑战。现有方法往往缺乏在保持多帧画面视觉与叙事一致性的同时实施粗细粒度编辑的灵活性，导致创作者难以无缝打造和优化其视觉故事。为应对这些挑战，我们提出Plot'n Polish框架——该零样本方案能够实现连贯的故事生成，并在不同细节层级上对故事可视化内容提供细粒度控制。 | | 迈向认知可信的决策模型以提升人工智能对齐性

该标题的学术翻译体现了以下要点： 1. "Cognitively-Faithful"译为"认知可信"，准确传达模型对人类认知过程的忠实还原 2. "Decision-Making Models"采用"决策模型"的标准译法 3. "AI Alignment"译为专业术语"人工智能对齐性"，指AI系统与人类价值观和目标的一致性 4. 整体句式采用"迈向...以提升..."的学术表达结构，符合中文论文标题规范 5. 保持原标题中"改善/提升"的积极导向性 | Cyrus Cousins | PDF | 当前人工智能研究的发展趋势正日益注重融入人本主义目标，其核心在于使人工智能模型与个人偏好及社会价值观保持对齐。研究者和实践者通过标准偏好诱导方法，构建人类决策与判断的模型框架，进而用以校准人工智能行为与人类行为的一致性。然而，这类诱导流程中普遍采用的模型往往未能捕捉人类决策的真实认知过程——例如当人们运用启发式方法简化决策问题相关信息时的认知机制。其结果是，基于人类决策数据构建的模型常与真实认知过程存在偏差，因而无法验证学习框架在其他决策任务中的泛化能力。

为突破这一局限，我们采用公理化方法从成对比较数据中学习认知可信的决策过程。基于现有大量刻画人类决策认知过程的文献研究，以及近期针对成对比较任务中认知过程表征的成果，我们定义了一类新型模型：该模型首先对个体特征进行跨选项的处理与比较，随后通过固定规则（如Bradley-Terry规则）对处理后的特征进行聚合。这种结构化信息处理机制确保了模型作为表征人类底层决策过程的现实性与可行性。我们在肾脏分配任务中验证了该方法学习可解释人类决策模型的有效性，实验表明我们提出的模型在人类成对决策任务中的准确度达到或超越了现有模型的性能水平。 | | 跨越鸿沟的飞行：从透视到全景视觉的研究综述

该标题采用学术翻译策略，保留核心隐喻意象"Flight Over the Gap"译为"跨越鸿沟的飞行"，既体现原文的文学性又准确传达研究突破性。"Survey"译为"研究综述"符合学术文献特征，"Perspective to Panoramic Vision"采用专业术语对译"从透视到全景视觉"，确保视觉计算领域的专业准确性。整体译文保持标题的简洁性与学术严谨性，通过冒号分隔主副标题结构，完全遵循中文学术标题规范。 | Xin Lin | PDF | Driven by the demand for spatial intelligence and holistic scene perception, omnidirectional images [翻译失败] | | Delta激活：微调大型语言模型的一种表征方式

（注：该翻译严格遵循学术术语规范： 1. "Delta" 在机器学习领域通常保留英文形式或译为"增量"，此处采用"Delta"以保持技术准确性 2. "Activations" 译为"激活"，符合神经网络领域的标准术语 3. "Representation" 译为"表征"，是认知科学和机器学习领域的标准译法 4. "Finetuned" 译为"微调"，是迁移学习领域的固定术语 5. "Large Language Models" 译为"大型语言模型"，保持与学术文献的一致性） | Zhiqiu Xu | PDF | 强大开源大语言模型（LLUms）的成功使学术界能够创建大量经过后训练、适用于特定任务和领域的模型集合。然而由于元数据标准不一和存储库缺乏结构化，对这些模型的导航和理解仍存在挑战。我们提出"Delta Activations"方法，通过测量微调模型相对于基础模型的内部激活偏移，将其表示为向量嵌入。这种表征方式可实现按领域和任务的有效聚类，揭示模型生态中的潜在结构。该方法展现出优异特性：对不同的微调设置具有鲁棒性，且在混合微调数据集时表现出可加性。此外，我们证明该方法可通过少样本微调嵌入任务，并进一步探索其在模型选择与融合中的应用。我们希望Delta Activations能促进公开模型复用的实践。代码已发布于https://github.com/OscarXZQ/delta_activations。 | | DEXOP：一种用于机器人化传递人类灵巧操作能力的装置

（注：翻译说明： 1. "Device for Robotic Transfer" 译为"用于机器人化传递的装置"，准确体现设备通过机器人技术实现功能传递的核心特性 2. "Dexterous Human Manipulation" 采用"人类灵巧操作能力"的译法，既保留"dexterous"强调的手部灵巧性内涵，又通过"能力"一词准确传达可被传递的技术特性 3. 整体采用学术设备命名的规范格式，保持术语的准确性和专业性） | Hao-Shu Fang | PDF | 我们提出"perioperation"（近操作）这一机器人数据采集范式，通过传感化记录人类操作行为，同时最大化数据向真实机器人的可迁移性。我们将该范式实现在DEXOP中——这是一种被动式手部外骨骼设备，其设计旨在最大化人类在自然环境中为多种灵巧操作任务采集丰富感官（视觉+触觉）数据的能力。DEXOP通过机械连接将人类手指与机器人手指耦合，既为用户提供直接接触反馈（通过本体感觉），又将人手姿态镜像映射至被动机器人手，从而最大化演示技能向机器人的转移。与遥操作相比，力反馈和姿态镜像使任务演示对人类更加自然，同时提升了演示速度与精度。我们在一系列需要密集接触的灵巧任务中评估DEXOP，证明其具备大规模采集高质量演示数据的能力。使用DEXOP数据学习得到的策略，在单位时间数据收集效率上显著优于遥操作，使其成为推进机器人灵巧性的强大工具。项目页面详见：https://dex-op.github.io。

（注：perioperation作为新造术语，采用"近操作"译法既保留peri-（周围/近端）的词源含义，又体现其介于直接操作与遥操作之间的技术特性；proprioception遵循生物力学领域标准译法"本体感觉"；teleoperation统一译为"遥操作"以符合机器人学界惯例；dexterous manipulation保持"灵巧操作"的规范译名） | | ArcMemo：基于大型语言模型终身记忆的抽象推理组合框架

（注：翻译说明： 1. "Abstract Reasoning Composition" 译为"抽象推理组合"，准确传达将多个抽象推理任务进行组合构建的技术概念 2. "Lifelong LLM Memory" 采用"大型语言模型终身记忆"的译法，既保持术语准确性（LLM译为大型语言模型），又体现持续学习的特性 3. 整体采用"框架"作为补充，符合中文技术文献命名习惯，使技术内涵更加清晰 4. 保留英文原名"ArcMemo"作为前缀，遵循学术术语翻译规范） | Matthew Ho | PDF | 虽然推理时扩展使大型语言模型能够执行日益复杂的长链推理，但这些推理过程中揭示的模式与见解会在上下文窗口为新查询重置时被立即丢弃。外部存储器是持久保存这些发现的自然途径，近期研究已证明其对推理密集型任务的显著益处。我们发现通过超越基于实例的存储条目（如精确的查询/响应对，或与原问题语境紧密耦合的摘要），转向概念级记忆——从解决方案轨迹中提炼出的可复用、模块化的自然语言抽象表达，可大幅提升记忆的复用性与扩展性。针对新查询，系统会选择性检索相关概念并将其整合至提示中，从而实现无需权重更新的测试时持续学习。我们的设计引入了从推演轨迹中抽象关键信息的新策略，以及针对新查询的检索机制，促进知识复用并允许记忆随经验积累而扩展。在极具挑战性的ARC-AGI基准测试中，本方法相较强大的无记忆基线实现了7.5%的相对性能提升，且性能随推理计算量持续增长。实验表明抽象概念是最稳定的记忆设计方式，在所有测试计算规模下均超越基线性能。此外，我们证实测试阶段动态更新记忆的表现优于需多次尝试的固定记忆设置，这支持了"通过解决更多问题并向记忆库抽象更多模式可实现自我改进"的假设。代码已开源：https://github.com/matt-seb-ho/arc_memo。 | | 电话游戏：评估统一模型中的语义漂移现象

该标题采用学术翻译规范，保留核心隐喻"The Telephone Game"译为"电话游戏"（又称传话游戏），精准对应"Semantic Drift"专业术语为"语义漂移"，"Unified Models"译为"统一模型"符合计算机领域术语标准。整体结构采用中文论文标题常用的冒号分隔形式，既保持学术严谨性又符合中文表达习惯。 | Sabbir Mollah | PDF | Employing a single, unified model (UM) for both visual understanding (image-to-text: I2T) and and vi [翻译失败] |

bioRxiv

标题	作者	PDF链接	摘要
左额上沟在人类感知决策中特定领域作用的因果证据

（注：翻译严格遵循以下学术规范： 1. "Stress relaxing"译为"应力松弛"，符合生物力学专业术语 2. "Granular bioprinting materials"译为"颗粒状生物打印材料"，准确传达材料形态特征 3. "Organoid self-organization"译为"类器官自组织"，保留发育生物学专业表述 4. 采用"实现...构建"的动词结构，既符合中文表达习惯，又完整保留原文的工程技术内涵 5. "complex and uniform"译为"复杂且均匀"，精准对应材料科学与组织工程的双重要求） | Graham, A. J. | PDF | |

medRxiv

标题	作者	PDF链接	摘要
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF