arxiv 2025-08-19
| 标题 | 作者 | PDF链接 | 摘要 |
|---|---|---|---|
| 4DNeX:简化的前馈式四维生成建模 |
(注:翻译说明: 1. 保留原技术术语"4DNeX"作为专有名词不译 2.将"Feed-Forward"译为专业术语"前馈式",准确体现神经网络架构特性 3. "4D Generative Modeling"采用学术规范译法"四维生成建模" 4. "Made Easy"意译为"简化的",既保持学术严谨性又体现技术易用性内涵 5. 整体采用破折号连接主副标题,符合中文科技文献标题规范) | Zhaoxi Chen | PDF | 我们提出4DNeX——首个基于单张图像生成4D(即动态3D)场景表征的前馈式框架。与现有依赖计算密集型优化或需要多帧视频输入的方法不同,4DNeX通过微调预训练视频扩散模型,实现了端到端的图像到4D高效生成。具体而言:1)为缓解4D数据稀缺问题,我们构建了4DNeX-10M大规模数据集,该数据集采用先进重建方法生成的高质量4D标注;2)我们引入统一6D视频表征,联合建模RGB与XYZ序列,促进外观与几何结构的协同学习;3)我们提出一系列简单有效的适配策略,将预训练视频扩散模型重构用于4D建模。4DNeX可生成支持多视角视频合成的高质量动态点云。大量实验表明,4DNeX在效率与泛化性方面均优于现有4D生成方法,为图像到4D建模提供了可扩展解决方案,并为模拟动态场景演化的生成式4D世界模型奠定基础。 | | IGFuse:基于多扫描融合的交互式三维高斯场景重建
(注:翻译严格遵循技术术语规范:"Interactive"译为"交互式","3D Gaussian"保留三维高斯核心概念,"Scene Reconstruction"译为"场景重建","Multi-Scans Fusion"译为"多扫描融合"。整体采用学术文献标题的简洁命名风格,通过冒号分隔主副标题,符合中文科技论文标题的表述惯例。) | Wenhao Hu | PDF | Reconstructing complete and interactive 3D scenes remains a fundamental challenge in computer vision [翻译失败] | | RepreGuard:通过揭示隐藏表征模式检测大语言模型生成文本
(注:翻译说明: 1. 保留专业术语"Representation Patterns"译为"表征模式",符合机器学习领域术语规范 2. "LLM-Generated Text"采用学界通用译法"大语言模型生成文本" 3. 冒号后副标题采用动宾结构,符合中文论文标题的学术表达规范 4. 通过"检测"对应"Detecting","揭示"对应"Revealing",保持动词的准确对应 5. 整体采用四六骈句结构,兼顾学术严谨性与中文音韵美) | Xin Chen | PDF | Detecting content generated by large language models (LLMs) is crucial for preventing misuse and bui [翻译失败] | | MDPO:突破掩码扩散语言模型的训练-推理鸿沟
(注:采用学术翻译策略,保留核心术语"MDPO"与"Masked Diffusion Language Models"的英文缩写和标准译法。"Overcoming"译为"突破"更符合技术攻关语境,"Training-Inference Divide"采用计算机领域常用表述"训练-推理鸿沟",准确体现模型部署中的性能落差问题。) | Haoyu He | PDF | Diffusion language models, as a promising alternative to traditional autoregressive (AR) models, ena [翻译失败] | | 信号与噪声:降低语言模型评估不确定性的框架
(注:译文采用学术论文标题的经典对仗结构,"Signal and Noise"译为"信号与噪声"符合信息论领域术语规范。副标题采用"框架"对应"Framework","降低不确定性"精准对应"Reducing Uncertainty",整体保持技术文献的严谨性,同时符合中文标题的简洁性要求。) | David Heineman | PDF | Developing large language models is expensive and involves making decisions with small experiments, [翻译失败] | | 探究自主智能体:深入剖析其在任务执行中的失败原因
(注:译文采用学术论文标题的经典结构,通过冒号分隔主副标题。"Autonomous Agents"译为"自主智能体"符合人工智能领域术语规范,"A Closer Look"意译为"深入剖析"既保留原文的探究意味,又符合中文论文标题的学术表达习惯。后半句采用"失败原因"而非直译"为何失败",使表述更贴合中文技术文献的客观陈述风格。) | Ruofan Lu | PDF | 基于大语言模型(LLMs)的自主智能体系统在自动化复杂任务方面展现出显著潜力。然而,当前评估方法主要依赖成功率指标,未能系统分析系统内部的交互机制、通信模式及故障成因。为弥补这一研究空白,我们构建了包含34个代表性可编程任务的基准测试集,用于严格评估自主智能体性能。通过该基准测试,我们对三种主流开源智能体框架与两种LLM基座模型组合进行评估,观察到任务完成率约为50%。借助深度故障分析,我们建立了与任务阶段相对应的三层故障分类体系,重点揭示了规划错误、任务执行问题及错误响应生成三大故障类型。基于这些发现,我们提出了可操作的改进方案以增强智能体的规划与自诊断能力。本研究构建的故障分类体系及缓解建议,为未来开发更强大、更可靠的自主智能体系统提供了实证基础。 | | GPT-5是否实现空间智能?一项实证研究
(注:译文严格遵循学术翻译规范,采用疑问句式保持原标题的探究性特征。"Spatial Intelligence"译为"空间智能"符合认知科学领域的术语标准,"Empirical Study"译为"实证研究"贴合社会科学研究方法表述。标题结构完整保留了原文的设问+研究类型说明的学术标题特征。) | Zhongang Cai | PDF | 近年来,多模态模型取得了显著进展。然而,其在空间理解与推理能力方面仍存在明显局限,而这两种能力是实现通用人工智能的基础。随着据称迄今最强人工智能模型GPT-5的近期发布,此刻正宜审视顶尖模型在空间智能发展进程中所处的阶段。我们首先提出统一现有基准测试的空间任务分类体系,并探讨确保公平评估面临的挑战。随后以超过十亿总token的代价,在八大核心基准上对最先进的专有模型与开源模型进行评估。实证研究表明:(1) GPT-5展现出前所未有的空间智能优势,但(2)在广泛任务中仍未能达到人类水平;(3)我们进一步识别出多模态模型面临更具挑战性的空间智能难题,且(4)专有模型在面对最困难问题时并未展现决定性优势。此外,我们针对多样化场景开展定性评估——这些对人类而言直观易懂的场景,却使最先进的多模态模型屡屡受挫。 | | 最优思维基准:评估大型语言模型中的过度思考与思考不足现象
(注:翻译说明: 1. "OptimalThinkingBench" 采用意译+专业术语处理,译为"最优思维基准"既保留"Bench"作为评估基准的专业含义,又准确传达"Optimal Thinking"的核心概念 2. "Evaluating" 译为"评估"符合学术语境 3. "Over and Underthinking" 采用计算机领域常用译法"过度思考与思考不足",通过"与"字连接保持术语对称性 4. "LLMs" 规范译为"大型语言模型",符合人工智能领域术语标准) | Pranjal Aggarwal | PDF | Thinking LLMs solve complex tasks at the expense of increased compute and overthinking on simpler pr [翻译失败] | | Motion2Motion:基于稀疏对应关系的跨拓扑运动迁移
(注:翻译说明: 1. "Motion2Motion" 保留技术命名格式不译 2. "Cross-topology" 译为"跨拓扑"准确传达跨不同拓扑结构的核心概念 3. "Motion Transfer" 采用计算机图形学领域标准译法"运动迁移" 4. "Sparse Correspondence" 译为"稀疏对应关系"符合计算机视觉领域术语规范 5. 整体采用技术论文标题常用的冒号分隔结构,保持学术严谨性) | Ling-Hao Chen | PDF | This work studies the challenge of transfer animations between characters whose skeletal topologies [翻译失败] | | 基于人类时空移动数据的机器学习模型训练:一项实验研究 [实验论文] | Yueyang Liu | PDF | Individual-level human mobility prediction has emerged as a significant topic of research with appli [翻译失败] |