arxiv 2025-08-19

标题	作者	PDF链接	摘要
4DNeX：简化的前馈式四维生成建模

（注：翻译说明： 1. 保留原技术术语"4DNeX"作为专有名词不译 2.将"Feed-Forward"译为专业术语"前馈式"，准确体现神经网络架构特性 3. "4D Generative Modeling"采用学术规范译法"四维生成建模" 4. "Made Easy"意译为"简化的"，既保持学术严谨性又体现技术易用性内涵 5. 整体采用破折号连接主副标题，符合中文科技文献标题规范） | Zhaoxi Chen | PDF | 我们提出4DNeX——首个基于单张图像生成4D（即动态3D）场景表征的前馈式框架。与现有依赖计算密集型优化或需要多帧视频输入的方法不同，4DNeX通过微调预训练视频扩散模型，实现了端到端的图像到4D高效生成。具体而言：1）为缓解4D数据稀缺问题，我们构建了4DNeX-10M大规模数据集，该数据集采用先进重建方法生成的高质量4D标注；2）我们引入统一6D视频表征，联合建模RGB与XYZ序列，促进外观与几何结构的协同学习；3）我们提出一系列简单有效的适配策略，将预训练视频扩散模型重构用于4D建模。4DNeX可生成支持多视角视频合成的高质量动态点云。大量实验表明，4DNeX在效率与泛化性方面均优于现有4D生成方法，为图像到4D建模提供了可扩展解决方案，并为模拟动态场景演化的生成式4D世界模型奠定基础。 | | IGFuse：基于多扫描融合的交互式三维高斯场景重建

（注：翻译严格遵循技术术语规范："Interactive"译为"交互式"，"3D Gaussian"保留三维高斯核心概念，"Scene Reconstruction"译为"场景重建"，"Multi-Scans Fusion"译为"多扫描融合"。整体采用学术文献标题的简洁命名风格，通过冒号分隔主副标题，符合中文科技论文标题的表述惯例。） | Wenhao Hu | PDF | Reconstructing complete and interactive 3D scenes remains a fundamental challenge in computer vision [翻译失败] | | RepreGuard：通过揭示隐藏表征模式检测大语言模型生成文本

（注：翻译说明： 1. 保留专业术语"Representation Patterns"译为"表征模式"，符合机器学习领域术语规范 2. "LLM-Generated Text"采用学界通用译法"大语言模型生成文本" 3. 冒号后副标题采用动宾结构，符合中文论文标题的学术表达规范 4. 通过"检测"对应"Detecting"，"揭示"对应"Revealing"，保持动词的准确对应 5. 整体采用四六骈句结构，兼顾学术严谨性与中文音韵美） | Xin Chen | PDF | Detecting content generated by large language models (LLMs) is crucial for preventing misuse and bui [翻译失败] | | MDPO：突破掩码扩散语言模型的训练-推理鸿沟

（注：采用学术翻译策略，保留核心术语"MDPO"与"Masked Diffusion Language Models"的英文缩写和标准译法。"Overcoming"译为"突破"更符合技术攻关语境，"Training-Inference Divide"采用计算机领域常用表述"训练-推理鸿沟"，准确体现模型部署中的性能落差问题。） | Haoyu He | PDF | Diffusion language models, as a promising alternative to traditional autoregressive (AR) models, ena [翻译失败] | | 信号与噪声：降低语言模型评估不确定性的框架

（注：译文采用学术论文标题的经典对仗结构，"Signal and Noise"译为"信号与噪声"符合信息论领域术语规范。副标题采用"框架"对应"Framework"，"降低不确定性"精准对应"Reducing Uncertainty"，整体保持技术文献的严谨性，同时符合中文标题的简洁性要求。） | David Heineman | PDF | Developing large language models is expensive and involves making decisions with small experiments, [翻译失败] | | 探究自主智能体：深入剖析其在任务执行中的失败原因

（注：译文采用学术论文标题的经典结构，通过冒号分隔主副标题。"Autonomous Agents"译为"自主智能体"符合人工智能领域术语规范，"A Closer Look"意译为"深入剖析"既保留原文的探究意味，又符合中文论文标题的学术表达习惯。后半句采用"失败原因"而非直译"为何失败"，使表述更贴合中文技术文献的客观陈述风格。） | Ruofan Lu | PDF | 基于大语言模型（LLMs）的自主智能体系统在自动化复杂任务方面展现出显著潜力。然而，当前评估方法主要依赖成功率指标，未能系统分析系统内部的交互机制、通信模式及故障成因。为弥补这一研究空白，我们构建了包含34个代表性可编程任务的基准测试集，用于严格评估自主智能体性能。通过该基准测试，我们对三种主流开源智能体框架与两种LLM基座模型组合进行评估，观察到任务完成率约为50%。借助深度故障分析，我们建立了与任务阶段相对应的三层故障分类体系，重点揭示了规划错误、任务执行问题及错误响应生成三大故障类型。基于这些发现，我们提出了可操作的改进方案以增强智能体的规划与自诊断能力。本研究构建的故障分类体系及缓解建议，为未来开发更强大、更可靠的自主智能体系统提供了实证基础。 | | GPT-5是否实现空间智能？一项实证研究

（注：译文严格遵循学术翻译规范，采用疑问句式保持原标题的探究性特征。"Spatial Intelligence"译为"空间智能"符合认知科学领域的术语标准，"Empirical Study"译为"实证研究"贴合社会科学研究方法表述。标题结构完整保留了原文的设问+研究类型说明的学术标题特征。） | Zhongang Cai | PDF | 近年来，多模态模型取得了显著进展。然而，其在空间理解与推理能力方面仍存在明显局限，而这两种能力是实现通用人工智能的基础。随着据称迄今最强人工智能模型GPT-5的近期发布，此刻正宜审视顶尖模型在空间智能发展进程中所处的阶段。我们首先提出统一现有基准测试的空间任务分类体系，并探讨确保公平评估面临的挑战。随后以超过十亿总token的代价，在八大核心基准上对最先进的专有模型与开源模型进行评估。实证研究表明：(1) GPT-5展现出前所未有的空间智能优势，但(2)在广泛任务中仍未能达到人类水平；(3)我们进一步识别出多模态模型面临更具挑战性的空间智能难题，且(4)专有模型在面对最困难问题时并未展现决定性优势。此外，我们针对多样化场景开展定性评估——这些对人类而言直观易懂的场景，却使最先进的多模态模型屡屡受挫。 | | 最优思维基准：评估大型语言模型中的过度思考与思考不足现象

（注：翻译说明： 1. "OptimalThinkingBench" 采用意译+专业术语处理，译为"最优思维基准"既保留"Bench"作为评估基准的专业含义，又准确传达"Optimal Thinking"的核心概念 2. "Evaluating" 译为"评估"符合学术语境 3. "Over and Underthinking" 采用计算机领域常用译法"过度思考与思考不足"，通过"与"字连接保持术语对称性 4. "LLMs" 规范译为"大型语言模型"，符合人工智能领域术语标准） | Pranjal Aggarwal | PDF | Thinking LLMs solve complex tasks at the expense of increased compute and overthinking on simpler pr [翻译失败] | | Motion2Motion：基于稀疏对应关系的跨拓扑运动迁移

（注：翻译说明： 1. "Motion2Motion" 保留技术命名格式不译 2. "Cross-topology" 译为"跨拓扑"准确传达跨不同拓扑结构的核心概念 3. "Motion Transfer" 采用计算机图形学领域标准译法"运动迁移" 4. "Sparse Correspondence" 译为"稀疏对应关系"符合计算机视觉领域术语规范 5. 整体采用技术论文标题常用的冒号分隔结构，保持学术严谨性） | Ling-Hao Chen | PDF | This work studies the challenge of transfer animations between characters whose skeletal topologies [翻译失败] | | 基于人类时空移动数据的机器学习模型训练：一项实验研究 [实验论文] | Yueyang Liu | PDF | Individual-level human mobility prediction has emerged as a significant topic of research with appli [翻译失败] |