arxiv 2025-11-08

标题	作者	PDF链接	摘要
暗能量巡天第三年观测结果：基于模拟的$w$CDM模型——通过弱引力透镜与星系成图进行深度学习推断。第一部分：分析设计	A. Thomsen	PDF	基于深度学习的数据驱动方法正逐渐成为从宇宙学大尺度结构中提取非高斯信息的强大技术。本研究首次提出了一种在暗能量巡天第三年（DES Y3）实际观测配置下，结合弱引力透镜与星系成图数据的模拟推断流程，为后续巡天数据分析奠定了基础。我们基于CosmoGridV1 N体模拟套件开发了可扩展的正向模型，在图谱层面生成了超过一百万组DES Y3自洽模拟实现。利用该海量数据集，我们在球面几何结构的完整巡天区域内训练深度图卷积神经网络，学习与目标参数互信息近似最大化的低维特征。通过标准化流在十维参数空间（包含宇宙学$w$CDM模型、内禀排列及线性星系偏差参数）中实现隐式似然函数的神经密度估计，同时边缘化处理重子效应、光测红移和剪切偏差等干扰因素。为确保稳健性，我们采用正向模型中的系统性污染和独立Buzzard星系目录生成的合成观测数据，对推断流程进行了全面验证。我们的预测显著提升了宇宙学参数约束能力：在$\Omega_m - S_8$参数平面上品质因子较基线两点统计实现提高2-3倍，并通过联合探测有效打破了参数简并。这些成果证明了深度学习驱动的模拟推断分析在未来第四阶段宽视场成像巡天中的巨大潜力。
旋转木马：一个用于多目标自动图像裁剪的高分辨率数据集	Rafe Loya	PDF	自动图像裁剪是一种旨在最大化照片裁剪区域人类感知质量的技术。尽管已有若干研究提出了生成单一裁剪图像的方法，但针对生成多个具有美学吸引力的差异化裁剪图像的研究仍较为匮乏。本文通过探讨现代社交媒体应用场景来阐述该问题的重要性，并构建了一个包含277张相关图像及人工标注的数据集。我们通过将图像分割算法作为预处理步骤，系统评估了多种单裁剪模型的有效性。该数据集已发布于https://github.com/RafeLoya/carousel。
温和仿人机器人：学习上半身顺应性以实现接触密集的人与物体交互

该标题可拆解为三个核心部分进行技术化转译： 1. "GentleHumanoid"采用"温和仿人机器人"的译法，既保留人形机器人(humanoid)的本体特征，又通过"温和"体现其柔顺交互特性 2. "Upper-body Compliance"译为"上半身顺应性"，准确对应机器人学中描述机械系统对外力产生适应性反应的专有概念 3. "Contact-rich Human and Object Interaction"处理为"接触密集的人与物体交互"，其中"contact-rich"通过"密集"体现高频接触特性，"Interaction"采用"交互"这一人机交互领域的标准术语

该翻译严格遵循机器人学领域的术语体系，在保持学术准确性的同时，通过四六骈文结构实现中文标题的凝练表达。 | Qingzhou Lu | PDF | 类人机器人需在以人类为中心的环境中运行，安全自然的物理交互至关重要。然而当前大多数强化学习策略强调刚性轨迹跟踪而抑制外力作用。现有基于阻抗增强的方法通常局限于基座或末端执行器控制，且侧重于抵抗极端外力而非实现柔顺性。我们提出GentleHumanoid框架，将阻抗控制集成至全身运动跟踪策略以实现上半身柔顺交互。其核心是基于统一弹簧模型的设计，可同时模拟抵抗性接触（按压表面时产生的恢复力）与引导性接触（从人类运动数据采样的推拉动作）。该模型确保肩、肘、腕关节产生运动学一致的力，同时使策略能适应多样化的交互场景。通过任务可调的力阈值进一步保障安全性。我们在仿真和Unitree G1类人机器人上评估了该方法，测试任务涵盖不同柔顺度需求场景：轻柔拥抱、坐立辅助及安全物体操控。相较于基线方法，我们的策略在保证任务成功率的同时持续降低峰值接触力，实现更平滑自然的交互。这些成果标志着类人机器人向安全有效的人机协作及现实环境物体操控迈出了重要一步。 | | 追踪与理解物体变换 | Yihong Sun | PDF | 现实世界中的物体常经历状态转变。无论是苹果被切成碎片，还是蝴蝶破茧而出，追踪这些变化过程对理解现实物体及其动态规律至关重要。然而，由于物体外观的显著改变，现有方法在状态转变后往往丢失目标追踪。为突破这一局限，我们提出"任意状态追踪"任务：在检测并描述状态变化的同时实现对转变过程中物体的持续追踪，并同步推出全新基准数据集VOST-TAS。针对该问题，我们开发了零样本系统TubeletGraph，该系统能在物体形态转变后重新定位缺失目标，并绘制物体状态随时间演变的轨迹图。TubeletGraph首先识别可能被忽略的轨迹片段，继而基于语义关联性和空间邻近性先验判断是否应整合这些轨迹。随后系统对新增轨迹进行推理分析，生成描述每个观测到的状态转变的状态演化图。该体系在物体形态转变场景下实现了最先进的追踪性能，同时展现出对物体状态转变的深层理解力，以及在复杂物体转变时序定位与语义推理方面的突出潜力。相关代码、补充结果及基准数据集详见https://tubelet-graph.github.io。 | | InfinityStar：面向视觉生成的统一时空自回归建模框架

（解析说明：该翻译采用学术论文标题的规范译法： 1. "InfinityStar"保留英文原名体现技术品牌 2. "Unified Spacetime"译为"统一时空"准确对应视觉生成中时间与空间维度的联合建模特性 3. "AutoRegressive Modeling"采用控制理论标准译法"自回归建模" 4. "Visual Generation"扩展为"视觉生成框架"更符合中文论文标题表述习惯 5. 整体采用"技术副标题：核心方法+应用领域"的经典学术标题结构） | Jinlai Liu | PDF | 我们提出InfinityStar——一个面向高分辨率图像与动态视频生成的统一时空自回归框架。基于自回归建模在视觉与语言领域的最新进展，我们的纯离散化方法在单一架构中同步捕捉空间与时间依赖关系。这种统一设计天然支持多种生成任务，包括文本到图像、文本到视频、图像到视频转换，以及通过直接时间自回归实现的交互式长视频生成。大量实验表明，InfinityStar在VBench评测中获得83.74分，以显著优势超越所有自回归模型，甚至优于HunyuanVideo等扩散模型竞品。在未进行额外优化的情况下，本模型生成5秒720p视频的速度比主流扩散方法快约10倍。据我们所知，InfinityStar是首个能生成工业级720p视频的离散自回归视频生成器。我们将公开全部代码与模型，以推动高效高质量视频生成的进一步研究。 | | X-Diffusion：基于跨具身人类示范数据的扩散策略训练

（注：该翻译在保持学术术语准确性的基础上进行了以下处理： 1. "Cross-Embodiment"译为"跨具身"，准确传达不同物理形态智能体间的概念 2. "Diffusion Policies"译为"扩散策略"，符合扩散模型在策略学习中的专业表述 3. 采用"基于...的..."句式，符合中文论文标题常见的表达规范 4. 保留"X-Diffusion"原格式，维持技术命名的识别度） | Maximus A. Pace | PDF | 人类视频能够快速大规模录制，这使其成为机器人学习极具吸引力的训练数据来源。然而人类与机器人在本体结构上存在根本差异，导致动作执行方式不匹配。直接对人体手部运动进行运动学重定向，可能生成机器人物理上无法实现的动作。尽管存在这些底层差异，人类演示仍能提供关于物体操控与交互的宝贵运动线索。我们的核心思路是利用前向扩散过程：当动作被添加噪声时，底层执行差异逐渐消弭，而高层任务指导信息得以保留。本文提出X-Diffusion原理性框架，通过训练扩散策略最大限度利用人类数据，同时避免学习动态不可行的动作。该框架首先训练分类器预测含噪动作的执行主体是人类还是机器人，随后仅当人类动作添加足够噪声（使分类器无法识别其执行主体）时，才将其纳入策略训练。与机器人执行模式匹配的动作在低噪声级监督精细化去噪过程，而不匹配的人类动作仅在高噪声级提供粗粒度指导。实验表明，在执行失配情况下进行简单联合训练会降低策略性能，而X-Diffusion则能持续提升性能。在五项操控任务中，X-Diffusion相较最佳基线模型平均成功率提升16%。项目网站详见：https://portal-cornell.github.io/X-Diffusion/ | | 寒武纪-S：迈向视频空间超感知 | Shusheng Yang | PDF | 我们认为，真正多模态智能的发展需要从被动式任务驱动系统和暴力长上下文处理，转向更广义的超感知范式。我们将空间超感知定义为超越纯语言理解的四个阶段：语义感知（识别所见之物）、流式事件认知（在连续体验中维持记忆）、隐式三维空间认知（推断像素背后的世界）以及预测性世界建模（建立筛选组织信息的内部模型）。现有基准大多仅测试初级阶段，对空间认知的覆盖范围狭窄，且鲜少以需要真实世界建模的方式挑战模型。

为推动空间超感知发展，我们提出由两部分组成的VSI-SUPER基准：VSR（长程视觉空间回溯）与VSC（持续视觉空间计数）。这些任务需处理任意长度的视频输入，且能有效抵御暴力上下文扩展。我们通过构建VSI-590K数据集并训练Cambrian-S模型，在保持通用能力的前提下使VSI-Bench指标获得30%的绝对提升。然而在VSI-SUPER上的表现仍存局限，表明仅靠规模扩展无法实现空间超感知。

我们提出预测性感知作为发展路径，并通过概念验证展示：自监督的潜在帧预测器可利用预测误差驱动记忆与事件分割。该方法在VSI-SUPER基准上显著超越主流基线模型，证明空间超感知需要模型不仅能观察，更要具备对经验的预测、筛选和组织能力。 | | SIMS-V：面向空间视频理解的模拟指令调优技术

解析： 1. 专业术语处理： - "SIMS-V" 保留英文缩写+罗马数字格式，符合学术惯例 - "Simulated Instruction-Tuning" 译为"模拟指令调优"，准确体现通过模拟数据进行指令微调的技术内涵 - "Spatial Video Understanding" 译为"空间视频理解"，精准对应计算机视觉中处理三维空间信息的视频理解任务

技术概念传达：
使用"面向"明确技术应用领域
"技术"后缀体现方法论属性
保持"指令调优"这一LLM领域专业术语的规范译法
结构优化：
采用"主标题: 副标题"的学术标准格式
通过冒号分隔实现中英文标题的结构对应
确保技术路径（模拟指令调优）与应用领域（空间视频理解）的逻辑清晰度

该翻译严格遵循学术翻译的准确性、专业性与规范性要求，完整保留了原技术名称的技术路径指示功能与应用领域界定。 | Ellis Brown | PDF | 尽管在多模态语言模型已实现卓越的高层视频理解能力，其在时空维度上的空间推理仍面临挑战。当前空间训练方法主要依赖现实世界视频数据，但获取具有精确空间标注的多样化影像资料仍是发展瓶颈。为突破此限制，我们提出SIMS-V——一个系统化数据生成框架，通过利用三维模拟器的特权信息，为多模态语言模型创建富含空间信息的视频训练数据。基于该框架，我们通过系统化消融实验探究问题类型、混合策略与数据规模等模拟数据特性对现实世界迁移效果的影响。研究发现，仅需三类核心问题（度量测算、视角依赖推理与时序追踪）即可构建最高效的可迁移空间智能培养方案，其效果优于全面覆盖式训练，且所用问题类型更精简。这一发现实现了高效训练：我们基于2.5万模拟样本微调的70亿参数视频大语言模型，不仅超越720亿参数基线模型，更在严谨的现实世界空间推理基准测试中与专有模型性能相当。该方法展现出强大的泛化能力，在保持通用视频理解性能的同时，在具身智能与真实世界空间任务上实现显著提升。 | | 数学分班评估的多方法分析：经典方法、机器学习与聚类方法 | Julian D. Allagan | PDF | 本研究采用经典测验理论、机器学习与无监督聚类相结合的多方法框架，对198名学生参与的40项数学分级测验进行评估。经典测验理论分析显示：55%的试题具有优良区分度（D≥0.40），而30%的试题区分度不足（D<0.20）需予以替换。第六题（图表解析）展现出最强的区分能力：实现完全区分（D=1.000）、最高方差分析F统计量（F=4609.1）及最大随机森林特征重要性（0.206），贡献了20.6%的预测效能。机器学习算法表现卓越，随机森林与梯度提升算法的交叉验证准确率分别达到97.5%和96.0%。K均值聚类识别出以42.5%为界限的二元能力结构，该分界与机构设定的55%阈值存在差异，表明可能存在过度归类至补救等级的现象。双聚类解展现出极佳的稳定性（自助法调整兰德指数=0.855），且低分群纯度达到完美。多方法汇聚证据支持三项改进措施：替换低区分度试题、实施两阶段评估机制、结合随机森林预测与透明化解释。本研究证实，多方法融合能为数学分级体系的循证优化提供坚实的实证基础。 | | 遗忘无处不在 | Ben Sanati | PDF | 开发通用学习算法的一个根本性挑战在于：当算法适应新数据时，往往会出现遗忘已有知识的现象。解决这一难题需要从理论层面系统理解遗忘机制；然而经过数十年研究，学界仍未形成能够揭示学习内在动态的统一界定。我们提出了一种与具体算法及任务无关的理论框架，将遗忘定义为学习器对未来经验的预测分布缺乏自洽性，具体表现为预测信息的衰减。该理论自然衍生出可量化算法遗忘倾向的通用度量方法。为验证理论，我们设计了涵盖分类、回归、生成建模和强化学习的综合实验，通过实证研究表明所有学习场景中普遍存在遗忘现象，且其对学习效率具有决定性影响。这些研究成果建立了对遗忘机制的理论认知，为分析和改进通用学习算法的信息保持能力奠定了理论基础。 |