2025-11-07 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
暗能量巡天第三年观测结果：基于模拟的$w$CDM模型——通过弱引力透镜与星系成图进行深度学习推断。第一部分：分析设计	A. Thomsen	PDF	基于深度学习的数据驱动方法正逐渐成为从宇宙学大尺度结构中提取非高斯信息的强大技术。本研究首次提出一个基于模拟的推断流程，该流程在暗能量巡天第三年（DES Y3）实际观测配置下，将弱引力透镜与星系成图相结合，为后续巡天数据分析奠定基础。我们基于CosmoGridV1系列N体模拟开发了可扩展的正向模型，在图谱层面生成了超过一百万组DES Y3自洽模拟实现。利用该海量数据集，我们在球面几何结构的完整巡天视场内训练深度图卷积神经网络，学习与目标参数互信息近似最大化的低维特征。通过标准化流变换，这些经学习得到的压缩特征实现了十维参数空间（涵盖宇宙学$w$CDM模型、内禀排列效应和线性星系偏差参数）内隐式似然函数的神经密度估计，同时边缘化了重子效应、光度红移偏差和剪切测量偏差等干扰因素。为确保稳健性，我们采用正向模型中的系统性污染和独立Buzzard星系目录生成的合成观测数据，对推断流程进行了全面验证。我们的预测显示宇宙学参数约束获得显著提升：在$\Omega_m - S_8$参数平面上，品质因子较基线两点统计量实现2-3倍增长，并通过联合探测有效打破了参数简并。这些成果证明了基于深度学习的SBI分析在即将开展的第四阶段宽视场成像巡天中的巨大潜力。
旋转木马：一个用于多目标自动图像裁剪的高分辨率数据集	Rafe Loya	PDF	自动图像裁剪是一种旨在最大化照片裁剪区域人类感知质量的技术。尽管已有若干研究提出了生成单一裁剪图像的方法，但针对生成多个具有美学吸引力的差异化裁剪图像的研究仍较为匮乏。本文通过探讨现代社交媒体应用场景来阐述该问题的重要性，并构建了一个包含277张相关图像及人工标注的数据集。我们通过将图像分割算法作为预处理步骤，系统评估了多种单裁剪模型的有效性。该数据集已发布于https://github.com/RafeLoya/carousel。
温和人形机器人：学习上半身顺应性以实现密集接触的人与物体交互

该标题可拆解为三个关键部分进行技术化处理： 1. "GentleHumanoid"采用"温和人形机器人"的译法，既保留人形机器人(humanoid)的学科术语特征，又通过"温和"准确传递gentle包含的柔顺交互特性 2. "Upper-body Compliance"译为"上半身顺应性"，符合机器人学中对于机械系统柔顺控制的专业表述 3. "Contact-rich Human and Object Interaction"处理为"密集接触的人与物体交互"，其中"contact-rich"译为"密集接触"能准确体现持续多触点交互的 technical scenario，同时保持"人-物交互"这一人机交互领域的标准术语结构

该翻译在保持学术严谨性的同时，通过"温和"与"密集接触"的语义呼应，完整保留了原文中刚柔并济的技术矛盾关系。 | Qingzhou Lu | PDF | 人形机器人需在以人类为中心的环境中运行，安全自然的物理交互至关重要。然而当前大多数强化学习策略强调刚性轨迹跟踪而抑制外力作用。现有基于阻抗增强的方法通常局限于基座或末端执行器控制，且侧重于抵抗极端外力而非实现柔顺性。本文提出GentleHumanoid框架，将阻抗控制集成至全身运动跟踪策略以实现上半身柔顺交互。其核心是基于统一弹簧模型的设计，可同时模拟抵抗性接触（按压表面时产生的恢复力）与引导性接触（从人类运动数据采样的推拉动作）。该模型在肩、肘、腕关节间保持运动学一致的受力状态，并使策略能适应多样化交互场景。通过任务可调的力阈值进一步保障安全性。我们在仿真和Unitree G1人形机器人上评估了该方法，测试任务涵盖不同柔顺度需求场景：轻柔拥抱、坐立辅助及安全物体操控。相较于基线方法，本策略在保证任务成功率的同时持续降低峰值接触力，实现更平滑自然的交互。这些成果标志着人形机器人向安全有效的人机协作及现实环境物体操控迈出了重要一步。 | | 追踪与理解物体变换 | Yihong Sun | PDF | 现实世界中的物体常经历状态转变。无论是苹果被切成碎片，还是蝴蝶破茧而出，追踪这些变化过程对理解现实物体及其动态规律至关重要。然而现有方法常因物体外观的显著变化而在状态转变后丢失目标轨迹。为突破这一局限，我们提出"任意状态追踪"任务：在检测并描述状态变化的同时实现对转变过程中物体的持续追踪，并同步推出全新基准数据集VOST-TAS。针对该问题，我们开发了零样本系统TubeletGraph，该系统能复原转变后消失的物体，并绘制物体状态随时间演变的轨迹图。TubeletGraph首先识别可能被忽略的轨迹段，继而基于语义关联度与空间邻近性先验判断是否应整合这些轨迹。随后系统对新增轨迹进行推理，生成描述每个观测到的状态转变的状态演化图。该体系在物体状态转变场景下实现了最先进的追踪性能，同时展现出对物体状态转变的深层理解力，以及在复杂物体转变时序定位与语义推理方面的显著潜力。代码、补充结果及基准数据集详见https://tubelet-graph.github.io。 | | InfinityStar：面向视觉生成的统一时空自回归建模框架

（解析说明：该翻译采用学术论文标题的规范译法： 1. "InfinityStar"保留英文原名体现技术品牌 2. "Unified Spacetime"译为"统一时空"准确传达跨时空维度特性 3. "AutoRegressive Modeling"采用控制理论标准译名"自回归建模" 4. "Visual Generation"译为"视觉生成"符合计算机视觉领域术语惯例 5. 整体采用"技术名称：技术特性+应用领域"的中文学术标题结构） | Jinlai Liu | PDF | 我们提出InfinityStar——一个面向高分辨率图像与动态视频生成的统一时空自回归框架。基于自回归建模在视觉与语言领域的最新进展，我们的纯离散化方法在单一架构中同时捕捉空间与时间依赖性。这种统一设计通过直接的时间自回归，天然支持多种生成任务，包括文本到图像、文本到视频、图像到视频以及长程交互式视频合成。大量实验表明，InfinityStar在VBench评测中获得83.74分，以显著优势超越所有自回归模型，甚至超过HunyuanVideo等扩散模型竞品。在未进行额外优化的情况下，本模型生成5秒720p视频的速度比主流扩散方法快约10倍。据我们所知，InfinityStar是首个能生成工业级720p视频的离散自回归视频生成器。我们将公开全部代码与模型，以推动高效高质量视频生成的进一步研究。 | | X-Diffusion：基于跨具身人类示范数据的扩散策略训练

（注：该翻译在保持学术术语准确性的基础上进行了以下处理： 1. "Cross-Embodiment"译为"跨具身"，准确传达不同物理形态智能体的核心概念 2. "Diffusion Policies"译为"扩散策略"，符合机器学习领域对扩散模型的标准译法 3. 采用"基于...的...训练"句式，符合中文论文标题的表述规范 4. 保留原文的冒号分隔结构，维持学术标题的严谨性） | Maximus A. Pace | PDF | 人类视频能够快速大规模录制，这使其成为机器人学习极具吸引力的训练数据来源。然而人类与机器人在本体结构上存在根本差异，导致动作执行方式不匹配。直接对人体手部运动进行运动学重定向，可能生成机器人物理上无法实现的动作。尽管存在这些底层差异，人类演示仍能提供关于如何操控物体的宝贵运动线索。我们的核心思路是利用前向扩散过程：当动作被添加噪声时，底层执行差异逐渐消弭，而高层任务指导信息得以保留。本文提出X-Diffusion——一个基于扩散策略的训练框架，能最大限度利用人类数据而不学习动力学不可行的动作。该框架首先训练分类器来判别含噪动作的执行主体是人类还是机器人，随后仅当人类动作添加足够噪声（使分类器无法识别其执行主体）时，才将其纳入策略训练。与机器人执行模式匹配的动作在低噪声级别监督精细化去噪过程，而不匹配的人类动作仅在高噪声级别提供粗略指导。实验表明，在执行不匹配情况下进行简单联合训练会降低策略性能，而X-Diffusion则能持续提升性能。在五项操作任务中，X-Diffusion相比最佳基线模型平均成功率提升16%。项目网站详见：https://portal-cornell.github.io/X-Diffusion/ | | 寒武纪-S：迈向视频空间超感知 | Shusheng Yang | PDF | 我们认为，真正多模态智能的发展需要从被动式、任务驱动的系统与暴力长上下文处理转向更广义的超感知范式。我们将空间超感知定义为超越纯语言理解的四个阶段：语义感知（识别所见之物）、流式事件认知（在连续体验中维持记忆）、隐性三维空间认知（推断像素背后的世界）以及预测性世界建模（建立筛选组织信息的内部模型）。现有基准大多仅测试初级阶段，对空间认知的覆盖范围狭窄，且鲜少以需要真实世界建模的方式挑战模型。为推动空间超感知发展，我们提出由VSR（长程视觉空间回溯）和VSC（持续视觉空间计数）组成的VSI-SUPER双重基准。这些任务需处理任意长度的视频输入，却能有效抵御暴力上下文扩展。随后我们通过构建VSI-590K数据集并训练Cambrian-S模型探索数据扩展极限，在保持通用能力的同时使VSI-Bench指标绝对提升30%。然而模型在VSI-SUPER上的表现仍存局限，表明单纯扩大规模不足以实现空间超感知。我们提出预测性感知作为突破路径，并通过概念验证展示自监督的潜在帧预测器如何利用预测误差驱动记忆与事件分割。该方法在VSI-SUPER上显著超越主流闭源基线，证明空间超感知需要模型不仅能观察，更要能预测、筛选并组织经验。 | | SIMS-V：面向空间视频理解的模拟指令调优技术

该模型名称可直译为"SIMS-V：空间视频理解的模拟指令调优"，其中： - SIMS-V 作为专有模型名称保留原格式 - "Simulated Instruction-Tuning" 译为"模拟指令调优"，准确体现通过仿真环境进行指令微调的技术特征 - "Spatial Video Understanding" 采用"空间视频理解"这一计算机视觉领域标准译法，强调对视频中物体空间关系与运动轨迹的深度理解 | Ellis Brown | PDF | 尽管在多模态语言模型已实现令人瞩目的高层次视频理解能力，其在时空维度上的空间推理仍面临挑战。当前空间训练方法主要依赖现实世界视频数据，但获取具有精确空间标注的多样化影像资料仍是发展瓶颈。为突破此限制，我们提出SIMS-V——一个系统化的数据生成框架，通过利用三维模拟器的特权信息，为多模态语言模型创建富含空间信息的视频训练数据。基于该框架，我们通过系统化消融实验探究问题类型、混合策略与数据规模等要素对模拟数据实现有效现实迁移的关键特性。研究发现，仅需三类核心问题（度量测算、视角依赖推理与时序追踪）即可构建最高效的可迁移空间智能培养方案，其效果优于全面覆盖式训练，且所用问题类型更为精简。这些发现实现了极高训练效率：我们基于2.5万模拟样本微调的70亿参数视频大语言模型，不仅超越720亿参数基线模型，更在严谨的现实世界空间推理基准测试中与专有模型表现相当。该方法展现出强大的泛化能力，在保持通用视频理解性能的同时，在具身化任务与现实空间任务上实现显著提升。 | | 数学分班评估的多方法分析：经典方法、机器学习与聚类方法 | Julian D. Allagan | PDF | 本研究采用经典测验理论、机器学习与无监督聚类相结合的多方法框架，对198名学生实施的40项数学分班考试进行评估。经典测验理论分析显示，55%的试题具有优良区分度（D ≥ 0.40），而30%的试题区分度较差（D < 0.20）需予以替换。第六题（图表解析）展现出最显著的区分能力，达到完美区分度（D = 1.000），最高方差分析F统计量（F = 4609.1），以及最大随机森林特征重要性（0.206），贡献了20.6%的预测效能。机器学习算法表现出卓越性能，随机森林与梯度提升算法的交叉验证准确率分别达到97.5%和96.0%。K均值聚类识别出以42.5%为界限的二元能力结构，该分界点与机构设定的55%阈值存在差异，表明可能存在补救类别的过度划分。双聚类解决方案展现出极佳的稳定性（自助法调整兰德指数=0.855），且下位聚类纯度达到完美。多方法汇聚证据支持以下优化建议：替换低区分度试题，实施两阶段评估机制，并将随机森林预测与透明化解释机制相结合。这些发现证明，多方法融合能为基于实证的数学分班优化提供坚实的理论支撑。 | | 遗忘无处不在 | Ben Sanati | PDF | 开发通用学习算法的一个根本性挑战在于：当算法适应新数据时，往往会出现遗忘已有知识的现象。解决这一难题需要从理论层面系统理解遗忘机制；然而经过数十年研究，学界仍未形成能够揭示学习内在动态的统一界定。我们提出了一种与具体算法及任务无关的理论框架，将遗忘定义为学习器对未来经验的预测分布缺乏自洽性，具体表现为预测信息的衰减。该理论自然衍生出可量化算法遗忘倾向的通用度量方法。为验证理论，我们设计了涵盖分类、回归、生成建模和强化学习的综合实验，通过实证研究表明：所有学习场景中普遍存在遗忘现象，且其对学习效率具有决定性影响。这些研究结果建立了对遗忘机制的系统性认知，为分析和改进通用学习算法的信息保持能力奠定了理论基础。 |

bioRxiv

标题	作者	PDF链接	摘要
抗生素诱导的大肠杆菌重组需要DNA双链断裂的形成	Nath, A.	PDF
莫诺德：通过将随机转录动态拟合至单细胞测序数据实现基于模型的发现与整合

（注：该翻译采用学术规范处理： 1. 保留关键人名"Monod"音译为"莫诺德"（分子生物学奠基人雅克·莫诺德） 2. "stochastic transcriptional dynamics"译为专业术语"随机转录动态" 3. 采用破折号衔接方法论与实现路径 4. 保持"model-based discovery and integration"在生物信息学领域的标准表述"基于模型的发现与整合" 5. 准确对应"single-cell sequencing data"在基因组学领域的固定译法"单细胞测序数据"） | Gorin, G. | PDF | | | 化学诱导体内视网膜神经元再生成功恢复小鼠视力 | Shoaib, R. M. | PDF | | | 围绕导管周围成纤维细胞密度通过CD44依赖性基质检查点决定胰腺癌中淋巴细胞排斥现象

解析： 1. "Periductal Fibroblast Density" 译为"围绕导管周围成纤维细胞密度" - Periductal: 导管周围的（解剖学术语） - Fibroblast: 成纤维细胞（细胞生物学标准译名）

"Defines Lymphocyte Exclusion" 译为"决定淋巴细胞排斥现象"
Lymphocyte Exclusion: 淋巴细胞排斥（肿瘤免疫学专业术语）
Defines: 在此语境下译为"决定"更符合学术表达
"CD44-Dependent Stromal Checkpoint" 译为"CD44依赖性基质检查点"
CD44: 保留英文缩写（细胞表面标志物通用写法）
Stromal Checkpoint: 基质检查点（肿瘤微环境专业概念）
整体采用"通过...在...中"的学术句式结构，符合中文科技论文表达习惯
保持原文"密度-机制-现象"的逻辑链条，准确传递胰腺癌肿瘤微环境中基质细胞调控免疫细胞浸润的核心科学内涵 | Malchiodi, Z. X. | PDF | | | 多样化的基因谱系揭示真核生物起源过程中的多重微生物关联 | Bernabeu, M. | PDF | | | B细胞表达的PexRAP酶——醚脂生物合成过程中的关键中介物质——能够增强抗体应答并促进生发中心规模扩大

这一翻译保持了原文的学术严谨性，通过以下方式实现精准转换： 1. 专业术语对应： - "Biophysical validation"译为"生物物理学验证" - "Explainable AI"采用学界通用译法"可解释性人工智能" - "Functional brain imaging"译为标准术语"功能性脑成像"

结构对应：保留原文冒号分隔的标题结构，准确传达"验证方法"与"研究目标"的逻辑关系
概念整合： "Bridging"译为"连接"，准确体现连接微观细胞机制与宏观网络动力学的跨尺度研究内涵
学科语境：采用神经科学领域标准表述，确保在脑科学研究语境中的专业性和可读性 | Strock, A. | PDF | | | 空间BF：基于贝叶斯融合方法的空间组学数据共表达分析

（解析说明： 1. 保留核心算法简称"SpaceBF"不译，符合学术惯例 2. "Spatial coexpression analysis"译为"空间共表达分析"，准确对应生物信息学专业术语 3. "Bayesian Fused approaches"采用"贝叶斯融合方法"的译法，既保持贝叶斯统计的专业性，又准确传达"Fused"在算法中的融合含义 4. 整体采用"基于...的...分析"学术句式，符合中文论文标题表达规范 5. 补充"数据"二字使"空间组学数据集"的语义更完整，符合中文表达习惯） | Seal, S. | PDF | |

medRxiv

标题	作者	PDF链接	摘要
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF