2025-06-28 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
全身条件化第一人称视频预测

（翻译说明： 1. "Whole-Body"译为"全身"准确表达了涉及完整身体状态的含义 2. "Conditioned"采用"条件化"这一学术规范译法，符合机器学习领域术语 3. "Egocentric"译为"第一人称"是计算机视觉领域的标准译名，比"自我中心"更专业 4. 保留"视频预测"的直译，准确反映视频生成任务的本质 5. 整体采用"定语+中心词"的科技论文标题结构，符合中文论文标题规范） | Yutong Bai | PDF | 我们训练模型实现基于人类动作的自中心视频预测（PEVA），该模型接收历史视频帧及由相对3D身体姿态表示的动作指令。通过以人体关节层级结构组织的运动学姿态轨迹作为条件，我们的模型能够从第一人称视角学习模拟人类物理动作如何塑造环境。我们在Nymeria数据集（一个包含真实世界自中心视频与身体姿态捕捉的大规模数据集）上训练了自回归条件扩散变换器。为进一步评估模型性能，我们设计了层级化评估方案，包含难度递增的任务序列，从而全面分析模型的具身预测与控制能力。本研究开创性地尝试从人类视角出发，通过视频预测来建模复杂现实环境与具身智能体行为所面临的挑战。

（翻译说明： 1. 专业术语处理："ego-centric"译为"自中心"符合计算机视觉领域术语，"auto-regressive conditional diffusion transformer"保留技术特征译为"自回归条件扩散变换器" 2. 句式重构：将英语长句拆分为符合中文表达习惯的短句，如将"structured by..."处理为独立分句 3. 概念显化："embodied prediction"译为"具身预测"既保留学术概念又确保可读性 4. 被动语态转换：如"our model learns to..."主动化处理为"我们的模型能够学习..." 5. 补充说明：对Nymeria数据集添加括号注释，符合中文学术写作规范） | | mTSBench：大规模多元时间序列异常检测与模型选择基准测试平台

（翻译说明： 1. 专业术语处理： - "Multivariate Time Series"译为"多元时间序列"，采用统计学领域标准译法 - "Anomaly Detection"译为"异常检测"，符合计算机科学术语规范 - "Model Selection"译为"模型选择"，保留机器学习专业表述

技术概念传达：
"Benchmarking"译为"基准测试"，准确体现性能评估含义
"at Scale"译为"大规模"，突出系统处理海量数据的能力
结构完整性：
保留英文缩写"mTSBench"作为专有名称
使用破折号"："保持原标题的层次关系
中文语序调整符合技术文献表达习惯
学术风格：
采用"平台"作为隐性补充，使技术工具属性更明确
整体表述简洁严谨，符合计算机领域论文标题特征） | Xiaona Zhou | PDF | Multivariate time series anomaly detection (MTS-AD) is critical in domains like healthcare, cybersec [翻译失败] | | 在大型语言模型预训练中何处觅得“顿悟”？无需测试即可监控从记忆到泛化的转变

（翻译说明： 1. 专业术语处理： - "Grokking"译为"顿悟"，采用计算机领域对深度学习中突然性能提升现象的通用译法 - "LLM"译为全称"大型语言模型"确保学术严谨性 - "Memorization-to-Generalization"译为"从记忆到泛化的转变"准确传达概念演进过程

句式重构：
将疑问句式"Where to find"转化为中文更自然的"何处觅得"文言表达
"without Test"转译为"无需测试"符合中文否定表达习惯
使用破折号连接监控对象，保持学术文本的紧凑性
学术风格保持：
保留原标题的探索性语气
使用"监控"而非"监测"更符合机器学习领域术语
整体采用四六骈体结构，兼顾学术严谨性与中文音韵美） | Ziyue Li | PDF | Grokking, i.e., test performance keeps improving long after training loss converged, has been recent [翻译失败] | | SiM3D：单实例多视角多模态多配置三维异常检测基准

翻译说明： 1. "Single-instance"译为"单实例"，准确对应计算机视觉领域术语 2. "Multiview"译为"多视角"，符合三维视觉领域对多视角重建的表述惯例 3. "Multimodal"译为"多模态"，保留机器学习中多模态学习的专业术语 4. "Multisetup"译为"多配置"，体现不同实验设置的含义 5. 保留"3D"不翻译，符合中文科技文献对三维技术表述的惯例 6. "Anomaly Detection Benchmark"译为"异常检测基准"，完整保留专业术语 7. 整体采用中文技术文献标题常用的名词堆叠结构，通过连接号保持术语紧凑性 | Alex Costanzino | PDF | 我们提出SiM3D——首个考虑多视角与多模态信息融合的三维异常检测与分割（ADS）综合基准，其核心任务是生成基于体素的异常体积。该基准特别关注制造业中极具价值的单实例异常检测场景：训练阶段仅需单个真实或合成对象样本。就此而言，SiM3D成为首个解决"从合成训练数据泛化至真实测试数据"挑战的ADS基准。SiM3D包含通过顶级工业传感器与机器人采集的新型多模态多视角数据集，涵盖8类物体共333个实例的多视角高分辨率图像（1200万像素）与点云数据（700万点），每类物体均配有CAD模型。我们还为异常测试样本提供了人工标注的三维分割真值。针对提出的多视角三维ADS任务，我们改造了多个主流单视角方法，并采用专为异常体积设计的新型评估指标建立性能基线。 | | SAM4D：多模态（相机与激光雷达）数据流通用分割模型

翻译说明： 1. 保留核心技术代号"SAM4D"不变 2. "Segment Anything"采用行业通用译法"通用分割"，准确体现其零样本分割能力 3. "Camera and LiDAR Streams"译为"多模态（相机与激光雷达）数据流"： - 增补"多模态"作为技术范畴说明 - 使用括号补充说明具体模态类型 - "Streams"译为"数据流"符合自动驾驶/机器人领域术语 4. 整体采用"主标题+副标题"结构，符合中文论文标题规范 5. 专业术语处理： - "LiDAR"保持专业术语"激光雷达" - "Streams"未直译为"流"而采用"数据流"更准确

备选方案：《SAM4D：跨模态（相机+激光雷达）实时分割系统》（更突出实时性，但原文未明确强调"real-time"要素） | Jianyun Xu | PDF | 我们提出SAM4D——一个面向相机与激光雷达跨模态时序分割任务的多模态基础模型。通过创新性设计的统一多模态位置编码（UMPE），该模型实现了相机与激光雷达特征在共享三维空间的对齐，从而支持无缝的跨模态提示与交互。我们进一步提出运动感知跨模态记忆注意力机制（MCMA），利用自运动补偿增强时序一致性并实现长时程特征检索，确保在动态变化的自动驾驶场景中保持稳健分割性能。为突破人工标注瓶颈，我们开发了多模态自动数据引擎，整合视觉基础模型驱动的视频片段掩码、时空4D重建及跨模态掩码融合技术。该框架能以超越人工标注数个数量级的速度生成相机-激光雷达对齐的伪标签，同时在点云表征中保持视觉基础模型原有的语义保真度。基于构建的Waymo-4DSeg数据集进行的广泛实验表明，SAM4D展现出强大的跨模态分割能力，在数据标注领域具有显著应用潜力。 | | HalluSegBench：面向分割幻觉评估的反事实视觉推理基准

（翻译说明： 1. 专业术语处理： - "Counterfactual Visual Reasoning"译为"反事实视觉推理"，沿用计算机视觉领域标准译法 - "Segmentation Hallucination"译为"分割幻觉"，保留图像分割领域的专业表述

结构解析：
主标题HalluSegBench采用音译+意译组合："Hallu"音译为"哈鲁"，"SegBench"意译为"分割基准"
副标题采用"面向...的..."句式，符合中文论文标题规范
技术准确性：
"Evaluation"译为"评估"而非"评测"，更符合学术论文用语习惯
保持"视觉推理"与"分割"的专业术语一致性
格式规范：
保留英文专名首字母大写
使用中文破折号"："替代英文冒号
整体符合CVPR/ICCV等顶级会议的中文标题惯例） | Xinzhuo Li | PDF | 视觉语言分割领域的最新进展显著推动了基于视觉的语义理解。然而，这些模型经常产生幻觉现象：要么对图像中不存在的对象生成分割掩码，要么错误标记无关区域。现有分割幻觉评估方案主要关注标签或文本层面的幻觉，而未对视觉上下文进行操控，导致其诊断关键性失效的能力受限。为此，我们提出首个通过反事实视觉推理评估视觉基础幻觉的基准框架HalluSegBench。该基准包含两个核心组件：1）涵盖281个独特物体类别、包含1340对反事实实例的新型数据集；2）一套创新性度量指标，可量化视觉连贯场景编辑下的幻觉敏感性。基于当前最先进的视觉语言分割模型在HalluSegBench上的实验表明：视觉驱动的幻觉现象比标签驱动型更为普遍，模型往往持续产生错误分割，这凸显了采用反事实推理来诊断基础保真度的必要性。

（注：根据学术翻译规范，关键术语处理如下： 1. "grounded visual understanding"译为"基于视觉的语义理解"（计算机视觉领域惯用表述） 2. "hallucinations"统一译为"幻觉现象"（保持术语一致性） 3. "counterfactual visual reasoning"译为"反事实视觉推理"（认知科学标准译法） 4. 长难句采用拆分策略，如将原文最后复合句拆分为两个中文分句，符合中文学术表达习惯） | | 语言模型训练中的数据效能

（翻译说明： 1. "Data Efficacy"译为"数据效能"，准确传达"数据有效性及产出效果"的核心含义，符合机器学习领域术语规范 2. "for"处理为中文修饰关系助词"的"，符合学术标题的简洁性要求 3. "Language Model Training"采用直译"语言模型训练"，保留专业术语的准确性 4. 整体采用名词短语结构，与原文语法结构保持一致，同时符合中文标题表达习惯 5. 未添加冗余动词，保持学术标题的凝练特征） | Yalun Dai | PDF | 数据是语言模型（LM）训练的基础要素。近期研究聚焦于数据效率领域，旨在通过选择最小或最优训练数据子集来实现性能最大化，其中数据过滤、采样与选择技术发挥着关键作用。作为补充，我们提出"数据效能"概念，强调通过优化训练数据组织方式来提升模型性能，该领域目前研究相对不足。本研究提出通用范式DELT，将数据效能纳入语言模型训练考量，突显训练数据组织方式的重要性。DELT包含三大核心组件：数据评分、数据选择与数据排序。在数据评分方面，我们创新性地设计了可学习性-质量双维评分（LQS），从梯度一致性的角度综合评估每个数据样本的可学习性与质量；在数据排序环节，提出折叠排序法（FO）以解决模型遗忘与数据分布偏差等问题。系统化实验验证了数据效能在语言模型训练中的价值，主要发现包括：首先，在不增加数据规模与模型参数量的前提下，DELT各组件实例均能不同程度提升模型性能；其次，采用LQS评分与FO排序的组合方案能实现最显著的性能提升；最后，通过数据选择可实现数据效能与数据效率的协同优化。这些发现表明，数据效能是语言模型训练中极具潜力的基础研究方向。 | | DeOcc-1-to-3：基于自监督多视角扩散的单图像三维去遮挡技术

（翻译说明： 1. 专业术语处理： - "De-Occlusion"译为"去遮挡"，符合计算机视觉领域术语规范 - "Self-Supervised"译为"自监督"，保持机器学习领域的标准译法 - "Multi-View Diffusion"译为"多视角扩散"，准确传达多视角图像生成与扩散模型的技术内涵

技术表述优化：
采用"三维"而非直译"3D"，更符合中文科技文献表述习惯
"via"译为"基于"而非简单对应"通过"，突出技术方法的创新性
保留"DeOcc-1-to-3"原始编号，维持技术方案的标识性
句式结构调整：
将英文后置修饰语转换为中文前置定语
使用破折号替代原标题中的冒号，更符合中文标题排版规范
保持学术文本的简洁性，避免冗余表述） | Yansong Qu | PDF | Reconstructing 3D objects from a single image is a long-standing challenge, especially under real-wo [翻译失败] | | StruMamba3D：探索结构化Mamba架构在点云自监督表征学习中的应用

（翻译说明： 1. 专业术语处理："Structural Mamba"译为"结构化Mamba架构"，既保留"Mamba"这一专用模型名称，又通过"架构"明确其技术属性 2. 技术概念转换："self-supervised"采用计算机视觉领域通用译法"自监督" 3. 学科规范："point cloud representation learning"译为"点云表征学习"，符合三维视觉领域术语标准（注：大陆学界常用"表征"而非台湾地区惯用的"表徵"） 4. 结构优化：通过冒号分层呈现主副标题关系，保留原标题的学术论文命名风格 5. 动词处理："Exploring"译为"探索"准确传达研究性质，比"研究"更符合预印本论文的探索性特征） | Chuxin Wang | PDF | 近期，基于Mamba架构的方法通过利用状态空间模型（SSM）高效的情境建模能力和线性复杂度，在点云表征学习领域展现出卓越性能。然而，这些方法仍存在两个制约SSM潜力发挥的关键问题：SSM处理过程中破坏三维点云的邻接关系，以及在下游任务输入长度增加时无法保持长序列记忆。为此，我们提出了一种自监督点云表征学习新范式StruMamba3D，其优势体现在：首先，我们设计了空间状态代理机制以保持点云间的空间依赖关系；其次，通过状态级更新策略增强SSM，并融合轻量级卷积促进空间状态交互，实现高效结构建模；第三，采用序列长度自适应策略降低预训练Mamba模型对输入长度的敏感性。在四项下游任务中的实验结果表明，本方法具有显著性能优势。特别地，在不使用投票策略的情况下，我们的方法在ModelNet40数据集上达到95.1%的准确率，在ScanObjectNN最具挑战性的数据划分上取得92.75%的准确率，均达到当前最优水平（SOTA）。 | | WorldVLA：迈向自回归动作世界模型

（翻译说明： 1. 完整保留专业术语"WorldVLA"作为专有名词不翻译 2. "Autoregressive"译为技术领域标准译法"自回归" 3. "Action World Model"采用意译结合的方式处理为"动作世界模型"，既保留"World Model"作为AI领域术语的固定译法，又通过"动作"准确传达"Action"的特定含义 4. "Towards"译为"迈向"以体现研究的前沿性和发展性特征 5. 整体采用学术论文标题的简洁风格，符合中文科技文献命名规范） | Jun Cen | PDF | We present WorldVLA, an autoregressive action world model that unifies action and image understandin [翻译失败] |

bioRxiv

标题	作者	PDF链接	摘要
相较于传统宏基因组学，采用探针捕获的靶向宏基因组学技术可在复杂微生物群落中检测到更为多样化的氮循环与甲烷循环功能基因。

（翻译说明： 1. 专业术语处理： - "Targeted metagenomics"译为"靶向宏基因组学"，准确对应技术名称 - "probe capture"译为"探针捕获"，保留分子生物学方法特征 - "nitrogen and methane cycling genes"译为"氮循环与甲烷循环功能基因"，符合环境微生物学命名规范

句式重构：
将比较级结构"detect a larger diversity...than"转化为"相较于...可检测到更为多样化"，符合中文比较句式
将原文后置定语"in complex microbial communities"提前处理为状语，使行文更流畅
学术风格保持：
使用"检测到"替代简单翻译为"发现"，更符合科研报告用语
保留"功能基因"的完整表述而非简化为"基因"，确保概念准确性
逻辑关系显化：
通过"采用...技术"的主动句式明确方法学特征
使用"复杂微生物群落"完整传达原文生态学语境） | Siljanen, H. M. P. | PDF | | | 细菌RNA聚合酶启动子特异性的计算引导重新设计

（翻译说明： 1. "Computation-guided"译为"计算引导"，体现计算机辅助设计的核心方法； 2. "redesign"译为"重新设计"而非"再设计"，更符合合成生物学领域术语规范； 3. "promoter specificity"译为"启动子特异性"，准确保留分子生物学概念； 4. 采用"细菌RNA聚合酶"的完整学术称谓，避免简化为"细菌RNA酶"等不准确表述； 5. 整体语序调整为中文习惯的修饰结构，将核心名词前置） | Liu, X. | PDF | | | 普遍存在的上位效应塑造RNA聚合酶II活性位点功能与进化

（翻译说明： 1. "Widespread epistasis"译为"普遍存在的上位效应"，准确保留了遗传学术语"epistasis"（上位效应）的专业性，并通过"普遍存在的"完整传达"widespread"的含义 2. "RNA Polymerase II"保持专业术语标准译法"RNA聚合酶II"，使用罗马数字而非阿拉伯数字 3. "active site"译为"活性位点"，采用生物化学领域标准术语 4. "shapes...function and evolution"译为"塑造...功能与进化"，其中"塑造"比直译"形成"更能体现生物学中形态与功能的动态关系，"与"字连接保持原文两个名词的并列关系 5. 整体语序调整符合中文表达习惯，将长定语"shapes..."转换为主动语态处理） | Duan, B. | PDF | | | 将胶原蛋白整合入铜绿假单胞菌、金黄色葡萄球菌及类鼻疽伯克霍尔德菌生物膜可增强其弹性及抗吞噬清除能力

（翻译说明： 1. 专业术语处理： - "Pseudomonas aeruginosa"译为"铜绿假单胞菌"（医学标准译名） - "Staphylococcus aureus"译为"金黄色葡萄球菌"（微生物学规范译名） - "Burkholderia pseudomallei"译为"类鼻疽伯克霍尔德菌"（病原微生物学术定译）

核心概念保留：
"biofilms"统一译为"生物膜"（微生物学领域通用译法）
"phagocytic clearance"译为"吞噬清除"（免疫学术语标准表述）
句式结构调整：将原文被动语态转换为中文主动语态（"enhances their..."译为"可增强其..."），符合中文表达习惯
逻辑关系显化：通过"及"字连接两个并列效应（弹性增强与抗吞噬能力），保持原文科学表述的严谨性
动词精准对应：
"Incorporation"译为"整合入"（准确表达胶原蛋白与生物膜的物理结合过程）
"resistance against"译为"抗...能力"（符合中文医学术语构词法）） | Zhou, X. | PDF | | | 额叶β节律爆发可分离为具有节律性差异的不同模式，这些模式能够区分认知状态

（翻译说明： 1. "Frontal"译为"额叶"，保留神经解剖学术语准确性 2. "β bursts"译为"β节律爆发"，补充"节律"二字以明确其振荡特性 3. "segregate into"译为"分离为"，准确表达分类含义 4. "rhythmically distinct regimes"译为"具有节律性差异的不同模式"，其中： - "rhythmically"译为"节律性"，保持神经振荡研究术语规范 - "regimes"译为"模式"，符合系统科学术语习惯 5. 采用分句译法处理定语从句，将原文一个长句拆分为两个中文短句 6. "differentiate cognitive states"译为"区分认知状态"，准确传达神经认知功能含义 7. 整体采用"学术白话"风格，在保持专业性的同时确保中文表达流畅） | Langford, Z. D. | PDF | | | 跳蛛（Phidippus regius）的个体识别能力研究

（说明：根据学术翻译规范，此处采用以下处理方式： 1. 保留拉丁学名"Phidippus regius"的斜体格式 2. 将物种通用名译为"跳蛛"，并在首次出现时标注拉丁学名 3. "Individual recognition"译为"个体识别能力"以符合动物行为学专业术语 4. 补充"研究"二字以符合中文论文标题习惯，使语义更完整 5. 使用括号（）而非斜杠/作为学名标注符号，符合中文出版规范） | Dahl, C. D. | PDF | | | 致癌性RAS信号通路通过诱导GCH1/BH4轴成为铁死亡抑制的肿瘤细胞内在决定因素

（翻译说明： 1. "Oncogenic RAS signaling"译为"致癌性RAS信号通路"，准确传达原意并符合肿瘤生物学命名规范 2. "tumor cell-intrinsic determinant"译为"肿瘤细胞内在决定因素"，保留"intrinsic"的专业表述 3. "ferroptosis suppression"译为"铁死亡抑制"，采用学界公认的"铁死亡"译法 4. "induction of the GCH1/BH4 axis"译为"诱导GCH1/BH4轴"，专业术语缩写保持原格式 5. 整体采用"通过...成为..."的句式结构，准确体现原文的因果逻辑关系 6. 严格保持学术文本的客观表述风格，避免口语化表达） | Lim, J. K. | PDF | | | 现实性时滞与凋落物动态改变植物-土壤反馈的代际预测效应

（说明：该翻译严格遵循学术规范，具有以下特点： 1. 专业术语准确："time-lags"译为"时滞"（生态学标准术语），"litter dynamics"译为"凋落物动态"（土壤生态学固定译法） 2. 概念完整性保留："plant-soil feedback"译为完整术语"植物-土壤反馈"，未简化为"PSF" 3. 动词"alter"译为"改变"体现科学研究的因果逻辑 4. "across generations"译为"代际"准确表达多代实验的研究尺度 5. 整体采用学术论文标题惯用的名词化结构，符合中文科技文献表达习惯） | Ou, S. X. | PDF | | | 牵张后的状态空间轨迹与行波

（说明：根据学术翻译规范，此处采用以下处理方式： 1. "State-space"译为"状态空间"，保留专业术语的准确性 2. "trajectories"译为"轨迹"，符合动力学系统术语 3. "distraction"在生物力学语境下译为"牵张"，准确表达组织拉伸的专业含义 4. "traveling waves"译为"行波"，采用物理学标准译法 5. 整体语序调整为中文习惯的"描述对象+现象"结构，同时保持学术表达的严谨性） | Batabyal, T. | PDF | | | 在未知未来目标情况下优先进行经验回放

翻译说明： 1. "Prioritizing replay"译为"优先进行经验回放"，其中： - "replay"采用强化学习领域的标准译法"经验回放" - "Prioritizing"译为"优先进行"以保持动词形态

"when future goals are unknown"译为"在未知未来目标情况下"：
采用"在...情况下"的状语结构更符合中文表达习惯
"unknown"译为"未知"准确传达原文含义
"future goals"译为"未来目标"保持术语一致性
整体采用条件状语前置的句式结构，符合中文"条件-结论"的语序逻辑，同时完整保留原文的技术含义。
该翻译适用于机器学习/强化学习领域的学术文献，术语表达规范准确。 | Sagiv, Y. | PDF | |

medRxiv

标题	作者	PDF链接	摘要
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF