2025-11-05 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
代理全能体：通过模型协同实现测试时多模态推理以理解万物	Huawei Lin	PDF	多模态大语言模型（MLLMs）已展现出强大能力，但仍受限于固定模态组合，且需要耗费大量对齐数据进行微调。构建能够整合文本、图像、音频和视频的全能模型仍不现实，且缺乏稳健的推理支持。本文提出Agent-Omni框架，通过主代理系统协调现有基础模型，无需重新训练即可实现灵活的多模态推理。主代理解析用户意图，将子任务分配给特定模态代理，并将其输出整合为连贯响应。在文本、图像、音频、视频及全能基准测试中的大量实验表明，Agent-Omni持续实现最先进性能，尤其在需要复杂跨模态推理的任务中表现突出。其基于代理的设计实现了专用基础模型的无缝集成，确保了对多样化输入的适应能力，同时保持透明度和可解释性。此外，该框架采用模块化设计且易于扩展，可在更强模型出现时持续改进。%我们开源实现以支持可扩展且可靠的全模态推理的持续研究。
在良好GRACEs框架下：知识蒸馏中的原则性教师选择

这一翻译保留了原文的双关修辞与学术严谨性： 1. "Good GRACEs" 译为"良好GRACEs"既保留首字母缩写的专业术语特征，又通过"良好"对应"Good"的积极语义 2. 副标题采用直译策略，准确传达"基于原则的教师模型选择"这一核心方法论 3. 通过冒号维持原文的标题层级结构，符合中文学术标题规范 4. "知识蒸馏"作为机器学习领域的标准术语译法保持统一 | Abhishek Panigrahi | PDF | 知识蒸馏是一种利用大型"教师"语言模型生成的数据来训练较小但能力相当的"学生"模型的有效策略，但为特定学生-任务组合选择最优教师需要耗费大量试错成本。我们提出名为GRACE的轻量级评分指标，用于量化教师在后训练学生模型时的有效性。GRACE通过测量学生模型梯度的分布特性，无需验证器、教师logits、教师内部参数或测试数据即可实现评估。从信息论视角看，GRACE与基于梯度算法的留一法稳定性相关联，这种稳定性控制着蒸馏后学生的泛化性能。在GSM8K和MATH数据集上的实验表明，GRACE与经过蒸馏的LLaMA和OLMo学生模型性能表现出强相关性（斯皮尔曼相关系数最高达86%）。特别值得注意的是，使用GRACE遴选的教师训练学生模型，相较于直接使用性能最优的教师，模型性能最高可提升7.4%。此外，GRACE还能为蒸馏过程中的关键设计选择提供指导，包括：(1) 教师模型生成数据时的最佳温度参数，(2) 给定规模约束下的最优教师选择，以及(3) 特定模型家族内的最佳教师选择。总体而言，我们的研究证明GRACE能够高效精准地为给定学生模型识别高度兼容的教师，并为如何实施蒸馏提供细粒度指导。 | | TWIST2：可扩展、可移植、全栈式仿人机器人数据采集系统

（解析说明： 1. TWIST2作为专有名词保留不译 2. Scalable译为"可扩展"对应系统容量弹性 3. Portable译为"可移植"强调跨平台适配能力 4. Holistic译为"全栈式"体现数据采集的完整链路 5. Humanoid Data Collection System采用"仿人机器人数据采集系统"的规范译法，符合机器人学领域术语标准） | Yanjie Ze | PDF | 大规模数据已推动机器人技术实现突破——从语言模型到双手操作中的视觉-语言-动作模型。然而类人机器人领域仍缺乏同等高效的数据采集框架。现有类人机器人遥操作系统要么采用解耦控制，要么依赖昂贵的动作捕捉设备。我们推出TWIST2系统，这是一种便携式、无需动作捕捉的类人机器人遥控与数据采集系统，在保持完整全身控制的同时提升了可扩展性。该系统利用PICO4U VR设备获取实时人体全身运动数据，通过自研的2自由度机器人颈部装置（成本约250美元）实现以自我为中心的视觉感知，从而构建完整的人体至类人机器人控制链路。我们展示了类人机器人执行长周期灵巧操作与移动技能的能力，可在15分钟内采集100组演示数据且成功率接近100%。基于此技术路径，我们提出分层视觉运动策略框架，能够基于第一视角视觉自主控制类人机器人全身。我们的视觉运动策略成功实现了全身协调的精细操作与动态踢球任务。整个系统完全可复现并已在https://yanjieze.com/TWIST2 开源。采集的数据集亦发布于https://twist-data.github.io 供学界使用。 | | GeoCrossBench：遥感影像的跨波段泛化能力基准测试 | Hakob Tamazyan | PDF | 随着时间推移，遥感卫星的数量和多样性持续增长，而绝大多数标注数据仍源自较早发射的卫星。当地球观测基础模型规模不断扩大时，为支持新卫星（重新）训练的成本也相应增加，因此模型对新卫星的泛化能力变得愈发重要。本研究提出GeoCrossBench——基于广受认可的GeoBench基准拓展的新评估框架：它不仅测试模型在分布内数据上的性能，还评估其对无波段重叠新卫星的泛化能力，以及面对训练集外新增波段的适应表现。同时，我们开发了ChannelViT的自监督扩展版本ChiViT以提升跨卫星性能。实验结果表明：首先，在分布内评估中，即便是当前最优的遥感基础模型（DOFA、TerraFM）也未能超越DINOv3等通用模型；其次，在面向无波段重叠新卫星的泛化测试中，所有模型性能下降2-4倍，而ChiViT显著优于次优模型DINOv3；第三，当测试数据包含额外波段时，所有模型性能平均下降5%-25%；最后研究表明，仅通过全波段标注数据微调这些模型的末层线性分类器，即可在所有卫星数据上获得相对稳定的性能，这印证了该基准距离性能饱和尚有提升空间。我们公开代码与数据集，以推动开发具有更强跨卫星泛化能力、更具未来适应性的遥感模型。 | | 密度标记：通过点轨迹学习人头图像的标准嵌入 | Dmitrii Pozdeev | PDF | 我们提出DenseMarks——一种全新的人类头部学习表征方法，能够实现头部图像的高质量密集对应。针对二维头部图像，视觉Transformer网络可为每个像素预测对应的三维嵌入坐标，该坐标映射至规范单位立方体中的特定空间位置。为训练网络，我们通过先进点位追踪技术从多样化自然场景谈话视频中提取成对匹配点构建数据集，并采用对比损失引导映射过程，促使匹配点获得相近的嵌入表示。我们进一步引入多任务学习机制，结合面部关键点与分割约束条件，同时通过潜在立方体特征保持嵌入的空间连续性，最终形成可解释、可查询的规范空间。该表征可用于定位共性语义部位、实现头部追踪及立体重建。得益于强监督训练，我们的方法对姿态变化具有鲁棒性，且完整覆盖包括头发在内的整个头部区域。规范空间的瓶颈设计确保所获表征在不同姿态与个体间保持一致性。我们在几何感知点位匹配及基于三维形变模型的单目头部追踪任务中取得了领先成果。相关代码与模型检查点将向公众开放。 | | PLUTO-4：前沿病理学基础模型

（解析：PLUTO-4作为专有名词保留原格式；"Frontier Pathology"译为"前沿病理学"体现学科前沿性；"Foundation Models"采用计算机领域通用译法"基础模型"，特指具有泛化能力的大规模预训练模型。整体翻译保持学术项目命名规范，同时确保专业术语在医学与人工智能交叉领域的准确对应。） | Harshith Padigela | PDF | 基于大规模病理图像库训练的基础模型，已在多种组织病理学任务中展现出强大的迁移能力。在此进展基础上，我们推出新一代病理基础模型PLUTO-4，将病理通用Transformer（PLUTO）扩展至前沿规模。我们发布PLUTO-4系列中两种互补的视觉Transformer架构：采用FlexiViT框架与2D-RoPE嵌入的紧凑高效型PLUTO-4S模型，专为多尺度部署优化；以及通过单一补丁尺寸训练以最大化表征能力与稳定性的前沿规模PLUTO-4G模型。两个模型均基于源自DINOv2的自监督目标，在包含137,144名患者、551,164张全切片图像的大型多机构数据集上进行预训练，该数据集覆盖50余个医疗机构的60余种疾病类型和100多种染色方案。在公开与内部基准测试中的综合评估表明，PLUTO-4在需要不同空间与生物学背景的任务中均实现最先进性能，包括斑块级分类、分割和玻片级诊断。紧凑型PLUTO-4S为实际部署提供高吞吐量与鲁棒性能，而PLUTO-4G则在多项病理基准测试中创立新性能标杆，其中皮肤病理诊断准确率提升达11%。这些多元化改进印证了PLUTO-4作为转化研究和诊断用例核心架构，在变革现实应用场景方面的巨大潜力。 | | 神经符号深度学习语义学 | Artur d'Avila Garcez | PDF | 人工智能（AI）正成为一种强大的新型科学语言，近年来诺贝尔化学奖与物理学奖对AI领域应用的认可便是有力佐证。然而这种新兴语言缺乏语义维度，使得AI的科学发现至多只能达到差强人意的程度。基于AI的科学探索既致力于发现新事实，也旨在深化人类对世界的认知，这需要通过某种框架实现形式化转换，将技术洞察转化为可理解的科学知识。本文论证逻辑学可为此提供适切框架，特别通过神经符号框架为当前基于神经网络的深度学习技术构建亟需的语义体系。深度学习与神经符号AI目前缺乏确保理想特性得以满足的通用条件集，反而存在大量针对特定案例设计的编码与知识提取方法。为此我们提出语义编码框架，明确神经网络与逻辑之间的映射关系，并系统归纳现有各类方法的共同要素。本文通过简明阐述与案例演示，说明逻辑语义与神经网络如何通过该框架建立关联，回顾神经网络编码与知识提取领域最具代表性的方法技术，给出框架的形式化定义，并借鉴心灵哲学中的类似难题，探讨实践中识别语义编码面临的主要困境。 | | 宇宙：自主发现的人工智能科学家 | Ludovico Mitchener | PDF | 数据驱动的科学发现需要经历文献检索、假设生成与数据分析的迭代循环。尽管人工智能代理在自动化科研方面已取得显著进展，但现有系统在执行动作达到一定数量后均会丧失连贯性，从而限制其发现深度。本文提出科斯莫斯（Kosmos）——一个实现数据驱动发现自动化的AI科学家系统。在给定开放性目标和数据集的前提下，科斯莫斯可持续运行12小时，通过并行数据分析、文献检索和假设生成的循环工作模式，最终将发现成果整合为科学报告。与既有系统不同，科斯莫斯采用结构化世界模型实现数据分析代理与文献检索代理间的信息共享。该世界模型支持系统在200次代理推演中持续保持目标连贯性，单次运行平均执行42,000行代码并研读1,500篇文献。科斯莫斯在报告中对所有论断均标注代码或原始文献引用，确保推理过程可追溯。独立科学家评估确认其报告中79.4%的陈述准确无误，合作研究者指出单次20循环的科斯莫斯运行相当于完成平均6个月的人工研究工作量。此外，合作者证实有价值科学发现的数量与科斯莫斯运行周期呈线性增长关系（已测试至20循环）。我们重点展示了科斯莫斯在代谢组学、材料科学、神经科学和统计遗传学领域的七项发现：其中三项独立复现了系统运行时未接触的预印本或未发表手稿结论，四项则为科学文献作出了原创性贡献。 | | 利用合成数据优化人工智能代理攻击 | Chloe Loughridge | PDF | 随着人工智能部署日益复杂且风险升高，准确评估其风险变得愈发重要。人工智能控制正是实现该目标的框架之一。然而，优质的控制评估需要构建强效的攻击策略。在计算资源受限导致数据匮乏的复杂智能体环境中，这尤为困难。本研究通过SHADE-Arena（一个包含多样化现实控制环境的数据集）展示了攻击策略的优化方法：将攻击能力解构为五大核心技能——可疑行为建模、攻击目标选择、方案合成、执行实施与隐蔽行动，并分别对各组件进行优化。为突破数据有限的约束，我们构建了攻击动态的概率模型，基于该模拟器优化攻击超参数，并验证了优化结果在SHADE-Arena中的迁移有效性。该方法显著提升了攻击强度，使用我们的框架将安全评分从基线0.87降至0.41。 | | 加速Frank-Wolfe算法：互补性条件与稀疏性 | Dan Garber | PDF | 我们针对在紧致凸集上最小化光滑凸函数的问题，开发了弗兰克-沃夫（FW）算法族中新的加速一阶算法，重点关注两类典型约束集：(1) 多面体；(2) 由谱面体和单位核范数球定义的矩阵域。关键技术要素是捕捉解稀疏性的互补性条件——多面体的面维度与矩阵的秩。我们提出两种算法：(1) 针对多面体的纯线性优化预言机（LOO）方法，具有最优的最坏情况一阶（FO）预言机复杂度，除有限预热阶段外，其LOO复杂度按$r/\sqrt{\epsilon}$缩放（$\epsilon$为目标精度，$r$为解稀疏度，且独立于环境维度），对数因子除外；(2) 混合方案，将FW与稀疏投影预言机（如针对低秩解的矩阵域使用低秩SVD）相结合，同样具有最优FO预言机复杂度，在有限预热阶段后，仅需$O(1/\sqrt{\epsilon})$次稀疏投影和LOO调用（独立于环境维度与最优解秩）。我们的研究弥合了如何在强凸优化中加速线性收敛FW算法的最新进展，同时避免维度代价的理论空白。 |

bioRxiv

标题	作者	PDF链接
T细胞牵引力的时空模式取决于刺激方式与细胞亚型	Mustapha, F.	PDF
全球土壤种子库中丰富度与密度的分异模式	Auffret, A. G.	PDF
干扰物抑制仅在视网膜坐标系中运作	Ilksoy, Y. A.	PDF
自由活动小鼠的精确皮肤刺激	Parkes, I.	PDF
一种用于跨尺度多层类器官整体深度成像与分析的定量流程	Gros, A.	PDF
原纤维涂料：一类靶向淀粉样蛋白的肽类	Pedrola, J. A.	PDF
FibrilPaint20引导泛素-蛋白酶体系统靶向Tau蛋白淀粉样纤维	Dekker, F. A.	PDF
基于深度突变扫描实验的SARS-CoV-2适应性景观机器学习驱动模拟

（该翻译通过以下方式实现专业术语的精确转换： 1. "Machine Learning Driven Simulations"译为"机器学习驱动模拟" 2. "Fitness Landscape"采用生物学标准译法"适应性景观" 3. "Deep Mutational Scanning Experiments"译为"深度突变扫描实验" 4. 保持"SARS-CoV-2"专业病毒命名不变 5. 通过"基于...从..."的句式准确呈现原文研究方法的逻辑关系） | Durumeric, A. E. P. | PDF | | | 低成本无标记运动捕捉系统在功能性步态评估自动化中的应用：可行性研究 | Darici, O. | PDF | | | 对人类视网膜的单细胞分析揭示了糖尿病视网膜病变中与疾病阶段相关的微胶质细胞状态及神经-免疫环路重构

（解析说明： 1. "stage-linked"译为"与疾病阶段相关的"，既保留阶段特性又体现临床关联性 2. "microglial states"采用专业术语"微胶质细胞状态" 3. "neural-immune circuit rewiring"译为"神经-免疫环路重构"，其中"rewiring"精准译为"重构"以体现神经网络重组特性 4. 整体语序调整为符合中文表达习惯的长定语结构 5. 保留"糖尿病视网膜病变"标准医学术语表述 6. 使用"揭示"对应"reveals"体现研究发现性质） | Yang, L. | PDF | |

medRxiv

标题	作者	PDF链接	摘要
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF