2025-10-27 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
对比等变性：从无标注有限群作用中提取可辨识的等变嵌入

（注：该翻译采用"对比等变性"作为核心概念，通过冒号分隔主副标题结构，完整保留"可辨识等变嵌入"与"无标注有限群作用"的专业术语对应，同时通过"提取"动态化呈现嵌入过程，既符合中文标题表达习惯，又精准传递原文的数学内涵。） | Tobias Schmidt | PDF | 我们提出对比等变性方法，通过观测对$(\mathbf{y}, g \cdot \mathbf{y})$学习等变嵌入，其中$g$取自作用于数据的有限群。该方法联合学习潜在空间与群表示，使得群作用对应可逆线性映射——且不依赖特定群结构的归纳偏置。我们在无限dSprites数据集上验证了该方法，其结构化变换由有限群$G:= (R_m \times \mathbb{Z}_n \times \mathbb{Z}_n)$定义，该群结合了离散旋转与周期平移。所得嵌入展现出高保真等变性，群操作在潜在空间中得到精确复现。在合成数据上，我们进一步验证了该方法对非阿贝尔正交群$O(n)$和一般线性群$GL(n)$的有效性，并提供了可识别性的理论证明。虽然针对现实数据中多样群类型的广泛评估尚待未来研究，但我们的成果首次实现了仅通过群作用观测进行通用编码器端等变学习的成功验证，包括非平凡非阿贝尔群以及为建模计算机视觉中仿射等变性而构建的积群。 | | 使用自反思智能体实现视觉属性依赖的自动检测

（注：该翻译在保持学术严谨性的同时实现了以下专业处理： 1. "Automated Detection"译为"自动检测"以契合计算机视觉领域术语规范 2. "Visual Attribute Reliance"译为"视觉属性依赖"准确传达对图像特征依赖关系的技术内涵 3. "Self-Reflective Agent"译为"自反思智能体"既保留"自指"的哲学意味，又符合人工智能领域的智能体术语体系 4. 通过"实现...检测"的动宾结构增强中文表达流畅度，符合学术标题的凝练要求） | Christy Li | PDF | 当视觉模型执行图像识别任务时，究竟是哪些视觉属性驱动着其预测结果？检测模型对特定视觉特征的非预期依赖，对于确保模型鲁棒性、防止过拟合以及避免伪相关性至关重要。我们提出了一种自动化框架，用于在训练完成的视觉模型中检测此类依赖关系。该方法的核心是一个具备自反思能力的智能体，它能系统性地生成并检验关于模型可能依赖的视觉属性的假设。这一过程呈迭代式：智能体根据实验结果持续优化假设，并通过自评估协议来验证其发现是否准确解释了模型行为。当出现不一致情况时，智能体会对已有发现进行自我反思并启动新一轮实验验证。我们在包含18个类别、130个具有不同视觉属性依赖特性的模型构成的新基准上评估该方法。结果表明，通过自反思机制，智能体的性能持续提升，较无反思基线模型实现了显著性能增长。我们进一步验证了该智能体在包括CLIP视觉编码器和YOLOv8目标检测器在内的前沿模型中，成功识别出真实场景中的视觉属性依赖关系。 | | 视觉扩散模型是几何求解器 | Nir Goren | PDF | 本文论证了视觉扩散模型可作为有效的几何求解器：它们能够在像素空间中直接对几何问题进行推理。我们首先以"内接正方形问题"（该几何学长期难题探讨是否每条若尔当曲线都包含四个构成正方形的点）验证此观点，随后将方法拓展至另外两个著名几何难题——斯坦纳树问题与简单多边形问题。

我们的方法将每个问题实例视为图像，并训练标准视觉扩散模型将高斯噪声转换为表征有效近似解的图像，该近似解与精确解高度吻合。模型通过学习将含噪几何结构转换为正确配置，实现了几何推理向图像生成的范式转换。

与先前研究在应用扩散模型至参数化几何表示时需专门架构和领域适配不同，我们采用标准视觉扩散模型直接处理问题的视觉表征。这种简洁性揭示了生成式建模与几何问题求解之间令人惊异的桥梁。除本文研究的特定问题外，我们的成果指向更广泛的范式：在图像空间中操作为逼近著名难题提供了通用实践框架，并为处理更广泛类型的几何难题开启新途径。 | | 巴赫视频：无需训练即可实现背景与角色一致性的视频生成技术

（解析：标题翻译在保持专业性的同时兼顾中文表达习惯： 1. "BachVid"音译为"巴赫视频"既保留品牌识别度又符合中文命名惯例 2. "Training-Free"译为"无需训练"准确传达技术特性 3. "Consistent Background and Character"采用"背景与角色一致性"的表述，既保留计算机视觉领域的专业术语特征，又通过"与"字连接确保中文语序流畅 4. 整体采用"技术"作为落脚点，符合中文科技文献标题的命名规范） | Han Yan | PDF | 扩散变换器（DiTs）近期在文本到视频生成领域取得了显著进展。然而，生成具有连贯角色与背景的多段视频仍是重大挑战。现有方法通常依赖参考图像或大量训练，且往往仅解决角色连贯性问题，将背景一致性交由图像到视频模型处理。我们提出BachVid——首个无需训练、无需参考图像即可实现连贯视频生成的方法。该方法基于对DiT注意力机制与中间特征的系统性分析，发现其在去噪过程中具备提取前景掩膜与匹配点的能力。我们通过首先生成身份视频并缓存中间变量，随后将这些缓存变量注入新生成视频的对应位置，确保多段视频中前景与背景的同步一致性。实验结果表明，BachVid无需额外训练即可实现生成视频的强健一致性，为无需参考图像或附加训练的连贯视频生成提供了创新高效的解决方案。 | | 时空动态中面向任务感知的多智能体路径规划知识图谱转换层

该标题的翻译要点解析： 1. "Knowledge-Graph Translation Layer" 译为"知识图谱转换层"，既保留专业术语的准确性，又体现其数据转换功能 2. "Mission-Aware" 采用"面向任务感知"的译法，准确传达系统对任务状态的感知能力 3. "Multi-Agent Path Planning" 译为"多智能体路径规划"，符合控制领域术语规范 4. "Spatiotemporal Dynamics" 译为"时空动态"，精准表达时空维度动态变化的特性 5. 整体采用"定语前置+中心词"的中文标题结构，符合学术文献标题规范

该翻译完整保留了原文的技术内涵，同时符合中文表达习惯，适用于学术论文、技术报告等正式场景。 | Edward Holmberg | PDF | 在动态环境中协调自主智能体的难点在于高层任务目标与底层规划输入之间的语义鸿沟。为解决此问题，我们提出以知识图谱（KG）为核心的框架，将其作为智能翻译层。该知识图谱采用双平面架构：将声明式事实编译为面向单个智能体的任务感知型“世界观”，同时建立物理感知型遍历规则，从而将任务语义与领域无关的规划器解耦。通过修改知识图谱中的事实即可调整复杂的协同路径。通过在墨西哥湾部署自主水下航行器（AUV）的案例研究，我们直观展示了端到端流程，并通过量化数据证明不同声明式策略可产生独特的高性能结果。本研究表明知识图谱不仅是数据存储库，更能作为具备状态维护能力的强大协调器，用于构建具有自适应性和可解释性的自主系统。 | | 神经网络TSP求解器的机制可解释性研究 | Reuben Narad | PDF | 神经网络已显著推进组合优化领域发展，基于Transformer的求解器能在毫秒级时间内为旅行商问题（TSP）提供接近最优的解。然而这些模型如同黑箱运作，既无法揭示其学习的几何模式，也不能展现路径构建过程中采用的启发式策略。我们通过应用稀疏自编码器（SAE）——一种机制可解释性技术——首次将基于激活的可解释性方法引入运筹学模型，对基于Transformer的TSP求解器进行解析。我们在100节点实例上通过强化学习训练指针网络，随后对编码器残差流拟合SAE，从而发现过完备的可解释特征字典。分析表明，该求解器自主形成了与TSP基础概念对应的特征：在凸包节点激活的边界检测器、响应局部密集区域的集群敏感特征，以及编码几何划分的分隔特征。这些发现首次从模型内部揭示了神经TSP求解器在节点选择前的计算机制，证明了几何结构可在无显式监督下自发涌现，并为构建融合神经高效性与算法可解释性的透明混合系统指明了路径。交互式特征探索平台：https://reubennarad.github.io/TSP_interp | | 关于等变函数的不确定性校准研究 | Edward Berman | PDF | 在机器人操控、分子物理和星系形态分类等数据稀疏场景中，深度学习面临最严峻的挑战。针对这类问题，等变网络有助于改善输入空间欠采样区域的建模效果，而不确定性估计则能防范过度自信的预测。然而迄今为止，等变性与模型置信度之间的关系——更广义而言等变性与模型校准之间的关联——仍属未探明领域。鉴于传统分类与回归误差项均体现于校准误差的定义中，我们自然推测前人研究可为理解等变性与校准误差的关联提供线索。本研究提出了一套关联等变性与不确定性估计的理论框架，通过证明不同等变条件下不确定性校准误差（ECE与ENCE）的上下界，揭示了等变模型的泛化极限，并阐明对称性失配如何导致分类与回归任务中的校准偏差。我们通过数值实验佐证理论框架，利用真实与模拟数据集厘清等变性与不确定性的关联，并就对称性失配、群规模以及偶然性与认知不确定性之间的演变规律进行阐释。 | | 薄冰之上：通过归因与扰动实现可解释的保护监测

（注：该翻译采用学术性意译手法： 1. "On Thin Ice"译为"薄冰之上"，既保留原比喻的警示意味，又符合中文表达习惯 2. "Attribution and Perturbations"译为专业术语"归因与扰动"，准确对应机器学习领域的特征归因分析和数据扰动技术 3. 通过"实现"衔接动词结构，使"可解释的保护监测"这一核心概念更符合中文科技文献表述规范） | Jiayi Zhou | PDF | 计算机视觉能够加速生态学研究和保护监测工作，但在生态学领域的应用仍相对滞后，部分原因在于人们对基于神经网络的黑箱模型缺乏信任。为应对这一挑战，我们通过应用事后解释方法为预测提供证据，并记录对实地部署至关重要的局限性。利用来自冰川湾国家公园的航拍图像，我们训练了Faster R-CNN模型来检测鳍足类动物（港海豹），并通过基于梯度的类激活映射（HiResCAM、LayerCAM）、局部可解释模型无关解释（LIME）以及基于扰动的解释方法生成解释。我们从三个与实地应用相关的维度评估这些解释：（i）定位保真度：高归因区域是否聚焦于动物本身而非背景环境；（ii）忠实度：删除/插入测试是否会引起检测器置信度的变化；（iii）诊断效用：解释是否能够揭示系统性故障模式。实验表明，解释结果集中于海豹躯干和轮廓而非周围冰层/岩石，移除海豹会降低检测置信度，这为真阳性检测提供了模型证据。分析还揭示了重复出现的错误来源，包括海豹与黑冰及岩石的混淆。我们将这些发现转化为模型开发的可执行后续步骤，包括更具针对性的数据整理和增强。通过将目标检测与事后可解释性相结合，我们能够超越“黑箱”预测，开发出可用于审计、支持决策的保护监测工具。 | | 具有可控互信息的多模态数据集 | Raheem Karim Hashmani | PDF | 我们提出了一种生成高度多模态数据的框架，该框架能够精确计算不同模态间的互信息。通过基于流的生成模型和结构化因果框架生成相关潜变量，我们构建了具有已知互信息量的真实数据集，为系统研究互信息估计器和多模态自监督学习技术提供了新型基准测试平台。 | | WorldGrow：无限三维世界生成系统

（注：采用"系统"作为"Generating"的动名词转译，既保持技术文档的严谨性，又符合中文科技文献命名惯例。"Infinite"译为"无限"准确传达原意，同时保留"WorldGrow"品牌名称的直译以维持概念完整性） | Sikuang Li | PDF | 我们致力于解决无限扩展三维世界的生成难题——即创建具有连贯几何结构与逼真外观的大规模连续环境。现有方法面临三大挑战：基于二维提升的方法存在跨视角几何与外观不一致问题，三维隐式表示难以实现规模化扩展，而当前三维基础模型大多以物体为中心，限制了其在场景级生成中的应用。我们的核心思路是利用预训练三维模型中的强生成先验，实现结构化场景区块的生成。为此，我们提出WorldGrow——一个支持无边界三维场景合成的分层框架。该方法包含三个核心组件：（1）数据筛选流程，通过提取高质量场景区块进行训练，使三维结构化潜在表示适用于场景生成；（2）三维区块修复机制，实现上下文感知的场景扩展；（3）由粗到精的生成策略，确保全局布局合理性与局部几何/纹理保真度。在大规模3D-FRONT数据集上的评估表明，WorldGrow在几何重建方面达到最先进性能，同时独树一帜地支持生成具有照片级真实感与结构一致性的无限场景。这些成果彰显了其构建大规模虚拟环境的能力，以及为未来世界模型建设所蕴藏的潜力。 |

bioRxiv

标题	作者	PDF链接	摘要
烟草叶片宽度可塑性的复杂遗传结构揭示跨环境基因组预测机制

解析： 1. "P3a" 作为专有技术名称保留不译 2. "site-specific and cassette mutagenesis" 译为"位点特异性及盒式诱变"，准确对应分子生物学领域的专业表述 3. "seamless" 译为"无缝"，体现该技术可实现精准无缝的遗传修饰特点 4. "protein, RNA and plasmid engineering" 采用递进结构译为"蛋白质、RNA及质粒工程改造"，符合中文科技文献的并列项表达规范

（注：该翻译严格遵循学术术语规范： 1. "host phylogenetic coverage"译为"宿主系统发育覆盖度" 2. "congruence metric"译为"一致性度量" 3. "Monte Carlo-based null models"译为"基于蒙特卡洛模拟的零模型" 4. "phylosymbiosis"译为"谱系共生" 完整保留了原文的学术内涵与专业表达） | DuBose, J. G. | PDF | | | 面向新一代单细胞分析的大规模语言模型扩展研究

这个翻译保持了以下特点： 1. 专业术语准确对应： - "Scaling"译为"扩展研究"，体现模型规模扩增的技术内涵 - "Large Language Models"完整译为"大规模语言模型" - "Single-Cell Analysis"采用生命科学领域标准译法"单细胞分析"

学术表述规范：
使用"面向...的"学术句式
"新一代"准确对应"Next-Generation"的时序和技术代际含义
结构完整：
保持英文原意的技术逻辑链条
符合中文论文标题的简洁性要求

medRxiv

标题	作者	PDF链接	摘要
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF