arxiv 2025-07-21

标题	作者	PDF链接	摘要
Franca：基于嵌套式套娃聚类的可扩展视觉表征学习

（翻译说明： 1. 保留专有名词"Franca"不译，作为方法名称 2. "Nested Matryoshka"译为"嵌套式套娃"，既保留俄罗斯套娃(Martoyshka)的文化意象，又通过"嵌套式"准确表达算法层级结构特征 3. "Clustering"译为"聚类"，符合机器学习领域术语规范 4. "Scalable Visual Representation Learning"译为"可扩展视觉表征学习"，其中： - "Scalable"采用计算机领域标准译法"可扩展" - "Visual Representation"译为"视觉表征"而非"视觉表示"，更符合深度学习领域术语习惯 5. 整体采用"方法名称+技术特征"的学术论文标题结构，保持简洁专业） | Shashanka Venkataramanan | PDF | We present Franca (pronounced Fran-ka): free one; the first fully open-source (data, code, weights) [翻译失败] | | 迈向基于张量分解的时序因果表征学习

（翻译说明： 1. "Temporal Causal Representation Learning"译为"时序因果表征学习"，其中： - "Temporal"采用计算机领域常用译法"时序" - "Causal Representation Learning"保留因果关系的专业术语"因果表征学习" 2. "Tensor Decomposition"译为"张量分解"，采用数学/机器学习领域的标准术语 3. 使用"迈向"对应"Toward"的进行时态，体现研究的前沿性 4. 整体采用"基于...的..."结构，符合中文论文标题的表达习惯 5. 保留原标题的学术严谨性，避免添加额外修饰词） | Jianhong Chen | PDF | 时态因果表征学习是揭示观察性研究中复杂模式的强大工具，这类研究通常表现为低维时间序列。然而在现实应用中，数据往往具有高维特性且输入长度不一，天然呈现为不规则张量形式。对此类数据的分析需要借助不规则张量分解技术，以提取能捕获关键信息的意义簇。本文重点研究基于转换信息的因果表征学习建模：首先提出针对潜在簇集的新型因果形式化框架，继而构建CaRTeD联合学习框架，将时态因果表征学习与不规则张量分解有机整合。该框架的创新性体现在：为下游任务（如潜在结构建模和因果信息提取）提供基于张量因子的实施蓝图，并通过更灵活的正则化设计增强张量分解效果。理论层面，我们证明算法能收敛至稳定点，更重要的是填补了当前不规则张量分解收敛性理论保证的研究空白。在合成数据集和真实世界电子健康档案（MIMIC-III）数据集上的实验表明，无论是从表型分析还是网络重构的评估维度，本方法均超越现有技术，显著提升了因果表征的可解释性。 | | 不平衡数据下的科尔莫戈罗夫-阿诺德网络(KANs)实证研究

（说明：该翻译严格遵循学术翻译规范，具有以下特点： 1. 专业术语采用中文标准译法："Kolmogorov Arnold Networks"译为"科尔莫戈罗夫-阿诺德网络"，并保留英文缩写(KANs) 2. 研究性质说明："Empirical Perspective"译为"实证研究"符合统计学领域表述惯例 3. 使用专业连接词："不平衡数据下的"准确传达"for Imbalanced Data"的限定关系 4. 标题格式采用中文论文标题常用的破折号分隔副标题形式 5. 保留专业缩写：KANs在首次全称译出后保留英文缩写，符合学术文献惯例） | Pankaj Yadav | PDF | Kolmogorov Arnold Networks (KANs) are recent architectural advancement in neural computation that of [翻译失败] | | 无需人工干预：基于三元组挖掘的自主高质量图像编辑

（翻译说明： 1. 标题采用主副标题结构，符合中文科技论文标题规范 2. "No Humans Required"意译为"无需人工干预"，比直译"不需要人类"更符合学术语境 3. "Autonomous"译为"自主"准确体现算法自主性特征 4. "High-Quality Image Editing"采用专业术语"高质量图像编辑" 5. "Triplet Mining"保留专业概念译为"三元组挖掘"，是深度学习领域的标准译法 6. 整体翻译在保持专业性的同时确保句式通顺，冒号使用符合中文标点规范 7. 通过"基于"的补充使技术路径更清晰，体现"三元组挖掘"作为方法论的核心地位） | Maksim Kuprashevich | PDF | 生成式建模的最新进展使得图像编辑助手能够直接遵循自然语言指令进行操作，而无需额外的用户输入。这类模型的监督训练需要数百万组三元数据：原始图像、编辑指令和编辑后的图像。然而获取像素级精确的样本极具挑战——每次编辑必须仅影响指令指定区域，同时保持风格一致性、物理合理性和视觉吸引力。由于缺乏可靠的自动化编辑质量评估指标，大规模高质量数据采集难以实现。

我们提出了一种自动化模块化流程，能够跨领域、分辨率、指令复杂度和风格挖掘高保真三元组。该系统基于公开生成模型构建且无需人工干预，通过任务优化的Gemini验证器直接评估指令遵循度和美学质量，无需依赖分割或基础模型。反转重建与组合式自举技术将采集规模扩大约2.2倍，从而生成大规模高保真训练数据。该方法通过自动化最繁琐的标注步骤，实现了无需人工标注的大规模训练。

为促进这一资源密集型领域的研究民主化，我们开源了NHR-Edit数据集：包含35.8万组高质量三元组的开放数据集。在最大规模的跨数据集评估中，其表现优于所有公开替代方案。同时发布的Bagel-NHR-Edit（基于Bagel模型微调的开源版本）在我们的实验中达到了最先进的性能指标。 | | 基于并行退火量子玻尔兹曼机的医学图像分类方法

（说明：该翻译严格遵循学术规范，具有以下特点： 1. 专业术语准确："Quantum Boltzmann Machines"译为"量子玻尔兹曼机"，"Parallel Annealing"译为"并行退火"，均为量子计算领域标准译法 2. 句式结构优化：将原文名词短语转换为中文常用的"基于...的...方法"学术表达范式 3. 领域适配性："Medical Image Classification"译为"医学图像分类"，符合医学影像处理领域的术语习惯 4. 技术内涵保留：完整传达量子计算与医学图像分析的交叉研究特征 5. 符合中文论文标题简洁性要求（22个汉字），同时保持专业准确性） | Daniëlle Schuman | PDF | 基于量子退火器采样样本本质上遵循类玻尔兹曼分布这一特性，退火式量子玻尔兹曼机(QBM)在量子研究领域日益受到关注。尽管这类模型展现出量子加速的巨大潜力，但其当前使用成本仍然高昂——训练过程需要消耗大量量子处理单元(QPU)时间，这限制了其在含噪声中等规模量子(NISQ)时代的应用前景。受Noè等人(2024)将并行量子退火引入QBM无监督训练以降低成本的启发，本文提出一种改进的并行量子退火方法，并将其应用于监督学习场景下的QBM训练。通过节省用于输入编码的量子比特，该方案使我们能够在MedMNIST数据集(Yang等，2023)的医学图像上进行测试，从而推动该技术向实际应用迈进。实验表明：采用本方法的QBM已能取得与同类规模卷积神经网络(CNN)相当的结果，且所需训练周期数显著少于经典模型。相比传统基于退火的玻尔兹曼机执行方案，我们的并行退火技术实现了近70%的速度提升。

（注：根据学术翻译规范，专业术语处理如下： 1. "Boltzmann-like distribution"译为"类玻尔兹曼分布"以保持物理学术语准确性 2. "NISQ era"译为"含噪声中等规模量子时代"并首次出现标注英文全称 3. 技术术语如QPU/QBM/CNN等保留英文缩写并确保首次出现时全称对应 4. 人名采用标准译名规范，数据集名称保留英文原名 5. 百分数表达符合中文科技文献惯例） | | CUDA-L1：基于对比强化学习的CUDA优化方法改进

（翻译说明： 1. 专业术语处理：保留"CUDAL1"原始命名不译，维持技术术语"对比强化学习"(Contrastive Reinforcement Learning)的标准译法 2. 技术概念传达："Improving...Optimization"译为"优化方法改进"既准确表达了性能提升的含义，又符合计算机领域学术表述习惯 3. 结构完整性：通过冒号维持原标题的"技术名称-方法说明"双层结构 4. 学术文体适配：使用"基于"的介词结构突出方法论特征，符合中文论文标题的常见表达范式 5. 被动语态转换：将英文被动结构"via"转化为中文主动表述"基于"，更符合中文表达习惯） | Xiaoya Li | PDF | 随着大语言模型的快速发展，对GPU计算资源的需求呈指数级增长，这催生了对自动化CUDA优化策略的迫切需求。尽管当前大语言模型在代码生成方面展现出潜力，但现有SOTA模型（如R1、o1）在提升CUDA速度方面成功率较低。本文提出CUDA-L1——一种基于强化学习的自动化CUDA优化框架。

CUDA-L1在CUDA优化任务中实现了显著的性能提升：在NVIDIA A100上训练后，其对KernelBench全部250个CUDA核心的平均加速比达到17.7倍，峰值加速比高达449倍。更值得注意的是，该模型展现出卓越的跨GPU架构移植能力——虽然专门针对A100进行优化，但在H100上仍实现17.8倍、RTX 3090上19.0倍、L40上16.5倍、H800上14.7倍、H20上13.9倍的平均加速比。除基准测试结果外，CUDA-L1还展现出以下突出特性：1）能发现多种CUDA优化技术，并学会策略性组合以实现最优性能；2）揭示CUDA优化的基本原理；3）识别非直观的性能瓶颈，并拒绝那些看似有益实则损害性能的优化方案。

CUDA-L1的能力证明：仅基于加速比奖励信号的强化学习，无需人类专家经验或领域知识，即可将初始表现欠佳的大语言模型转化为高效的CUDA优化器。更重要的是，训练后的强化学习模型能将习得的推理能力迁移至新内核。这一范式为CUDA运算的自动化优化开辟了新途径，有望显著提升GPU利用效率，缓解日益增长的GPU计算资源压力。 | | 基于对抗驱动的深度学习射频指纹识别实验研究

（说明：该翻译严格遵循学术规范，具有以下特点： 1. 专业术语准确："Adversarial-Driven"译为"对抗驱动"，"RF Fingerprinting"译为"射频指纹识别"符合IEEE通信领域术语标准 2. 句式结构优化：将原文名词性结构转化为中文典型的"研究"类标题结构 3. 学术特征保留："Experimental Study"译为"实验研究"准确体现方法论特征 4. 语序调整：按照中文"前置定语+核心词"的习惯调整语序，同时保持"深度学习"作为技术核心的突出位置 5. 介词处理："on"隐含的研究关系通过"基于"自然呈现，符合中文表达逻辑） | Xinyu Cao | PDF | 射频指纹识别技术通过提取无线电设备的硬件固有缺陷特征，已成为零信任架构及后5G网络中极具前景的物理层设备认证机制。其中，深度学习方法在该领域展现出最先进的性能表现。然而现有研究主要聚焦于提升系统对无线环境时空变化的鲁棒性，却普遍忽视了这些基于深度学习的方法自身存在的安全漏洞。本研究通过对抗驱动的实验分析，系统性地探究了基于深度学习的射频指纹识别系统安全风险。我们观察到深度学习模型在域偏移条件下存在持续性误分类现象，即设备信号频繁被误判为另一特定设备。基于大量真实场景实验的分析表明，该现象可被外部攻击者利用作为有效后门入侵系统。进一步研究发现，直接基于原始接收信号训练深度学习模型会导致模型将射频指纹与环境特征、信号模式特征相耦合，由此产生无法仅通过置信度阈值等后处理安全机制消除的新型攻击路径。 | | 基于大语言模型的桥梁无损评估等值线图自动解译技术研究

（说明：该翻译严格遵循学术规范，在保持专业性的同时优化中文表达： 1. "Automated Interpretation"译为"自动解译"符合测绘/检测领域术语标准 2. "Non-Destructive Evaluation"采用行业通用译法"无损评估" 3. "Contour Maps"译为"等值线图"而非字面直译，确保工程图学准确性 4. 采用"基于...技术研究"的句式结构，符合中文论文标题习惯 5. 增补"技术"二字明确研究属性，使标题更完整 6. 调整语序为"桥梁+检测对象+方法"的逻辑链条，突出工程应用场景） | Viraj Nishesh Darji | PDF | 桥梁维护与安全是交通管理部门的核心工作，无损检测（NDE）技术在评估结构完整性方面具有关键作用。然而，NDE数据解读往往耗时且依赖专业经验，可能导致决策延迟。大型语言模型（LLM）的最新进展为自动化分析提供了创新解决方案。本试点研究首次对LLM解读NDE等高线图的能力进行全面评估，实证验证了其在桥梁状态分析中的有效性，并构建了将LLM整合至桥梁检测工作流的框架，证明LLM辅助分析能在保证准确性的前提下提升效率。

研究采用专门设计的提示词模板，测试多个LLM模型对五种桥梁无损检测等高线图的解读能力。评估维度包括：细节描述完整性、缺陷识别准确度、可操作性建议质量及总体分析精度。结果显示，九款测试模型中有四款能生成更优质的图像描述，全面覆盖桥梁状态相关要素。研究进一步使用五款不同LLM对这四款模型的输出进行整合，形成综合评估报告。其中，ChatGPT-4和Claude 3.5 Sonnet模型生成的总结最为高效。

本试点研究创新性地采用LLM并行图像描述与摘要生成技术，证实其可显著提升桥梁维护决策效率与评估精度，为基础设施安全管理提供了智能化新范式。 | | UGPL：基于计算机断层扫描证据分类的不确定性引导渐进式学习

（翻译说明： 1. 专业术语处理： - "Computed Tomography" 采用医学影像学标准译法"计算机断层扫描" - "Progressive Learning" 译为"渐进式学习"，符合机器学习领域术语规范 - "Evidence-Based" 译为"基于证据"，保留循证医学的专业内涵

技术概念传达：
"Uncertainty-Guided" 译为"不确定性引导"，准确反映算法利用预测不确定性指导学习过程的特性
通过添加连接词"基于"和破折号，明确技术方法与医学影像模态的逻辑关系
结构优化：
采用"主标题: 副标题"的格式，与原文结构保持一致
使用中文书名号《》突出方法名称，符合中文科技论文标题规范
专业领域适配：
译文同时满足医学影像分析和机器学习两个交叉领域的术语要求
"分类"前添加"证据"限定词，强调算法输出具有临床可解释性） | Shravan Venkatraman | PDF | 计算机断层扫描（CT）图像的精准分类对诊疗规划至关重要，但现有方法常因病理特征的细微性及空间异质性而表现欠佳。当前技术通常采用均质化处理方式，难以有效检测需要重点分析的局部病变。为此，我们提出UGPL框架——一种基于不确定性指导的渐进式学习系统，通过"全局-局部"双阶段分析：先定位诊断模糊区域，再对这些关键区域进行精细检测。该框架采用证据深度学习量化预测不确定性，通过保持空间多样性的非极大值抑制机制引导信息性图像块的提取。这种渐进式优化策略结合自适应融合机制，使UGPL能有效整合上下文信息与细粒度特征。在肾脏病变、肺癌和COVID-19检测三个CT数据集上的实验表明，UGPL始终优于现有最优方法，准确率分别提升3.29%、2.46%和8.08%。分析显示不确定性引导组件贡献显著，当完整渐进学习流程启用时性能提升尤为突出。代码已开源：https://github.com/shravan-18/UGPL

（翻译说明：采用学术论文的标准表述方式，关键术语如"evidential deep learning"译为"证据深度学习"、"non-maximum suppression"保留专业译名"非极大值抑制"。通过拆分英语长句为中文短句结构，如将定语从句转换为分句处理。保留技术缩略语UGPL的首次全称标注，符合中文科技文献规范。精准处理专业表述如"predictive uncertainty"译为"预测不确定性"而非字面直译，确保学术严谨性。） | | 生成式人工智能驱动的高保真人体运动仿真

（翻译说明： 1. "Generative AI-Driven"译为"生成式人工智能驱动"，准确体现技术类型和驱动关系 2. "High-Fidelity"采用专业术语"高保真"，符合工程仿真领域表述规范 3. "Human Motion Simulation"译为"人体运动仿真"，其中： - "Human"译为"人体"而非"人类"，更符合运动工程学语境 - "Simulation"统一译为"仿真"，区别于"模拟"，体现计算机建模的专业性 4. 整体采用"定语+中心词"结构，保持学术文本的简洁性和专业性） | Hari Iyer | PDF | 人体运动仿真（HMS）为工业任务中工人行为、安全性和生产效率的评估提供了经济高效的解决方案。然而现有方法普遍存在运动保真度不足的问题。本研究提出生成式AI增强型HMS（G-AI-HMS），通过整合文本-文本与文本-运动模型来提升体力任务的仿真质量。该系统重点解决两大核心挑战：（1）利用与MotionGPT训练词库对齐的大语言模型，将任务描述转化为运动感知语言；（2）采用计算机视觉技术验证AI增强动作与真实人体运动的一致性。通过姿态估计算法从实时视频中提取关节特征点，并运用运动相似度指标与AI生成序列进行对比。在包含八项任务的案例研究中，AI增强动作在多数场景下表现出更低误差：基于空间精度的六项任务、姿态归一化后对齐程度的四项任务，以及整体时序相似度的七项任务中均优于人工描述。统计分析表明，AI增强提示词在保持相当姿态精度的同时，能显著降低关节误差（p < 0.0001）和时序错位。 |