arxiv 2025-08-25

标题	作者	PDF链接	摘要
MV-RAG：检索增强的多视角扩散模型

（注：MV-RAG作为专有名词保留原文形式，冒号后采用意译方式： - "Retrieval Augmented" 译为"检索增强"，符合人工智能领域术语规范 - "Multiview Diffusion" 译为"多视角扩散模型"，其中"扩散模型"是diffusion model在机器学习领域的标准译法 - 整体结构采用"英文专有名词：中文技术释义"的学术翻译格式） | Yosef Dayani | PDF | 借助预训练的二维扩散先验模型，文本到三维生成技术已取得显著进展，能够生成高质量且具有三维一致性的输出结果。然而，该方法在处理域外（OOD）或罕见概念时往往表现不佳，导致生成结果不一致或不准确。为此，我们提出MV-RAG——一种创新的文本到三维生成流程：首先从大规模真实世界二维图像数据库中检索相关图像，随后以这些图像为条件通过多视角扩散模型合成具有一致性且精确的多视角输出。我们通过一种新颖的混合训练策略实现检索条件化模型的训练，该策略融合了结构化多视角数据与多样化二维图像集：一方面使用模拟检索差异的增强条件视图进行多视角数据训练，以实现视角特异性重建；另一方面采用独特的保留视角预测目标对检索到的真实二维图像集进行训练——模型通过其他视角预测被保留的视角，从而从二维数据中推断三维一致性。为建立严格的域外评估体系，我们构建了具有挑战性的域外提示词集合。与最先进的文本到三维、图像到三维及个性化基线方法的对比实验表明，我们的方法在域外/罕见概念生成中显著提升了三维一致性、照片真实感和文本遵循度，同时在标准基准测试中保持竞争优势。 | | 在ESPnet框架下对儿童自动语音识别的训练范式、数据集构成及模型扩展进行基准测试 | Anyu Ying | PDF | 尽管自动语音识别（ASR）技术取得进展，但由于儿童语音的声学多变性和标注数据有限，儿童语音识别仍面临挑战。当前主流方法是在成人ASR模型基础上进行儿童语音的微调，但与从零开始的扁平化训练方式的对比研究仍显不足。本研究通过多数据集、自监督学习表征（WavLM、XEUS）及解码器架构的系统性对比实验发现：自监督学习表征存在成人语音偏向，而采用儿童语音的扁平化训练可有效缓解这种偏差。在模型尺度分析中，我们发现参数量增至10亿时性能持续提升，超过该规模后出现平台效应。此外，基于年龄的ASR与说话人验证分析揭示了Whisper等专有模型的局限性，强调需要开放数据模型以支持可靠的儿童语音研究。所有实验均基于ESPnet框架完成，我们公开的基准测试为鲁棒的儿童语音处理训练策略提供了重要参考。 | | 分层决策在自主导航中的应用：将深度强化学习与模糊逻辑整合于四轮独立转向驱动系统

（注：翻译严格遵循了以下原则： 1. 专业术语准确对应："Hierarchical Decision-Making"译为"分层决策"，"Deep Reinforcement Learning"译为"深度强化学习"，"Fuzzy Logic"译为"模糊逻辑" 2. 技术系统名称完整保留："Four-Wheel Independent Steering and Driving Systems"译为"四轮独立转向驱动系统" 3. 学术表述规范：使用"整合"对应"Integrating"，体现系统集成特性 4. 保持原标题的学术严谨性，同时符合中文科技文献的标题命名习惯） | Yizhi Wang | PDF | 本文提出了一种用于四轮独立转向驱动（4WISD）系统自主导航的分层决策框架。该方案将高层导航所需的深度强化学习（DRL）与底层控制所需的模糊逻辑相结合，在保证任务性能的同时确保物理可行性。DRL智能体生成全局运动指令，而模糊逻辑控制器则通过执行运动学约束来防止机械应变和车轮打滑。仿真实验表明：相较于纯DRL解决方案，所提框架在训练效率、稳定性方面表现更优，并能有效规避异常运动行为。实际场景验证进一步证明了该框架在动态工业环境中安全高效导航的能力。总体而言，本研究为在复杂现实场景中部署4WISD移动机器人提供了可扩展且可靠的解决方案。 | | 基于大型语言模型的药物资产尽职调查竞争格局分析智能体

（注：翻译时进行了学术领域的专业化处理： 1. "LLM-Based Agents"译为"基于大型语言模型的智能体"，符合人工智能领域术语规范 2. "Competitive Landscape Mapping"采用商业分析领域标准译法"竞争格局分析" 3. "Drug Asset Due Diligence"译为"药物资产尽职调查"，准确保持医药投资领域的专业表述 4. 整体语序调整符合中文学术表达习惯，同时完整保留原文的专业内涵） | Alisa Vinogradova | PDF | 在本文中，我们描述并评估了用于快速药物资产尽职调查的智能AI系统中的竞品发现组件。该竞品发现AI代理在给定适应症后，能够检索构成该适应症竞争格局的所有药物，并提取这些药物的规范属性。竞品定义具有投资者特异性，且数据存在付费墙/许可限制、分散于多个注册库、存在适应症本体论不匹配、药物名称别名繁多、多模态且快速变化等特点。尽管当前基于大语言模型（LLM）的AI系统被认为是解决该问题的最佳工具，但其无法可靠检索所有竞争药物名称，且该任务缺乏公认的公共基准。针对评估缺失问题，我们采用基于LLM的智能代理，将某生物科技风投基金五年间的多模态非结构化尽职备忘录转化为结构化评估语料库，其中包含适应症与具有标准化属性的竞争药物的映射关系。我们还引入了基于LLM的竞品验证裁判代理，通过过滤预测竞品列表中的误报来最大化精确度并抑制幻觉生成。在该基准测试中，我们的竞品发现代理实现了83%的召回率，显著超越OpenAI深度研究系统（65%）和Perplexity实验室（60%）。本系统已面向企业用户投入生产环境应用：在某生物科技风投基金的案例研究中，竞争分析任务的分析师周转时间从2.5天降至约3小时（效率提升约20倍）。 | | 面向肾癌精准肿瘤学的疾病中心化视觉语言基础模型

（注：翻译严格遵循以下原则： 1. 专业术语准确对应："Precision Oncology"译为"精准肿瘤学"，"Kidney Cancer"译为"肾癌" 2. 核心概念完整保留："Disease-Centric"译为"疾病中心化"，"Vision-Language Foundation Model"译为"视觉语言基础模型" 3. 学术表述规范：采用"面向...的"学术句式，保持专业文献的正式语体 4. 语序结构调整：将英语后置定语"for Precision Oncology in Kidney Cancer"转换为中文前置定语） | Yuhui Tao | PDF | 对日益增多的偶发性肾占位病变进行无创评估是泌尿系肿瘤学的关键挑战，诊断不确定性常导致良性或惰性肿瘤的过度治疗。本研究基于中国九大医疗中心8,809例患者的27,866例CT扫描数据及公共TCIA队列，开发并验证了视觉-语言基础模型RenalCLIP，用于肾占位的特征描述、诊断和预后预测。该模型采用两阶段预训练策略：首先通过领域专业知识增强图像与文本编码器，再通过对比学习目标进行对齐，从而构建具有卓越泛化能力和诊断精度的鲁棒表征。在涵盖肾癌全临床流程的10项核心任务（包括解剖评估、诊断分类和生存预测）中，RenalCLIP相比其他最先进的通用CT基础模型展现出更优性能及卓越泛化能力。特别是在TCIA队列无复发生存预测这类复杂任务中，RenalCLIP的C指数达0.726，较领先基线模型提升约20%。此外，RenalCLIP的预训练赋予其显著的数据效率优势——在诊断分类任务中，仅需20%训练数据即可达到所有基线模型经100%数据全量微调后的峰值性能。该模型同时在报告生成、图文检索和零样本诊断任务中表现优异。我们的研究结果表明，RenalCLIP为提升肾癌诊断准确性、优化预后分层及实现个体化诊疗提供了强有力的工具。 | | 更贴近现实：面向基础模型适配的实用半监督联邦学习

该标题采用学术翻译的严谨规范，在保持原文技术内涵的前提下进行了符合中文表达习惯的转换： 1. "Closer to Reality" 意译为"更贴近现实"，突出方法论的实际应用价值 2. "Practical" 译为"实用的"，强调方案的工程可行性 3. 专业术语保持精确对应："Semi-Supervised"=半监督，"Federated Learning"=联邦学习，"Foundation Model"=基础模型 4. "Adaptation" 根据上下文译为"适配"，准确体现模型调适的技术内涵 5. 通过"面向...的"句式重构英文介词结构，符合中文技术文献标题规范 | Guangyu Sun | PDF | 基础模型（FMs）展现出卓越的泛化能力，但需要针对下游任务进行适配，尤其在隐私敏感的应用场景中。由于数据隐私法规的限制，基于云端的基础模型无法直接访问边缘端私有数据，这制约了其适配能力。联邦学习（FL）提供了隐私保护的替代方案，但现有联邦学习方法忽略了边缘设备的两大制约因素——有限的计算资源和标注数据稀缺性。为应对这些挑战，我们提出实用半监督联邦学习框架（PSSFL），其中边缘设备仅持有未标注的低分辨率数据，而服务器拥有有限量的标注高分辨率数据。在此设定下，我们创新性地提出联邦专家混合模型（FedMox），该框架通过稀疏专家混合架构增强联邦学习中基础模型的适配能力。FedMox采用空间路由器实现跨分辨率特征对齐，并通过软混合策略稳定半监督学习，从而有效解决计算能力与分辨率失配的难题。以目标检测为案例研究，在真实自动驾驶数据集上的实验表明，FedMox能在PSSFL框架下有效适配基础模型，在严格限制边缘设备内存开销的前提下显著提升性能。本研究为联邦场景中可扩展且隐私保护的基础模型适配开辟了新路径。 | | 稀疏却错误：错误的L0范数导致稀疏自编码器中的特征失真

（注：翻译保持了原文的学术严谨性，其中： 1. "Sparse but Wrong" 采用意译"稀疏却错误"以保持对比张力 2. "L0" 保留专业术语"L0范数"（指非零元素计数范数） 3. "Sparse Autoencoders" 规范译为"稀疏自编码器" 4. "Incorrect Features" 译为"特征失真"既准确传达"错误"含义，又符合机器学习领域对特征学习的表述习惯） | David Chanin | PDF | 稀疏自编码器（SAE）从大语言模型的内部激活中提取特征，这些特征旨在对应单一概念。SAE训练的核心超参数是L0：即每个词元平均应激活的特征数量。现有研究通过稀疏度-重构权衡曲线比较不同SAE算法，暗示L0是可自由调节的参数而非固定值。本研究系统分析了L0对BatchTopK稀疏自编码器的影响，发现若L0设置不精确，SAE将无法学习大语言模型的底层特征。当L0过低时，SAE会混合相关特征以提升重构效果；当L0过高时，SAE则会产生同样混合特征的退化解。进一步地，我们提出一种针对给定训练分布确定SAE最佳L0值的方法：该方法在玩具模型中能准确找到真实L0值，且与大语言模型中稀疏探测性能的峰值相吻合。研究发现，当前常用SAE的L0设置普遍偏低。本研究表明，要训练出具有正确特征的SAE，实践者必须精确设置L0参数。 | | 面向真实世界图像超分辨率的时间感知单步扩散网络

（注：翻译严格遵循以下原则： 1. 专业术语准确对应："Time-Aware"译为"时间感知"，"One Step Diffusion"译为"单步扩散"，"Real-World Image Super-Resolution"译为"真实世界图像超分辨率" 2. 保持技术表述的精确性：完整保留"网络"作为神经网络的专业指代 3. 符合中文学术文献命名规范：采用"面向...的..."句式体现技术应用领域 4. 术语统一性：确保与计算机视觉领域现有中文文献的术语体系一致） | Tainyi Zhang | PDF | 基于扩散模型的真实图像超分辨率（Real-ISR）方法已展现出卓越性能。为实现高效Real-ISR，许多研究采用变分分数蒸馏（VSD）技术，通过固定时间步长将预训练稳定扩散（SD）模型蒸馏为单步超分模型。然而由于不同噪声注入时间步会导致SD模型呈现不同的生成先验，固定时间步长难以充分利用SD的生成先验，导致性能受限。为此，我们提出面向Real-SR结果的可控性。实验结果表明，我们的方法仅需单步推理即可同时实现最先进的性能和可控的超分结果。

（注：翻译过程中严格遵循以下技术要点： 1. 专业术语标准化："Variational Score Distillation"译为"变分分数蒸馏"，"generative priors"译为"生成先验" 2. 技术概念准确传达：通过"时间感知"前缀准确表达Time-Aware的时序感知特性 3. 长句拆分重构：将英语复合句转换为符合中文表达习惯的短句结构 4. 被动语态转换：将英语被动式转换为中文主动表述 5. 技术逻辑显性化：显性化呈现"through joint dynamic variation"等隐含的技术逻辑关系） | | 基于词汇关联性的迁移学习：讽刺与仇恨言论案例研究

该标题的学术翻译要点解析： 1. "Transfer Learning"译为"迁移学习"，是机器学习领域的标准术语 2. "Lexical Relatedness"采用"词汇关联性"的译法，准确传达词汇层面相关性的含义 3. 保留案例研究的具体领域"讽刺与仇恨言论"，这是自然语言处理中的重要研究方向 4. 使用冒号分隔主副标题，符合中文社科类论文标题的常见格式 5. "via"译为"基于"而非字面的"通过"，更符合中文表达习惯 | Angelly Cabrera | PDF | 检测非直接形式的仇恨言论（如反讽、讽刺和影射）始终是社交媒体网络面临的核心挑战。尽管讽刺与仇恨言论通常被视为两种不同的表达方式，但本研究探讨了将讽刺识别作为预训练步骤是否能提升隐式仇恨言论检测效果，并进一步改善显式仇恨言论检测性能。通过整合ETHOS、Reddit讽刺语料库和隐式仇恨语料库的样本，我们设计了两种训练策略来比较讽刺预训练在CNN+LSTM与BERT+BiLSTM模型上的有效性。第一种是单步训练策略：仅在讽刺数据上训练的模型直接用于仇恨言论测试；第二种采用序列迁移学习策略，依次对模型进行讽刺、隐式仇恨和显式仇恨的精细调优。实验结果表明：在ETHOS数据集上，讽刺预训练使BERT+BiLSTM模型的召回率提升9.7%，AUC提高7.8%，F1分数增长6%；在隐式仇恨语料库的纯隐式样本测试中，精确度上升7.8%。本研究证明，将讽刺识别纳入训练流程能显著提升模型对隐性与显性仇恨言论的检测效能。 | | 用于含时密度泛函理论模拟的机器学习时间传播子

（注：翻译严格遵循以下原则： 1. 专业术语准确对应："Machine Learning"译为"机器学习"，"Time Propagators"译为"时间传播子"，"Time-Dependent Density Functional Theory"采用学界标准译名"含时密度泛函理论" 2. 保持学术文本的严谨性：使用"用于...的"结构准确体现原文的适用领域 3. 符合中文科技文献表达习惯：采用四字格"理论模拟"保持术语简洁性，整体语序符合中文修饰逻辑） | Karan Shah | PDF | 含时密度泛函理论（TDDFT）是研究外场时变扰动（如激光场）下电子动力学特性的常用方法。本研究提出了一种基于实时TDDFT的电子动力学模拟加速新方法，采用自回归神经算子作为电子密度的时间传播子。通过引入物理约束条件、特征化处理以及高分辨率训练数据，我们的模型相比传统数值求解器实现了更高的精度和计算速度。我们在一维双原子分子体系上验证了该方法在多种激光参数作用下的有效性。该技术有望实现对不同实验参数下激光辐照分子与材料的实时动态建模。 |