arxiv 2025-09-15
| 标题 | 作者 | PDF链接 | 摘要 |
|---|---|---|---|
| GC-VLN:以图约束为指令实现免训练的视觉与语言导航 |
(注:翻译严格遵循学术术语规范,其中: - "GC-VLN" 保留首字母缩写形式 - "Graph Constraints" 译为专业术语"图约束" - "Training-free" 采用计算机领域通用译法"免训练" - "Vision-and-Language Navigation" 完整译为"视觉与语言导航",保持领域术语一致性) | Hang Yin | PDF | 本文提出了一种无需训练的视觉语言导航(VLN)框架。现有零样本VLN方法主要针对离散环境设计,或在连续模拟器环境中进行无监督训练,这导致其在现实场景中的泛化与应用面临挑战。为实现连续环境中的免训练框架,我们通过将导航指令分解为显式空间约束,将导航引导构建为图约束优化问题。这种约束驱动范式通过约束求解解析空间语义,实现了对未知环境的零样本适应。具体而言,我们构建了覆盖VLN指令中所有空间关系类型的空间约束库,将人类指令解析为包含路径点节点、物体节点及边的有向无环图,并以此为查询从约束库中检索构建图约束。通过约束求解器对图约束优化问题进行求解以确定路径点位置,从而获得机器人的导航路径与最终目标。针对无解或多解情况,我们构建了导航树与回溯机制。在标准基准测试上的大量实验表明,相较于最先进的零样本VLN方法,本框架在成功率和导航效率方面均有显著提升。进一步的真实环境实验证明,该框架能够有效泛化至新环境与指令集,为构建更鲁棒、自主的导航框架开辟了新途径。 | | SSL-AD:面向阿尔茨海默病预测任务与数据集泛化适应性的时空自监督学习
(注:翻译严格遵循以下原则: 1. 专业术语准确对应:"Spatiotemporal"译为"时空","Self-Supervised Learning"保留专业译法"自监督学习" 2. 学术规范:采用破折号连接主副标题格式,符合中文论文标题规范 3. 专业领域适配:"Alzheimer's Prediction Tasks"译为"阿尔茨海默病预测任务"而非字面直译 4. 概念完整性:通过增译"面向"明确技术应用方向,保持"Generalizability and Adaptability"双重概念的完整表达 5. 语序优化:将英语后置定语"Across..."转换为中文前置定语,符合中文表达习惯) | Emily Kaczmarek | PDF | 阿尔茨海默病是一种进行性神经退行性疾病,会导致记忆丧失和认知能力下降。尽管已有大量研究将深度学习模型应用于阿尔茨海默病预测任务,但这些模型仍受限于标记数据匮乏、跨数据集泛化能力不足,以及对不同数量输入扫描及扫描时间间隔的适应性较差等问题。本研究采用三种最先进的时序自监督学习(SSL)方法进行三维脑部MRI分析,并新增了专门处理可变长度输入与学习鲁棒空间特征的创新扩展模块。我们整合了包含3,161名患者的四个公开数据集进行预训练,并在多项阿尔茨海默病预测任务(包括诊断分类、转化检测和未来转化预测)中验证模型性能。值得注意的是,采用时序预测与对比学习构建的自监督学习模型在七项下游任务中有六项超越监督学习效果。该模型展现出对具有不同时间间隔的输入图像数量及跨任务场景的适应性与泛化能力,凸显了其在临床应用中的稳健性能。我们已通过https://github.com/emilykaczmarek/SSL-AD 公开代码与模型。 | | WhisTLE:基于深度监督与纯文本域自适应的预训练语音识别Transformer模型
(注:翻译严格遵循以下原则: 1. 保留专业术语"Deeply Supervised"译为"深度监督","Text-Only Domain Adaptation"译为"纯文本域自适应","Pretrained Speech Recognition Transformers"译为"预训练语音识别Transformer模型" 2. 使用中文破折号保持原标题结构 3. 补充"基于"二字使中文表达更符合学术语境 4. 采用"模型"作为结尾词,符合中文技术文献命名惯例) | Akshat Pandey | PDF | 预训练自动语音识别(ASR)模型(如Whisper)虽表现优异,但仍需领域自适应以处理未见过词汇及特定表达方式。在许多现实场景中,采集语音数据并不可行,因此必须采用纯文本自适应方案。我们提出WhisTLE——一种针对预训练编码器-解码器ASR模型的深度监督式纯文本自适应方法。该方法通过训练变分自编码器(VAE)对文本生成的编码器输出进行建模,并利用习得的文本-潜在编码器微调解码器,还可选择性结合文本转语音(TTS)自适应技术。在推理阶段,原始编码器得以完整恢复,不会产生额外运行时成本。在四个跨领域数据集和四种ASR模型上的实验表明:结合TTS的WhisTLE方案相较于纯TTS自适应将词错误率(WER)相对降低12.3%,并在32个实验场景中的27个场景超越所有非WhisTLE基线方法。 | | DeepDive:基于知识图谱与多轮强化学习的深度搜索智能体技术演进
(注:译文采用学术翻译规范,保留核心术语"Knowledge Graphs"(知识图谱)和"Multi-Turn RL"(多轮强化学习)的专业译法。"Advancing"译为"技术演进"体现技术发展脉络,"Deep Search Agents"采用"深度搜索智能体"这一符合人工智能领域的标准译法,整体结构符合中文技术文献标题的表述习惯。) | Rui Lu | PDF | Augmenting large language models (LLMs) with browsing tools substantially improves their potential a [翻译失败] | | InfGen:一种分辨率无关的可扩展图像合成范式
(注:翻译说明: 1. "InfGen"作为专有名词保留不译 2. "Resolution-Agnostic"译为"分辨率无关",准确传达不受分辨率限制的技术特性 3. "Paradigm"译为"范式",符合计算机领域学术用语习惯 4. "Scalable Image Synthesis"译为"可扩展图像合成",其中"scalable"采用业界通用译法"可扩展" 5. 整体采用学术论文标题的简洁译法,保持术语准确性和专业感) | Tao Han | PDF | 任意分辨率图像生成技术能够为不同设备提供一致的视觉体验,在内容生产与消费领域具有广泛应用。当前扩散模型的计算需求随分辨率呈平方级增长,导致生成4K图像存在超过100秒的延迟。为解决此问题,我们在潜在扩散模型基础上展开第二代研究:将扩散模型生成的固定潜在表示作为内容载体,提出通过一步式生成器从紧凑生成潜在表示解码任意分辨率图像。据此我们提出\textbf{InfGen}框架——用新型生成器替代VAE解码器,无需重新训练扩散模型即可从固定尺寸潜在表示生成任意分辨率图像。该方案不仅简化流程、降低计算复杂度,更可适用于所有使用相同潜在空间的模型。实验表明,InfGen能将多种模型升级至任意高分辨率时代,同时将4K图像生成时间缩短至10秒以内。 | | 理解局部随机梯度下降中的外部优化器:学习率、动量与加速机制
(注:翻译严格遵循学术规范,保留核心术语的准确性: - "Outer Optimizers" 译为"外部优化器"(区别于inner optimizer内部优化器) - "Local SGD" 采用通用译法"局部随机梯度下降"并保留英文缩写 - "Momentum" 采用深度学习领域标准译法"动量" - "Acceleration" 在此语境下译为"加速机制"(特指优化算法的加速技术)) | Ahmed Khaled | PDF | 现代机器学习通常需要采用大批量训练、分布式数据以及大规模并行计算硬件(如移动设备与其他边缘设备或分布式数据中心)。在此类场景中,通信成为主要瓶颈,而局部随机梯度下降(Local SGD)等方法在降低额外通信开销方面展现出巨大潜力。局部随机梯度下降包含三个组成部分:局部优化过程、聚合机制以及利用节点聚合更新生成新模型的外部优化器。尽管现有大量文献探讨了超参数对局部优化过程的影响,但关于外部优化器及其超参数的选择仍缺乏明确指导。本文研究了外部优化器在局部随机梯度下降中的作用,并为该算法提出了新的收敛性保证。特别地,我们证明通过调整外部学习率可以实现:(a)在优化误差与随机梯度噪声方差之间取得平衡;(b)弥补内部学习率调试不当的问题。我们的理论表明,外部学习率有时应设置为大于$1$的数值。我们将研究结果拓展至外部优化器使用动量法的场景,并揭示了动量调整后外部学习率的类似作用。同时研究了外部优化器的加速机制,证明其能通过改善通信轮次函数的收敛速率,优于现有局部应用加速算法的收敛表现。最后,我们提出了一种新颖的数据依赖性分析方法,为外部学习率调优提供了更深层次的见解。通过标准语言模型与多种外部优化器的综合实验,验证了本文理论的有效性。 | | RefactorCoderQA:面向云边部署多领域编程问题求解的大语言模型基准测试
(注:翻译采用学术规范,保留核心术语"Benchmarking"的基准测试含义,"LLMs"译为"大语言模型","Cloud and Edge Deployment"译为"云边部署"以符合技术文献惯例。通过添加"面向"和"求解"等动词,使中文标题在保持专业性的同时符合汉语表达习惯。) | Shadikur Rahman | PDF | 为优化大语言模型(LLMs)的推理与问题解决能力,我们提出了一种新型云边协同架构,该架构实现了结构化的多智能体提示框架。该框架包含三个专用组件:部署于边缘侧提供方法指导的轻量化模型GuideLLM;托管在云端负责生成代码解决方案的更强大模型SolverLLM;以及用于评估解决方案正确性与质量的自动化评估器JudgeLLM。为在实际场景中评估和验证该架构的有效性,我们引入了RefactorCoderQA——一个旨在评估和提升大语言模型在多领域编码任务中性能的综合基准测试平台。基于现有基准测试的局限性,RefactorCoderQA系统性地覆盖软件工程、数据科学、机器学习和自然语言处理等技术领域,采用源自Stack Overflow的真实编程挑战进行构建。大量实验表明,我们经过微调的模型RefactorCoder-MoE实现了最先进的性能表现,以76.84%的整体准确率显著超越领先的开源和商业基线模型。人工评估进一步验证了生成解决方案的可解释性、准确性和实践相关性。此外,我们还评估了吞吐量和延迟等系统级指标,以更深入理解所提出架构的性能特征与权衡关系。 | | 生物医学研究元数据制备标准:Bridge2AI视角
(注:Bridge2AI是美国国立卫生研究院推出的"人工智能桥梁计划",旨在推动生物医学领域AI数据资源的标准化建设。翻译时保留专有项目名称"Bridge2AI"的原始表述,采用"视角"对应"Perspective"既保持学术严谨性,又符合中文表达习惯。"Preparation"译为"制备"较"准备"更符合科研语境,"Metadata"统一采用学科通用译法"元数据"。) | Harry Caufield | PDF | AI-readiness describes the degree to which data may be optimally and ethically used for subsequent A [翻译失败] | | DECAMP:基于解耦上下文感知预训练实现场景一致的多智能体运动预测
(注:翻译说明: 1. "DECAMP"作为专有技术术语保留不译 2."Disentangled Context-Aware Pre-Training"采用技术领域通用译法"解耦上下文感知预训练" 3. "Scene-Consistent"译为"场景一致"符合计算机视觉领域术语规范 4. "Multi-Agent Motion Prediction"译为"多智能体运动预测"准确传达自动驾驶/机器人技术领域的专业概念 5. 整体采用"基于...实现..."的技术论文标题常用句式,既保持学术严谨性又符合中文表达习惯) | Jianxin Shi | PDF | 轨迹预测是自动驾驶系统的关键组成部分,对保障道路安全与通行效率至关重要。然而,传统方法常受限于标注数据稀缺问题,且在多智能体预测场景中表现欠佳。为应对这些挑战,我们提出了一种名为DECAMP的解耦式情境感知预训练框架,专门用于多智能体运动预测。与现有方法将表征学习与代理任务相耦合的做法不同,本框架将行为模式学习与潜在特征重构解耦,优先考虑可解释的动态特性,从而增强下游预测的场景表征能力。此外,我们通过融合情境感知表征学习与协同空间-运动代理任务,实现了结构推理与意图推理的联合优化,同时有效捕捉潜在的动态意图。在Argoverse 2基准测试中的实验表明,本方法具有卓越性能,结果充分验证了其在多智能体运动预测中的有效性。据我们所知,这是首个面向自动驾驶多智能体运动预测的情境自编码器框架。代码与模型将向社会公开。 | | 互信息追踪强化学习中策略的一致性
(注:翻译严格遵循了学术术语规范:"Mutual Information"译为"互信息","Policy Coherence"译为"策略一致性","Reinforcement Learning"采用学界通用译法"强化学习"。动词"Tracks"根据上下文译为"追踪"以体现其监测和记录的功能性含义,介词"in"处理为范畴标识"中"以符合中文表达习惯。) | Cameron Reid | PDF | 部署在现实环境中的强化学习(RL)智能体面临传感器故障、执行器磨损和环境变化导致的性能退化,但缺乏检测与诊断这些故障的内在机制。我们提出了一种信息理论框架,该框架既揭示了强化学习的根本动力学特性,又为诊断部署期异常提供了实用方法。通过对机器人控制任务中状态-动作互信息模式的分析,我们首先证明成功学习会呈现特征性信息标记:尽管状态熵持续增加,状态与动作间的互信息从0.84比特稳步增长至2.83比特(增幅达238%),表明智能体对任务相关模式逐渐形成选择性注意力。值得注意的是,状态、动作与下一状态的联合互信息MI(S,A;S')遵循倒U型曲线,在早期学习阶段达到峰值后随智能体专业化而下降,暗示着从广泛探索向高效利用的转变。更具即时应用价值的是,我们发现信息指标能够差异化诊断系统故障:观测空间(即状态)噪声(传感器故障)会导致所有信息通道的广泛崩溃,并显著降低状态-动作耦合度;而动作空间噪声(执行器故障)则选择性破坏动作-结果预测性,同时保持状态-动作关系。通过受控扰动实验验证的这种差异化诊断能力,可在不修改系统架构或降低性能的前提下实现精确故障定位。通过将信息模式确立为学习特征标记和系统健康诊断指标,我们为构建自适应强化学习系统奠定了基础——这类系统能够基于信息理论原理实现自主故障检测与策略调整。 |