arxiv 2025-11-10
| 标题 | 作者 | PDF链接 | 摘要 |
|---|---|---|---|
| 视觉空间调谐 | Rui Yang | 从视觉输入中捕捉空间关系是实现类人通用智能的基石。先前研究多通过引入额外专家编码器来增强视觉语言模型的空间感知能力,但这会带来额外开销且通常损害通用能力。为提升通用架构的空间能力,我们提出视觉空间调优框架——一种培育视觉语言模型类人空间能力的综合方案,涵盖从空间感知到推理的完整链条。我们首先通过构建大规模数据集VST-P(包含410万样本,覆盖单视图、多图像及视频三大模态的19项空间技能)来增强模型的空间感知能力;继而推出VST-R数据集(含13.5万样本),指导模型进行空间推理。特别采用渐进式训练流程:先通过监督微调建立基础空间知识,再通过强化学习提升空间推理能力。在保持通用能力不受影响的前提下,所提方法在多个空间基准测试中持续取得最优结果(MMSI-Bench达34.8%,VSIBench达61.2%)。研究表明,通过该空间调优范式可显著增强视觉-语言-动作模型,为构建更具物理现实感的人工智能铺平道路。 | |
| TimeSearch-R:基于自验证强化学习的自适应时序搜索方法在长视频理解中的应用 | Junwen Pan | 时序搜索旨在根据给定查询从数万帧视频中定位最相关的帧集合,作为实现精准长视频理解的基础。现有研究尝试通过渐进式缩小搜索范围来实现这一目标,但这些方法通常依赖人工设计的搜索流程,缺乏对最优搜索策略进行端到端优化的能力。本文提出TimeSearch-R模型,将时序搜索重新定义为交错式文本-视频思维过程,通过强化学习将视频片段搜索无缝集成到推理流程中。然而,将GRPO等强化学习训练方法应用于视频推理时,可能导致无监督的中间搜索决策,进而引发视频内容探索不足与逻辑推理不一致的问题。为解决这些挑战,我们提出带完整性自验证的GRPO方法(GRPO-CSV),该方法从交错推理过程中收集已搜索视频帧,并利用同一策略模型验证已搜索帧的充分性,从而提升视频推理的完整性。此外,我们构建了专门用于GRPO-CSV的SFT冷启动与强化学习训练数据集,通过筛选时序依赖性较弱的样本来增强任务难度,进而提升时序搜索能力。大量实验表明,TimeSearch-R在Haystack-LVBench和Haystack-Ego4D等时序搜索基准,以及VideoMME和MLVU等长视频理解基准上均取得显著提升。特别值得注意的是,TimeSearch-R在LongVideoBench上创造了最新性能纪录,较基础模型Qwen2.5-VL提升4.1%,较先进视频推理模型Video-R1提升2.0%。项目代码已开源:https://github.com/Time-Search/TimeSearch-R。 | |
| MIMIC-SR-ICD11:基于临床叙述的诊断数据集 |
(解析说明: 1. "MIMIC-SR-ICD11"作为专有名词保留原格式不译 2. "Narrative-Based Diagnosis"译为"基于临床叙述的诊断",其中: - "narrative"在医学语境中指临床记录中的病情描述,译为"临床叙述"更符合专业规范 - 使用连接词"基于"准确体现数据集的方法学特征 3. 采用"数据集"对应"Dataset",符合中文计算机学科术语习惯 4. 整体结构采用"专有名词:用途说明"的中文学术命名范式) | Yuexin Wu | PDF | 疾病诊断是现代医疗的核心支柱,既能实现急症的早期发现与及时干预,又能指导生活方式调整和用药方案以预防或延缓慢性疾病进展。自我报告保留了具有临床意义的信号,而模板化的电子健康记录文档往往会弱化或遗漏这些信号——尤其是那些细微却影响深远的细节。为实现这一转变,我们推出MIMIC-SR-ICD11:基于电子健康记录出院小结构建的大型英文诊断数据集,其原生对齐世界卫生组织ICD-11术语体系。我们进一步提出LL-Rank——基于似然概率的重排序框架,该框架通过计算临床报告语境下各标签的长度归一化联合似然,并减去对应标签的无语境先验似然。在七种模型架构的测试中,LL-Rank始终优于强大的"生成+映射"基线方法。消融实验表明,LL-Rank的性能提升主要源于其基于点互信息的评分机制,该机制能有效剥离标签频率偏差对语义兼容性的影响。 | | DGTN:基于扩散注意力门控机制的图增强Transformer模型在酶DDG预测中的应用
(解析说明: 1. 保留核心模型缩写"DGTN"作为专有名词 2. "Graph-Enhanced Transformer"译为"图增强Transformer模型",明确架构特性 3. "Diffusive Attention Gating Mechanism"采用专业术语直译"扩散注意力门控机制",保持技术准确性 4. 酶DDG预测作为专业领域术语,采用通用译法"酶DDG预测"(DDG指蛋白质稳定性变化的自由能变) 5. 通过"基于...在...中的应用"的句式完整呈现技术方法与研究领域的逻辑关系) | Abigail Lin | PDF | 预测氨基酸突变对酶热力学稳定性(ΔΔG)的影响是蛋白质工程与药物设计的基础。尽管近期深度学习方法展现出潜力,但它们往往独立处理序列与结构信息,未能捕捉局部结构几何与全局序列模式间的复杂耦合。我们提出DGTN(扩散图变换网络)——一种通过扩散机制协同学习图神经网络结构先验权重与变换器注意力机制的新型架构。其核心创新在于双向扩散过程:(1)通过可学习扩散核,GNN生成的结构嵌入指导变换器注意力;(2)变换器表征通过注意力调制的图更新优化GNN消息传递。我们通过严格数学分析证明,该协同学习方案比独立处理具有可证明的更优近似界。在ProTherm和SKEMPI基准测试中,DGTN达到最先进性能(皮尔逊相关系数0.87,均方根误差1.21 kcal/mol),较最佳基线提升6.2%。消融实验证实扩散机制带来4.8个相关性的提升。理论分析证明扩散注意力可收敛至最优结构-序列耦合状态,收敛速率为O(1/√T)(T为扩散步数)。本研究通过可学习扩散建立了整合异质蛋白质表征的原理性框架。 | | 土壤X:基于对比跨组分学习的免校准综合土壤传感技术
(说明:采用"土壤X"作为SoilX的译名,既保留品牌识别度又符合中文命名习惯。"Calibration-Free"译为"免校准"以突出技术特性,"Comprehensive Soil Sensing"译为"综合土壤传感"准确传达技术范畴,"Contrastive Cross-Component Learning"采用学界通用的"对比跨组分学习"译法,确保专业术语的准确性。整体采用技术报告常用的四字格标题结构,符合中文科技文献表述规范。) | Kang Yang | PDF | 精准农业需要持续准确地监测土壤水分(M)与关键常量营养素——氮(N)、磷(P)、钾(K),以实现产量优化与资源节约。现有无线土壤传感技术虽能测量这四种组分,但因受铝硅酸盐(Al)和有机碳(C)表征的土壤质地变化影响,需通过重新校准(即重新训练数据处理模型)来适配,制约了实际应用。为此,我们提出SoilX——一种免校准土壤传感系统,可同步测量六项关键指标:{M, N, P, K, C, Al}。通过显式建模C和Al,SoilX彻底消除了因土壤质地和有机碳差异所需的重复校准。该系统采用对比跨组分学习框架(3CL),引入正交正则项与分离损失函数两个定制化模块,有效解耦跨组分干扰。此外,我们设计了新型四面体天线阵列与天线切换机制,能在不同埋设姿态下稳定测量土壤介电常数。大量实验表明,SoilX相较基线方法将估计误差降低23.8%至31.5%,并对未勘测农田展现出良好泛化能力。 | | 关于流匹配KL散度 | Maojiang Su | PDF | 我们推导出流匹配分布近似的Kullback-Leibler(KL)散度的确定性非渐近上界。具体而言,若$L_2$流匹配损失以$\epsilon^2 > 0$为界,则真实数据分布与估计分布之间的KL散度以$A_1 \epsilon + A_2 \epsilon^2$为界。其中常数$A_1$和$A_2$仅取决于数据场与速度场的正则性。该结论进一步表明,在总变差(TV)距离度量下,流匹配变换器具有统计收敛速率。我们证明流匹配在估计光滑分布时能达到近乎极小化极大最优效率。这一结果使得在TV距离度量下,流匹配的统计效率可与扩散模型相媲美。基于合成速度场与学习速度场的数值研究验证了我们的理论。 | | 基于FPGA的实时波形分类 | Alperen Aksoy | PDF | 对于硅光电倍增管(SiPM)总信号的自触发读出,波形分类技术可辅助简单的阈值触发机制,在早期阶段在线可靠提取量能器粒子撞击信息,从而降低数据传输量。通常模数转换器(ADC)数据采集基于现场可编程门阵列(FPGA)进行边缘数据处理。本研究探讨基于查找表的神经网络方案,重点解决二值化多层神经网络在布局结构、资源占用、性能表现及训练方法等方面的挑战。我们证明此类网络结构可通过遗传算法进行训练,并实现与在线无死时间处理相匹配的推理延迟。 | | GroupKAN:基于分组样条的KAN非线性建模在高效医学图像分割中的再思考
(该翻译采用学术论文标题的典型结构,通过冒号分隔主副标题。核心术语处理方式包括: 1. "GroupKAN"保留英文缩写+音译组合形式,符合技术术语惯例 2. "Spline-based KAN Modeling"译为"基于样条的KAN建模",准确传达技术本质 3. "Nonlinearity"译为"非线性"保持数学概念精确性 4. 介词短语"for..."处理为中文领域限定句式"在...中" 5. "Rethinking"译为"再思考"体现学术批判性思维 整体句式符合中文论文标题的凝练特征,同时完整保留原文的技术内涵与学术表达风格) | Guojie Li | PDF | 医学图像分割需要兼具精确性、轻量化和可解释性的模型。卷积架构缺乏自适应非线性能力与透明决策机制,而Transformer架构则受限于二次复杂度及不透明的注意力机制。U-KAN通过采用Kolmogorov-Arnold网络解决了这些难题,在实现比卷积方法和注意力方法更高精度的同时,参数量少于Transformer变体,并较传统方法提升了可解释性。然而,其全通道变换导致的O(C²)复杂度限制了通道数量增加时的扩展性。为此,我们提出GroupKAN——一种轻量化分割网络,集成两大创新结构化功能模块:(1) 分组KAN变换:将通道划分为G组进行多元样条映射,使复杂度降至O(C²/G);(2) 分组KAN激活:在各通道组内应用基于共享样条的映射,实现高效的令牌级非线性。在三个医学基准数据集(BUSI、GlaS和CVC)上的评估表明,GroupKAN以仅47.6%的参数量(3.02M vs 6.35M)实现了79.80%的平均交并比,较U-KAN提升1.11个百分点,并展现出更优的可解释性。 | | 从蜕变测试视角看代码语言模型的知识蒸馏:学生是否深度模仿了教师? | Md. Abdul Awal | PDF | 基于Transformer的代码语言模型已在众多软件分析任务中取得最优性能,但其实际部署仍受限于高计算成本、低推理速度和显著环境影响。为应对这些挑战,近期研究日益关注知识蒸馏技术,旨在将大型代码语言模型(教师模型)压缩为保持性能的小型模型(学生模型)。然而,当前基于准确率的评估仅能提供模型质量的表层认知,难以捕捉师生模型间行为保真度的深层差异,导致学生模型对教师模型预测行为及内部表征的深度模仿程度仍属未知领域。为填补这一空白,我们通过实证研究表明:学生模型往往未能深度模仿教师模型,在对抗性攻击下性能下降幅度最高可达285%,而这一现象无法被传统准确率评估所捕获。为此,我们提出MetaCompress——一种基于蜕变测试的框架,通过在一组保持行为的蜕变关系下系统比较师生模型的输出,从而评估行为保真度。我们使用三种知识蒸馏技术(Compressor、AVATAR和MORPH)获得的流行代码语言模型压缩版本,在两个广泛研究的任务上对MetaCompress进行评估。结果表明,MetaCompress最高可识别出学生模型中62%的行为差异,这凸显了在知识蒸馏流程中引入行为保真度评估的必要性,并确立了MetaCompress作为测试通过知识蒸馏衍生的代码压缩语言模型的实用框架。 | | 人工智能素养评估再审视:一种与现实职业相结合的任务导向方法 | Christopher Bogart | PDF | 随着人工智能系统在专业领域日益普及,亟需帮助非STEM背景的从业者掌握有效且负责任地使用这些工具的技能——即具备人工智能素养。然而当前主流的人工智能素养定义及评估往往偏重编程、数学与统计学等基础技术知识,却忽视了模型输出解读、工具选择及伦理问题识别等实践能力。这种评估取向导致对实际工作场景中人工智能素养的衡量存在明显缺口。我们提出一种面向工作任务的人工智能素养评估模型,该模型基于专业场景中有效运用AI工具所需的核心能力构建。我们详细阐述了在美国海军机器人培训项目中,如何开发新型人工智能素养评估工具及配套的形成性评估方案。该培训涵盖机器人技术与人工智能素养课程,并设置了包含实践任务的竞赛环节以及模拟职场AI应用场景的多选题测试。研究发现,作为应用型人工智能素养的衡量标准,竞赛中的情景任务表现优于既往研究采用或我们自行开发的测试工具。我们认为,在开展人工智能相关培训时,教育者应优先选用强调高度情境化实践技能的评估工具,而非抽象技术知识的考核,特别是在为非技术背景人员胜任AI融合岗位做准备时更应如此。 |