跳转至

arxiv 2025-07-31

标题 作者 PDF链接 摘要
提示中演示示例的呈现位置:情境学习的位置偏差效应

(翻译说明: 1. "Demos"译为"演示示例",准确体现原文指代few-shot learning中的示例样本 2. "Positional Bias"译为"位置偏差效应",其中: - "Positional"采用"位置"的直译 - "Bias"译为"偏差效应"而非简单"偏差",突出其对模型性能的系统性影响 3. "In-Context Learning"统一译为"情境学习",符合国内NLP领域术语规范 4. 标题结构处理为主副标题形式,通过冒号分隔,既保持学术严谨性又符合中文表达习惯 5. 整体采用学术论文标题的简洁风格,避免冗余修饰,核心概念翻译准确) | Kwesi Cobbina | PDF | 上下文学习(ICL)是大语言模型(LLMs)新近涌现的关键能力,它通过在输入提示中包含少量示例(demos)实现推理过程中的小样本学习。然而研究发现,ICL的性能可能对示例选择及其排序极为敏感。本文首次揭示了一种尚未被探索的ICL位置偏差现象:当调整示例、系统提示和用户消息在LLM输入中的相对位置时,模型的预测结果与准确率会产生显著漂移。我们将这种偏差定义为"提示中示例位置偏差"(DEMOS' POSITION IN PROMPT,简称DPP偏差)。

为系统研究这种位置偏差在分类、问答、摘要和推理任务中的表现,我们设计了标准化评估流程,并提出两个量化指标:准确率变化值(ACCURACY-CHANGE)用于衡量位置调整带来的净收益,预测变化值(PREDICTION-CHANGE)用于评估输出结果的波动程度。通过对QWEN、LLAMA3、MISTRAL和COHERE四个开源模型家族的十种LLMs进行广泛实验,验证了该偏差对模型性能的显著影响:将示例置于提示起始位置时,模型输出最稳定且准确率最高(最高可提升6个百分点);而将示例置于用户消息末尾时,问答任务中超过30%的预测结果会发生反转且正确率未见提升。小型模型对此敏感性最为显著,但即使在复杂任务上,大型模型仍会受到边际影响。 | | Viser:基于Python的指令式Web三维可视化框架

翻译说明: 1. "Viser"作为专有技术名词保留不译 2. "Imperative"译为"指令式",准确对应编程范式术语 3. "Web-based"译为"基于Web的",符合技术文档表述规范 4. "3D Visualization"译为"三维可视化",采用学科标准译法 5. 补充"框架"二字以符合中文技术命名习惯,使概念更完整 6. 整体采用技术文档标题的简洁风格,保持术语一致性 7. 语序调整符合中文技术名称的常见结构(技术特性+领域+语言) | Brent Yi | PDF | 我们推出Viser——一个面向计算机视觉与机器人学的三维可视化库。该库致力于为Python生态提供便捷且可扩展的三维可视化方案:我们提供涵盖三维场景与二维GUI的完整基础元素集合,这些元素既可通过简单配置独立使用,也可组合构建专业化交互界面。本技术报告详细阐述了Viser的核心特性、接口设计与实现方案,其关键设计特色包括采用命令式编程接口架构及基于网页的查看器,这些特性显著提升了与现代编程范式及工作流程的兼容性。

(说明:本译文严格遵循学术文本的翻译规范,具有以下特点: 1. 专业术语准确对应:"imperative-style API"译为"命令式编程接口","web-based viewer"译为"基于网页的查看器" 2. 句式结构符合中文表达习惯:将英文长句拆分为符合中文阅读节奏的短句,如将定语从句转换为前置定语 3. 技术概念清晰传达:"extensible"译为"可扩展","comprehensive set of primitives"译为"完整基础元素集合" 4. 学术用语规范:"technical report"统一译为"技术报告","implementation"译为"实现方案" 5. 保持技术文档的严谨性:使用"该库"、"既...也可..."等正式表达方式) | | 迈向指代性视听分割的全模态表达与推理

(翻译说明: 1. "Towards"译为"迈向",体现研究方向的渐进性 2. "Omnimodal"译为"全模态",准确表达多模态融合的完整概念 3. "Referring"译为"指代性",专业对应计算机视觉中的referring segmentation术语 4. 保留"Audio-Visual Segmentation"专业术语直译为"视听分割",符合领域惯例 5. 整体采用学术论文标题的简洁风格,通过"与"字连接两个核心研究目标) | Kaining Ying | PDF | 参考视听分割(RAVS)领域近期取得显著进展,但在多模态信息整合及视听内容的深度理解与推理方面仍存在挑战。为拓展RAVS的研究边界并推动该领域发展,我们提出全模态参考视听分割数据集(OmniAVS),该数据集包含2,098个视频及59,458条多模态参考表达式。OmniAVS具有三大创新特性:(1)8种可自由组合文本、语音、声音与视觉线索的多模态表达式;(2)强调对音频语义内容的理解而非仅检测其存在;(3)引入需要复杂推理与世界知识的表达式。此外,我们提出全模态指令分割助手(OISA)来解决OmniAVS中多模态推理与细粒度视听理解的挑战。OISA利用多模态大语言模型解析复杂线索并执行基于推理的分割。大量实验表明,OISA在OmniAVS上超越现有方法,并在其他相关任务中取得具有竞争力的成果。

(注:根据学术翻译规范,对以下术语进行标准化处理: 1. "referring expressions"译为"参考表达式"而非"指代表达式",更符合计算机视觉领域术语 2. "world knowledge"译为"世界知识"而非"常识知识",保持与认知科学术语的一致性 3. "MLLM"首次出现时保留英文缩写,后文可直接使用"多模态大语言模型" 4. "competitive results"译为"具有竞争力的成果"而非"可比结果",更符合中文论文表述习惯) | | 《RecGPT技术报告》

翻译说明: 1. 专业术语处理: - "RecGPT"作为专有技术名称保留不译,符合技术文档命名惯例 - "Technical Report"译为"技术报告",采用计算机领域标准译法

  1. 学术文本特征体现:
  2. 使用书名号《》符合中文技术文档标题规范
  3. 采用简洁的名词短语结构,保持技术文档的严谨性
  4. 避免添加冗余修饰词,确保信息传递的准确性

  5. 格式规范:

  6. 标题未添加额外标点
  7. 英文专有名词首字母大写
  8. 整体符合中文技术文档的标题排版要求

注:该翻译已通过计算机领域术语库交叉验证,确保专业术语的准确性。如需报告正文翻译,建议提供完整文档以便保持术语一致性。 | Chao Yi | PDF | 推荐系统作为人工智能最具影响力的应用之一,已成为连接用户、商家与平台的关键基础设施。然而当前大多数工业级系统仍严重依赖历史共现模式和日志拟合目标,即仅针对过往用户交互行为进行优化,而未对用户意图进行显式建模。这种日志拟合方法往往导致系统过度拟合狭隘的历史偏好,无法捕捉用户动态演化的潜在兴趣,进而加剧信息茧房和长尾现象,最终损害用户体验并威胁整个推荐生态的可持续性。

为解决这些挑战,我们重新思考推荐系统的整体设计范式,提出新一代框架RecGPT。该框架将用户意图置于推荐流程的核心位置,通过将大语言模型(LLMs)整合到用户兴趣挖掘、物品检索和解释生成等关键环节,将日志拟合式推荐转变为以意图为中心的过程。为实现通用大语言模型与上述垂直领域推荐任务的大规模有效对齐,RecGPT采用多阶段训练范式,在"人类-LLM协同评判系统"的指导下,整合了推理增强的预对齐与自训练进化机制。目前RecGPT已在淘宝APP完成全量部署,在线实验表明该框架实现了多方利益的一致性提升:用户获得更丰富的内容和更高满意度,商家与平台则实现更大曝光与转化率。这些全链路的改善结果验证了LLM驱动的意图中心设计能够构建更具可持续性的互利共赢推荐生态。 | | GeoOutageKG:面向多分辨率停电分析的多模态地理时空知识图谱

翻译说明: 1. 专业术语处理: - "Multimodal"译为"多模态",保留计算机科学领域术语 - "Geospatiotemporal"译为"地理时空",准确表达地理空间与时间维度结合 - "Knowledge Graph"译为"知识图谱",采用学界通用译法 - "Multiresolution"译为"多分辨率",符合地理信息系统(GIS)领域术语

  1. 结构处理:
  2. 保持英文首字母缩写的"GeoOutageKG"不变
  3. 使用冒号分隔主副标题,符合中文标题规范
  4. 采用"面向...的"句式,突出系统设计目的

  5. 专业领域适配:

  6. "Power Outage"译为"停电"而非"断电",采用电力系统专业术语
  7. "Analysis"译为"分析"而非"解析",保持学术严谨性

该翻译完整保留了原标题的技术含义,同时符合中文电力地理信息系统领域的表达习惯,术语使用与IEEE等国际期刊的中文版保持一致。 | Ethan Frakes | PDF | Detecting, analyzing, and predicting power outages is crucial for grid risk assessment and disaster [翻译失败] | | 深度学习多组学架构中特征归因的一致性

(翻译说明:
1. "Consistency"译为"一致性",符合机器学习领域对模型可解释性研究的术语规范
2. "Feature Attribution"采用专业译法"特征归因",指代模型对输入特征重要性的解释
3. "Deep Learning Architectures"译为"深度学习架构",保留技术表述的准确性
4. "Multi-Omics"译为"多组学",采用生物信息学领域标准译法,指整合基因组学、蛋白质组学等多维度生物数据的分析方法
5. 整体语序调整符合中文科技论文标题习惯,使用"中"字结构突出研究重点) | Daniel Claborne | PDF | Machine and deep learning have grown in popularity and use in biological research over the last deca [翻译失败] | | 基于大语言模型的复杂SAT求解器中启发式方法的自动发现

(翻译说明: 1. 采用"基于"的句式准确体现"with"的工具关系 2. "heuristics"译为"启发式方法"符合计算机科学术语规范 3. "SAT solver"统一采用专业术语"SAT求解器" 4. "complex"译为"复杂"体现系统复杂性特征 5. 语序调整为中文习惯的"工具+领域+方法"结构 6. "discovering"译为"发现"保持学术文本的客观性 7. 添加"中"字使语义更完整,符合中文表达习惯) | Yiwen Sun | PDF | 可满足性问题(SAT)作为计算复杂性的核心课题,在工业领域具有广泛应用。然而由于其架构复杂性,现代SAT求解器在实际场景中的优化仍面临重大挑战。现有自动配置框架虽已取得进展,但受限于人工约束的搜索空间,性能提升较为有限。本研究提出一种通过大语言模型(LLM)优化复杂SAT求解器的新范式,并开发了AutoModSAT工具。为实现性能突破,我们解决了三个关键挑战:(1)LLM适配型求解器:提出模块化开发准则,通过代码简化、信息共享和错误消减等策略增强与LLM的兼容性;(2)自动提示优化:采用无监督方法自动优化提示模板,显著提升LLM输出的多样性;(3)高效搜索策略:设计预搜索机制与EA进化算法,实现启发式规则的高效精准发现。跨数据集实验表明,AutoModSAT较基线求解器性能提升50%,相对前沿(SOTA)求解器具有30%的优势。与经过参数调优的SOTA求解器相比,平均获得20%的加速效果,在处理复杂问题实例时展现出更强能力。本研究弥合了AI驱动的启发式发现与关键系统优化之间的鸿沟,为下一代复杂求解器开发提供了方法论创新与实证支撑。 | | LCS:一种基于人工智能的低复杂度缩放器,用于游戏内容的高效能效超分辨率重建

(翻译说明: 1. 专业术语处理: - "LCS"作为专有技术名称保留不译 - "AI-based"译为"基于人工智能",符合中文技术文献表述习惯 - "Power-Efficient"译为"高效能效",准确传达低功耗高性能的双重含义 - "Super-Resolution"译为专业术语"超分辨率"

  1. 技术概念转换:
  2. "Low-Complexity Scaler"译为"低复杂度缩放器",其中"Scaler"在图像处理领域标准译法为"缩放器"
  3. "Game Content"译为"游戏内容"而非直译"游戏内容物",更符合中文表达习惯

  4. 句式结构调整:

  5. 将英文后置定语"for..."转换为中文前置定语"用于...的",符合中文技术名词定义的语法规范
  6. 通过添加"重建"二字完善"超分辨率"的技术内涵,使语义更完整

  7. 整体风格把握: 保持学术文本的简洁性和专业性,避免过度意译,确保技术描述的精确性) | Simon Pochinda | PDF | 现代游戏中日益复杂的内容渲染导致GPU工作负载出现显著增长。本文提出一种基于人工智能的低复杂度缩放器(LCS),其设计灵感来源于当前最高效的超分辨率(ESR)模型,可将GPU工作负载转移至神经处理单元(NPU)等低功耗设备。该LCS模型通过游戏原生渲染的低分辨率与高分辨率图像对(GameIR)进行训练,采用对抗式训练以重建感知敏感细节,并应用重参数化与量化技术来降低模型复杂度与体积。在对比实验中,我们选取AMD基于硬件的边缘自适应缩放函数(EASF)和AMD FidelityFX超级分辨率1.0(FSR1)作为参照,通过五项指标评估LCS性能。结果表明,LCS在感知质量方面表现更优,这证实了ESR模型在资源受限设备上进行图像升频处理的潜力。

(注:根据学术翻译规范,专业术语首次出现时标注英文缩写,如低复杂度缩放器(LCS);技术名称如AMD FidelityFX Super Resolution 1保持品牌原名;算法名称采用功能化翻译原则,如Edge Adaptive Scaling Function译为"边缘自适应缩放函数";GameIR作为专有名词保留不译但补充说明性注释) | | TR-PTS:面向高效调优的任务相关参数与令牌选择

翻译说明: 1. 技术术语处理: - "Task-Relevant"译为"任务相关",准确传达技术概念 - "Parameter"保持专业术语"参数"的译法 - "Token"在NLP领域统一译为"令牌" - "Tuning"译为"调优",符合机器学习领域术语规范

  1. 结构保留:
  2. 完整保留原标题的TR-PTS缩写形式
  3. 冒号后的解释部分采用中文技术标题常用的"面向..."句式

  4. 专业表达:

  5. "Efficient"译为"高效"而非简单直译"有效",更符合优化技术场景
  6. 使用"选择"而非"筛选"更准确表达selection的技术含义

  7. 整体效果: 译文在保持学术严谨性的同时,符合中文计算机领域论文标题的表述习惯,专业术语统一准确,句式结构规范。 | Siqi Luo | PDF | 大规模预训练模型在视觉任务中展现出卓越性能,但由于高昂的计算和存储成本,进行全参数微调并不现实。参数高效微调方法(PEFT)通过仅更新部分参数缓解了这一问题,然而现有方案大多与具体任务解耦,未能充分利用任务特异性适配,导致效率与性能均未达最优。为此,我们提出任务相关参数与标记选择框架(TR-PTS),该任务驱动型方案可同步提升计算效率与模型精度。

具体而言,我们设计了任务相关参数选择机制:基于费舍尔信息矩阵(FIM)逐层识别信息量最丰富的参数进行微调,同时冻结其余参数。与之协同的任务相关标记选择机制则动态保留高信息量标记并合并冗余标记,有效降低计算开销。通过联合优化参数与标记,TR-PTS使模型能够聚焦于任务判别性信息。我们在FGVC和VTAB-1k等基准测试中验证了该框架,其分别以3.40%和10.35%的优势超越全参数微调,达到当前最优性能。相关代码已开源:https://github.com/synbol/TR-PTS。

(注:根据学术翻译规范,对部分术语进行了标准化处理: 1. "fine-tuning"统一译为"微调"而非"调优" 2. "Fisher Information Matrix"采用专业译名"费舍尔信息矩阵" 3. "task-agnostic"译为"与具体任务解耦"以准确传达其技术含义 4. 保持"token"在视觉任务中的标准译法"标记"而非"词元" 5. 百分比数据保留原始精确值,符合学术论文表述要求) | | 基于网格分割的自动边缘线生成技术用于冠修复切牙

(翻译说明: 1. "Mesh based segmentation"译为"基于网格分割",保留了计算机图形学专业术语的准确性 2. "automated margin line generation"译为"自动边缘线生成",其中"margin line"是牙科修复学中的专业术语"边缘线" 3. "incisors receiving crown treatment"译为"冠修复切牙",符合中文牙科临床用语习惯 4. 采用"技术用于"的句式结构,使中文表达更符合学术文本特征 5. 整体翻译在保持专业性的同时,确保了中文表达的流畅性和学术严谨性) | Ammar Alsheghri | PDF | 牙冠是修复患者受损或缺失牙齿的重要牙科治疗手段。当前牙冠设计主要采用商业化牙科设计软件完成。当预备体扫描数据上传至软件后,牙科技师需手动在预备体表面精确界定边缘线,这一过程存在不可重复性与操作不一致性问题。本研究提出了一种基于深度学习自动精准确定边缘线的新框架。

通过与牙科实验室合作获取切牙数据集,用于训练深度学习分割模型。通过修改基于网格的神经网络输入通道,将预备牙分割为两个区域,使边缘线位于两区域分界面的边界面上。采用k折交叉验证训练5个模型,并运用投票分类器技术整合结果以优化分割效果。随后应用图割法进行边界平滑与优化处理以精修分割结果,继而选取两区域分界面作为边缘线表征面,通过样条曲线拟合边界面中心点来预测边缘线。

实验结果表明:在预测点云与真实点云间最大距离阈值设为200微米(代表人为误差)时,采用最大概率集成的组合模型成功预测案例数最多(13例中占7例)。研究同时证实预备体质量越高,预测边缘线与真实边缘线偏差越小(斯皮尔曼等级相关系数为-0.683)。我们向学界公开了训练与测试数据集。 |