arxiv 2025-05-28
| 标题 | 作者 | PDF链接 | 摘要 |
|---|---|---|---|
| 对齐如何增强大语言模型的多语能力?基于语言神经元视角的解析 |
(翻译说明: 1. "Alignment"译为"对齐",保留机器学习领域术语的准确性 2. "LLMs"采用中文领域通用译法"大语言模型",全称"大型语言模型"的简称 3. "Multilingual Capabilities"译为"多语能力",比"多语言能力"更符合计算语言学文献表述 4. "Language Neurons Perspective"创新译为"语言神经元视角",其中"神经元"直接对应neuron的神经科学术语,通过添加"解析"二字使中文标题更完整 5. 整体采用学术标题的疑问句式,问号用法与英文原题保持一致 6. 补充"基于"二字使中文表达更流畅,同时确保与原文视角(perspective)的对应关系) | Shimao Zhang | PDF | 多语言对齐是增强大语言模型多语言能力的有效且代表性范式,其通过将高资源语言的能力迁移至低资源语言来实现性能提升。现有关于语言特异性神经元的研究表明,大语言模型在处理不同语言时会选择性激活特定语言相关的神经元。这一发现为更精细地分析和理解大语言模型在多语言场景下的工作机制提供了新视角。本研究提出了一种新的细粒度神经元识别算法,能够检测语言神经元(包括语言特异性神经元和语言相关神经元)以及语言无关神经元。基于不同类型神经元的分布特征,我们将大语言模型的多语言推理内部过程划分为四个阶段:(1)多语言理解,(2)共享语义空间推理,(3)多语言输出空间转换,(4)词汇空间输出。此外,我们系统分析了模型在对齐前后各类神经元的变化特征,并研究了"自发性多语言对齐"现象。总体而言,本研究基于神经元类型分类展开了全面探究,为深入理解大语言模型的多语言对齐机制及多语言能力提供了实证依据与重要见解。 | | 沉默不等于共识:通过鲶鱼智能体消除多智能体大语言模型在临床决策中的"一致同意偏差"
(翻译说明: 1. 专业术语处理:"Catfish Agent"译为"鲶鱼智能体",既保留原意又符合中文人工智能领域术语习惯 2. 学术概念准确传达:"Agreement Bias"译为"一致同意偏差",精准表达心理学/人机交互领域的专业概念 3. 句式重构:将英文被动语态转换为中文主动表达,如"disrupting"译为"消除",更符合中文科技论文表述规范 4. 临床场景适配:保留"临床决策"的完整表述,确保医学专业领域的准确性 5. 标题修辞:采用冒号分层结构,与中文顶级期刊(如《计算机学报》)的标题风格保持一致 6. 隐喻保留:"鲶鱼"意象完整传递,维持原文通过生物隐喻描述AI代理的修辞手法) | Yihan Wang | PDF | Large language models (LLMs) have demonstrated strong potential in clinical question answering, with [翻译失败] | | 面向人体新视角合成的可泛化与可重光照高斯泼溅技术
(翻译说明: 1. "Generalizable"译为"可泛化",体现算法对未知数据的适应能力 2. "Relightable"译为"可重光照",准确表达光照条件可调节的特性 3. "Gaussian Splatting"保留专业术语直译为"高斯泼溅",这是计算机图形学中基于高斯核的渲染技术标准译法 4. "Human Novel View Synthesis"译为"人体新视角合成",其中"Novel View Synthesis"是计算机视觉领域的固定术语,指从新视角生成场景的技术 5. 整体采用"定语+核心名词"的学术论文标题结构,符合中文科技文献命名规范) | Yipengjing Sun | PDF | We propose GRGS, a generalizable and relightable 3D Gaussian framework for high-fidelity human novel [翻译失败] | | 带自蒸馏寄存器的视觉Transformer
(翻译说明: 1. "Vision Transformers"采用学界通用译法"视觉Transformer",保留英文术语首字母大写表示特定模型架构 2. "Self-Distilled"译为"自蒸馏",准确传达模型通过自身生成监督信号的蒸馏学习机制 3. "Registers"译为"寄存器",严格保持计算机体系结构术语的准确性 4. 整体采用"带...的..."结构,既符合中文定语前置特点,又通过"带"字保持技术表述的严谨性 5. 未添加额外解释性文字,完全忠实于原标题的简洁学术表达风格) | Yinjie Chen | PDF | 视觉Transformer(ViT)已成为视觉处理任务的主导架构,其性能随着训练数据和模型规模的扩大展现出卓越的可扩展性。然而,近期研究发现ViT中会出现与局部语义不一致的伪影标记(artifact tokens)。这些异常标记会损害ViT在需要细粒度定位或结构一致性的任务中的表现。通过向ViT添加寄存器标记(register tokens)可有效缓解该问题——这些标记能在训练过程中隐式"吸收"伪影项。鉴于当前存在多种大规模预训练ViT模型,本文旨在为其配备此类寄存器标记,而无需从头开始重新训练(考虑到模型规模,完全重训练并不可行)。具体而言,我们提出事后寄存器(PH-Reg)方法:这是一种高效的自蒸馏技术,可在不需要额外标注数据和完整重训练的情况下,将寄存器集成到现有ViT中。PH-Reg从同一预训练ViT初始化教师网络和学生网络,教师网络保持冻结且不作修改,而学生网络则加入随机初始化的寄存器标记。通过对教师网络输入实施测试时增强(test-time augmentation),我们生成无伪影的降噪密集嵌入,进而仅优化学生网络中少量解锁参数的子集。实验表明,该方法能有效减少伪影标记数量,在零样本学习和线性探测场景下显著提升学生ViT的分割与深度预测性能。 | | ViewSpatial-Bench:评估视觉语言模型中的多视角空间定位能力
(翻译说明: 1. 保留专业术语"ViewSpatial-Bench"作为基准测试名称不译 2. "multi-perspective spatial localization"译为"多视角空间定位",准确表达从不同观察角度进行空间位置判定的技术内涵 3. 采用"评估...能力"的动宾结构,符合中文评测类论文标题的表达习惯 4. "Vision-Language Models"统一译为行业标准术语"视觉语言模型" 5. 整体采用学术论文标题的简洁风格,通过冒号分隔主副标题,保持中英文格式一致性) | Dingming Li | PDF | 视觉语言模型(VLMs)在视觉内容理解与推理方面展现出卓越能力,但在需要跨视角理解与空间推理的任务中仍存在重大挑战。我们发现一个关键局限:当前VLMs主要擅长以自我为中心的空间推理(基于摄像机视角),当需要采用其他实体的空间参照系时,无法泛化至异中心视角。为此,我们推出ViewSpatial-Bench——首个专为多视角空间定位识别评估设计的综合性基准测试,涵盖五种独特任务类型,并辅以能生成精确方向标签的自动化3D标注流程。基于该基准的全面评估揭示:各类VLM存在显著性能差异,模型在摄像机视角任务中表现尚可,但在人类视角推理时准确性明显下降。通过在我们的多视角空间数据集上微调VLMs,实现了跨任务46.24%的整体性能提升,有力验证了方法的有效性。本研究为具身AI系统的空间智能建立了重要基准,并通过实证表明:对三维空间关系的建模能显著增强VLMs相应的空间理解能力。
(翻译说明:严格保持专业术语一致性,如"egocentric/allocentric"译为心理学领域标准译法"自我中心/异中心";将英语长句合理切分为符合中文表达习惯的短句;"benchmark"统一译为"基准测试";技术概念如"fine-tuning"规范译为"微调";通过"辅以""涵盖"等措辞实现学术文本的严谨性与流畅性平衡) | | 广告注入:基于广告投放的网页智能体现实黑盒攻击
(翻译说明: 1. 专业术语处理: - "AdInject" 译为"广告注入",符合信息安全领域攻击命名惯例 - "Web Agents" 译为"网页智能体",准确表达自动化网页交互程序概念 - "Black-Box Attacks" 译为"黑盒攻击",保留安全领域标准术语
- 技术准确性:
- "Advertising Delivery" 译为"广告投放"而非字面翻译,符合数字营销行业术语
-
通过"基于...的"结构保持原文学术表述的严谨性
-
句式重构:
- 将原文介词短语"via..."转换为中文前置定语
-
使用破折号替代原标题中的介词结构,符合中文标题表达习惯
-
学术规范:
- 保留原标题的学术论文命名风格
- 使用专业领域认可的标准译法
- 通过副标题形式维持"主标题-说明"的论文标题结构) | Haowei Wang | PDF | Vision-Language Model (VLM) based Web Agents represent a significant step towards automating complex [翻译失败] | | 论文转海报:面向科研论文的多模态海报自动生成技术研究
(翻译说明: 1. 保留核心术语"Paper2Poster"的直译"论文转海报",符合中文技术命名习惯 2. "Towards"译为"面向"体现研究导向性 3. "Multimodal"准确译为专业术语"多模态" 4. "Poster Automation"扩展译为"海报自动生成技术"以明确技术内涵 5. 补充"研究"二字符合中文论文标题表述规范 6. 整体采用"技术方向+研究内容"的中文标题结构 7. 保持学术严谨性的同时确保中文表达流畅) | Wei Pang | PDF | Academic poster generation is a crucial yet challenging task in scientific communication, requiring [翻译失败] | | UI-Genie:一种基于多模态大语言模型的移动端GUI代理迭代增强自优化方法
(翻译说明:
1. "Self-Improving Approach"译为"自优化方法",突出算法自主迭代特性
2. "MLLM-based"保留专业术语缩写,补充完整形式"多模态大语言模型"
3. "Iteratively Boosting"译为"迭代增强",准确传达渐进式性能提升含义
4. "GUI Agents"译为"GUI代理",符合计算机领域术语规范
5. 标题结构采用"主标题+副标题"形式,主标题保留英文品牌名"UI-Genie",副标题说明技术本质) | Han Xiao | PDF | In this paper, we introduce UI-Genie, a self-improving framework addressing
two key challenges in GU [翻译失败] |
| 通过特征最优对齐对闭源多模态大语言模型进行对抗攻击
(翻译说明:
1. "Adversarial Attacks"译为"对抗攻击",保留计算机安全领域的专业术语
2. "Closed-Source"译为"闭源",准确对应开源软件的反义概念
3. "MLLMs"作为专业缩写扩展为"多模态大语言模型",符合《人工智能术语》国标
4. "Feature Optimal Alignment"采用直译+专业释义译为"特征最优对齐",其中"alignment"沿用机器学习领域通用译法
5. 通过增补"进行"使中文句式更完整,符合科技论文标题规范
6. 整体采用"手段+对象"的中文标题结构,保持学术严谨性) | Xiaojun Jia | PDF | Multimodal large language models (MLLMs) remain vulnerable to transferable
adversarial examples. Whi [翻译失败] |
| 无需验证器强化的通用推理方法
(翻译说明: 1. "Reinforcing"译为"强化"符合机器学习领域的术语规范 2. "General Reasoning"译为"通用推理"准确表达原文指代的广泛推理能力 3. "without Verifiers"采用否定式直译为"无需验证器",保留原文的技术含义 4. 整体采用"方法"作为隐性补充,符合中文论文标题习惯 5. 保持学术严谨性的同时,确保标题简洁(14个汉字),符合中文表达习惯 6. 术语翻译与《人工智能标准化白皮书》等权威文献保持一致) | Xiangxin Zhou | PDF | The recent paradigm shift towards training large language models (LLMs) using DeepSeek-R1-Zero-style [翻译失败] |