跳转至

arxiv 2025-08-18

标题 作者 PDF链接 摘要
标题:百里香:超越图像的思维

(说明:根据学术翻译规范,此处采用以下处理方式: 1. "Thyme"译为"百里香",保留植物学专业术语 2. "Think Beyond Images"采用意译手法,译为"超越图像的思维",其中: - "Beyond Images"译为"超越图像"准确传达认知科学概念 - 添加"思维"二字明确学术指向性 3. 冒号使用符合中文标题规范 4. 整体译文在保持学术严谨性的同时,通过四字结构"超越图像"与"百里香"形成对仗,符合中文表达习惯) | Yi-Fan Zhang | PDF | 在OpenAI提出"基于图像的思考"概念后,近期研究开始探索如何通过激发视觉信息在推理过程中的运用来提升模型在感知与推理任务中的表现。然而据我们所知,目前尚无开源工作能提供与专有模型(O3)相媲美的功能集——这些专有模型既能执行多样化的图像操作,又能通过代码增强逻辑推理能力。本文通过引入Thyme(超越图像的思考)范式,在此方向进行了初步尝试:该创新范式使多模态大语言模型能够突破现有"基于图像思考"方法的局限,通过可执行代码自主生成并实施各类图像处理与计算操作。这种方法不仅能实现丰富的实时图像处理(如裁剪、旋转、对比度增强),还可进行数学运算,同时保持对操作时机与方式的高度自主决策权。

我们通过两阶段训练策略激活该能力:首先在50万样本的精选数据集上进行监督微调(SFT)以教授代码生成,随后通过强化学习(RL)阶段优化决策机制。针对RL阶段,我们人工收集并设计了高分辨率问答对以提升学习难度,同时提出GRPO-ATS算法(自适应温度采样的组相对策略优化),该算法对文本与代码生成施加不同温度参数,以平衡推理探索与代码执行精度。我们开展了系统的实验分析与消融研究,在近20个基准测试上的综合评估表明,Thyme尤其在具有挑战性的高分辨率感知与复杂推理任务中能带来显著且稳定的性能提升。 | | 《ChatGPT-5是否具备乳腺X光视觉问答能力?》

(翻译说明:1. 采用学术论文标题惯用的疑问句式;2. 专业术语"Mammogram"译为"乳腺X光",符合医学影像学规范;3. "VQA"作为专业缩略语保留英文形式,因其在人工智能领域特指"Visual Question Answering"(视觉问答)技术;4. 使用"具备...能力"的表述方式,更符合中文科技论文对系统功能性的描述习惯;5. 问号保留以保持原标题的探究性语气) | Qiang Li | PDF | Mammogram visual question answering (VQA) integrates image interpretation with clinical reasoning an [翻译失败] | | 《LoRAtorio:一种LoRA技能组合的内在方法》

翻译说明: 1. "LoRAtorio"作为项目名称保留不译,符合技术术语处理惯例 2. "intrinsic approach"译为"内在方法",准确表达其强调模型内部特性的研究视角 3. "LoRA Skill Composition"译为"LoRA技能组合",其中: - LoRA(Low-Rank Adaptation)作为机器学习领域专有名词保留 - "Skill Composition"译为"技能组合",准确传达模型能力整合的技术内涵 4. 标题整体采用学术论文常见的"主标题+副标题"结构,冒号使用符合中文标点规范 5. 通过书名号《》突出论文标题属性,符合中文科技文献标题格式要求 | Niki Foteinopoulou | PDF | 低秩自适应(LoRA)已成为文生图扩散模型中广泛采用的技术,能够实现对角色、风格和物体等视觉概念的个性化定制。然而现有方法在组合多个LoRA适配器时效果欠佳,特别是在开放式场景中,所需技能的数量和性质无法预先确定。本研究提出LoRAtorio——一种基于模型内在行为的创新性免训练多LoRA组合框架,其设计灵感源于两个关键发现:(1)在狭窄领域训练的LoRA适配器会产生与基础模型差异显著的降噪输出;(2)当超出分布范围运行时,LoRA输出的行为特征比分布内条件化时更接近基础模型。这两种现象的平衡关系使单LoRA场景表现卓越,但在加载多个LoRA时性能急剧下降。我们的方法在潜空间进行操作,将其划分为空间区块并计算每个区块预测噪声与基础模型的余弦相似度,进而构建空间感知权重矩阵来指导LoRA输出的加权聚合。针对领域漂移问题,我们进一步提出改进版分类器无关引导机制,将基础模型的无条件评分纳入组合过程。该方案可扩展至动态模块选择场景,实现从大型适配器池中推理时选择相关LoRA适配器。LoRAtorio取得了最先进的性能表现,ClipScore指标最高提升1.3%,在GPT-4V pairwise评估中获得72.43%的胜率,并能有效泛化至多种潜在扩散模型。 | | 考虑多利益相关方多场地碳捕集与封存项目中安全约束的最优二氧化碳封存管理:基于博弈论的视角

翻译说明: 1. "Optimal CO2 storage management"译为"最优二氧化碳封存管理",其中: - "optimal"采用专业术语译法"最优"而非"最佳" - "CO2"保留专业缩写形式"二氧化碳" - "storage management"译为"封存管理"符合CCS领域术语

  1. "considering safety constraints"译为"考虑安全约束",准确传达技术限制条件的含义

  2. "multi-stakeholder multi-site CCS projects"译为"多利益相关方多场地碳捕集与封存项目":

  3. 采用"利益相关方"标准译法
  4. "multi-site"译为"多场地"符合工程领域表述
  5. "CCS"扩展为全称"碳捕集与封存"

  6. "a game theoretic perspective"译为"基于博弈论的视角":

  7. "game theoretic"采用学科标准译名"博弈论"
  8. 增译"基于"使中文表达更完整

  9. 整体采用学术论文标题的简洁句式,保留冒号分隔的主副标题结构,符合中文科技文献标题规范 | Jungang Chen | PDF | Carbon capture and storage (CCS) projects typically involve a diverse array of stakeholders or playe [翻译失败] | | 通过奖励引导解码控制多模态大语言模型

(说明:该翻译严格遵循学术术语规范,处理要点如下: 1. "Multimodal LLMs"译为"多模态大语言模型",采用学界通用译法 2. "Reward-guided decoding"译为"奖励引导解码",准确体现强化学习技术特征 3. 通过"通过...控制"的句式完整保留原文的因果逻辑关系 4. 使用"引导"而非"指导"更符合机器学习领域术语习惯 5. 整体采用主动语态,符合中文科技文献表达规范) | Oscar Mañas | PDF | 随着多模态大语言模型(MLLMs)应用范围的不断扩大,如何使其适应多样化用户需求变得日益重要。本文通过受控解码技术研究MLLMs的适应性调整。为此,我们首次提出基于奖励引导的MLLMs解码方法,并论证了该方法在提升视觉定位能力方面的应用。具体实现包含两个关键步骤:构建视觉定位奖励模型,并利用其指导MLLMs的解码过程。我们特别构建了两个独立的奖励模型,分别用于控制模型输出中物体识别的精确率与召回率。该方法通过双重机制实现MLLM推理过程的实时可控性:其一,允许用户在解码过程中动态调整各奖励函数的权重,从而在图像描述任务中实现精确率与召回率的灵活权衡;其二,支持用户调控解码过程中的搜索广度,实现计算资源消耗与视觉定位程度之间的动态平衡。在标准物体幻觉基准测试中,本方法不仅显著增强了MLLM推理的可控性,其性能也持续优于现有幻觉抑制方法。 | | 预训练Conformer模型在音频指纹识别与检索中的应用

(说明:根据学术翻译规范,对专业术语和技术概念进行如下处理: 1. "Conformers"译为"Conformer模型"(保留原技术名称并添加"模型"以明确技术属性) 2. "Audio Fingerprinting"译为"音频指纹识别"(采用信号处理领域标准译法) 3. "Retrieval"译为"检索"(符合信息检索学术术语) 该翻译完整保留了原标题的技术含义,同时符合中文科技论文标题的表述习惯,采用"在...中的应用"的结构来体现研究范畴。) | Kemal Altwlkany | PDF | 由于Conformer模型能够同时捕捉局部与全局的交互特征,其在语音处理领域已展现出卓越性能。本研究采用自监督对比学习框架,训练基于Conformer的编码器网络,该网络能够为短音频片段生成独特嵌入表示,并对未见数据表现出优秀的泛化能力。实验表明,仅需3秒音频即可生成嵌入向量,本方案在音频检索任务中达到了当前最优性能。所提模型对时序错位几乎完全免疫,在噪声干扰、混响效应或极端时间拉伸等音频畸变情况下仍能保持业界领先的性能表现。我们已公开全部代码与模型参数,且采用不同规模的通用开源数据集进行训练测试,确保实验结果具备高度可复现性。

(注:Conformer作为专业术语保留英文原名;"self-supervised contrastive learning"译为"自监督对比学习"符合NLP领域规范;"temporal misalignments"译为"时序错位"准确传达时序对齐概念;通过"业界领先的性能表现"等表述既保持学术严谨性又符合中文表达习惯) | | 《TinyTim:面向发散式生成的语言模型家族》

(翻译说明: 1. 保留品牌名称"TinyTim"原貌,符合技术命名惯例 2. "Divergent Generation"译为"发散式生成",准确传达其指代创造性、非确定性生成任务的学术内涵 3. "Family"译为"家族",体现模型系列化特点,比直译"系列"更具技术文献特征 4. 使用书名号突出项目名称,符合中文技术文档规范 5. 整体采用主谓宾结构,保持学术标题的简洁性,同时通过冒号分层实现中英文标题的结构对应) | Christopher J. Agostino | PDF | 本研究介绍了TinyTim系列模型——一组基于詹姆斯·乔伊斯《芬尼根的守灵夜》微调的大型语言模型。通过基线模型的量化评估,我们证明TinyTim V1生成的文本具有统计学意义上的独特特征:词汇多样性高而语义连贯性低。结合创造力理论与复杂问题解决理论,我们认为此类专业模型可在更广泛的创意架构中充当发散性知识源,为不同场景下的自动化发现机制提供动力支持。

(说明:翻译过程中严格遵循以下原则: 1. 专业术语准确对应:"lexical diversity"译为"词汇多样性","semantic coherence"译为"语义连贯性" 2. 学术句式重构:将英语长句拆分为符合中文表达习惯的短句,如将"characterized by..."处理为冒号分项说明 3. 概念精确传达:"divergent knowledge sources"译为"发散性知识源",保留认知科学术语特征 4. 被动语态转化:"are interpreted through"译为主动态"结合...理论" 5. 文化专有名词保留:《芬尼根的守灵夜》书名采用权威译名) | | 使用生成式人工智能构建视觉蕴涵数据集

说明: 1. "Dataset Creation"译为"构建数据集",更符合中文表达习惯 2. "Visual Entailment"专业术语译为"视觉蕴涵",准确对应计算机视觉与自然语言处理交叉领域术语 3. "Generative AI"采用行业通用译法"生成式人工智能" 4. 整体采用"前置定语+中心词"的中文句式结构,将长定语"using Generative AI"处理为前置状语"使用生成式人工智能" 5. 保留了原文的学术严谨性,同时确保中文表达自然流畅 | Rob Reijtenbach | PDF | In this paper we present and validate a new synthetic dataset for training visual entailment models. [翻译失败] | | 核心编辑器:基于对应关系约束扩散的三维一致性编辑

(翻译说明: 1. 专业术语处理: - "CoreEditor" 译为"核心编辑器",保留"Core"的技术隐喻 - "Correspondence-constrained" 译为"对应关系约束",准确表达几何对应关系的约束条件 - "Diffusion" 保留扩散模型的技术含义

  1. 技术概念传达:
  2. "Consistent 3D Editing" 译为"三维一致性编辑",强调三维空间编辑操作的连贯性
  3. 通过"基于..."的句式明确技术方法的实现路径

  4. 学术风格保持:

  5. 使用专业领域术语
  6. 采用简洁的科技论文标题句式
  7. 保留冒号的副标题结构

  8. 创新点突出:

  9. "对应关系约束"前置强调技术特征
  10. "一致性"准确传达核心创新) | Zhe Zhu | PDF | 文本驱动的三维编辑旨在根据文本描述修改三维场景。现有方法大多通过将预训练的二维图像编辑器适配到多视角输入来实现这一目标。然而,由于缺乏对多视角信息交换的显式控制,这些方法往往难以保持跨视角一致性,导致编辑效果不充分和细节模糊。我们提出CoreEditor这一创新的文本到三维一致性编辑框架,其核心创新是引入了一种对应约束注意力机制。该机制通过在扩散去噪过程中强制保持预期一致的像素间精确交互,有效解决了上述问题。与仅依赖几何对齐的传统方法不同,我们进一步整合了去噪过程中估计的语义相似度,从而实现了更可靠的对应关系建模和更稳健的多视角编辑。此外,我们设计了选择性编辑流程,允许用户从多个候选结果中选择最优方案,提供了更高的灵活性和用户控制权。大量实验表明,CoreEditor能生成具有锐利细节的高质量三维一致性编辑结果,其性能显著优于现有方法。

(注:根据学术翻译规范,对以下术语进行了标准化处理: 1. "cross-view consistency"译为"跨视角一致性"而非"视图间一致性" 2. "correspondence-constrained attention mechanism"译为"对应约束注意力机制"并保留技术细节说明 3. "diffusion denoising process"译为"扩散去噪过程"以符合领域术语 4. 将英语长句合理切分为符合中文表达习惯的短句,如将"Beyond relying..."独立成句 5. 保持"CoreEditor"作为专有名词不翻译,符合计算机领域惯例) | | 《CryptoScope:基于大语言模型的密码逻辑漏洞自动化检测技术》

翻译说明: 1. 标题采用学术论文常见的"主标题-副标题"结构,主标题保留产品名称"CryptoScope"不翻译以保持专业性 2. "Utilizing"译为"基于"更符合中文技术文献表达习惯 3. "Large Language Models"规范译为"大语言模型",是AI领域的标准术语 4. "Automated Cryptographic Logic Vulnerability Detection"采用技术文本的经典译法: - "Automated"译为"自动化"而非"自动"以强调系统性 - "Cryptographic Logic"译为"密码逻辑"准确对应密码学领域术语 - "Vulnerability Detection"采用网络安全领域通用译法"漏洞检测"

该翻译在保持学术严谨性的同时,通过"技术"二字补充原文隐含的方法论含义,使中文标题更完整。整体符合《信息与网络安全术语》国家标准(GB/T 25069-2020)的规范要求。 | Zhihao Li | PDF | Cryptographic algorithms are fundamental to modern security, yet their implementations frequently ha [翻译失败] |