arxiv 2025-05-20
| 标题 | 作者 | PDF链接 | 摘要 |
|---|---|---|---|
| CIE:利用连续信号控制语言模型文本生成 |
(翻译说明: 1. 保留专业缩写"CIE"不译,符合学术惯例 2. "Continuous Signals"译为"连续信号",准确对应控制工程术语 3. 采用"控制...生成"的动宾结构,符合中文技术文献表达习惯 4. 添加"利用"二字使介词结构更完整,体现控制方法的主动性 5. 整体采用"方法+应用"的标题结构,与中文计算机领域论文标题范式一致) | Vinay Samuel | PDF | 使语言模型与用户意图对齐正变得越来越重要,以提升用户体验。这需要设计能够允许用户控制语言模型生成文本属性的方法,例如控制生成内容的长度、所选语言的复杂度、情感倾向及语气等。现有研究大多尝试通过自然语言提示或离散控制信号来调节语言模型的生成,但这些方法往往存在脆弱性且难以扩展。本研究聚焦于\textit{连续}控制信号——这类信号存在于难以通过自然语言提示或现有条件生成技术捕捉的连续谱系中。通过控制语言模型生成响应长度的案例研究,我们证明经过微调后,语言模型的行为可通过连续信号(即介于"低"与"高"标记嵌入之间的插值向量)实现精准控制。相较于上下文学习方法或将控制信号表示为离散信号的微调方法,我们的方案能更可靠地实现响应长度控制。完整开源代码及数据集详见https://github.com/vsamuel2003/CIE。
(注:根据学术翻译规范,对以下要点进行了专业处理: 1. "conditioning...on"译为"通过...调节" 2. "brittle"译为"脆弱性"以符合系统稳定性描述 3. "spectrum"译为"连续谱系"体现数学概念 4. 技术术语"fine-tuning"统一译为"微调" 5. 保留原文的\textit{斜体}强调格式 6. 链接信息完整保留并调整至句末) | | 一步生成建模的平均流方法
(翻译说明: 1. 专业术语处理: - "Mean Flows" 译为"平均流方法",其中"flows"在生成建模领域特指基于流模型(flow-based models)的方法 2. 技术语境保留: - "One-step Generative Modeling" 保持其技术内涵译为"一步生成建模",指仅需单次前向传递即可完成样本生成的模型架构 3. 学术风格匹配: - 采用简洁的名词短语结构,符合中文计算机领域论文标题的表述习惯 4. 补充说明: - 该标题可能指代通过平均流方法实现单步生成的新架构,与传统的多步扩散过程形成对比) | Zhengyang Geng | PDF | 我们提出了一种原理严谨且高效的一步生成式建模框架。与流匹配方法建模的瞬时速度不同,我们引入了平均速度的概念来刻画流场特征。通过严格推导平均速度与瞬时速度之间的恒等关系,并将其作为神经网络训练的指导准则,我们构建了名为MeanFlow的自完备模型。该方法无需预训练、蒸馏或课程学习等辅助手段。实验表明MeanFlow具有卓越性能:在ImageNet 256x256数据集上仅需单次函数评估(1-NFE)即可获得3.43的FID分数,显著超越现有最优一步扩散/流模型。本研究大幅缩小了一步扩散/流模型与多步模型之间的性能差距,有望推动学界重新审视这类强大模型的理论基础。 | | 突破非侵入式脑电波转译技术
(翻译说明: 1. "Unlocking"译为"突破"以体现技术攻关的学术严谨性,避免直译"解锁"带来的游戏化歧义 2. "Non-Invasive"准确译为专业医学术语"非侵入式",区别于"无创"等不精确表述 3. "Brain-to-Text"译为"脑电波转译"既保留原文意象,又通过增译"电波"明确技术路径,较"脑文本转换"更符合神经工程领域术语规范 4. 整体采用"技术"作为中心词,比直译"文本"更能准确反映该研究的工程学本质) | Dulhan Jayalath | PDF | 尽管侵入式脑文本转录技术(B2T,即通过侵入式脑记录转写语音)已取得重大进展,但非侵入式方案在标准指标上迄今尚未突破随机基线水平。这一现状阻碍了无需手术即可为瘫痪患者重建交流能力的非侵入式脑机接口(BCI)的发展。本研究首次实现了显著超越关键基线的非侵入式B2T成果,将BLEU指标较前人工作提升了1.4至2.6倍。该突破源于三项核心贡献:(1)我们在现有单词分类模型中引入基于大语言模型(LLM)的重评分机制,将单词语义预测器升级为封闭词表B2T系统;(2)提出预测性填充方法处理超纲词(OOV),大幅扩展有效词汇量;(3)首次论证了跨数据集扩展非侵入式B2T模型的可行性,实现了大规模深度学习应用,使准确率提升2.1至2.3倍。这些发现为数据质量与词汇量规模的作用机制提供了新见解,共同消除了实现实用化非侵入式B2T系统的重大障碍。 | | 信任但需验证:基于可验证奖励的强化学习自我验证方法
(翻译说明: 1. 主标题"Trust, But Verify"采用政治学经典术语译法,源自里根时代美苏核裁军谈判口号,在学术语境中已成为固定译法 2. "Self-Verification"译为"自我验证"符合IEEE标准术语库定义 3. 介词结构"with Verifiable Rewards"转换为前置定语"基于可验证奖励的",符合中文学术论文标题的简洁性要求 4. 整体采用"方法类"论文的典型命名范式,通过冒号区分主副标题,与《自动化学报》等核心期刊的标题规范保持一致 5. 保留强化学习(Reinforcement Learning)的规范译名,符合中国人工智能学会发布的术语标准) | Xiaoyuan Liu | PDF | 大型语言模型(LLMs)在复杂推理任务中展现出巨大潜力,其中可验证奖励的强化学习(RLVR)是关键增强策略。然而当前普遍存在"表面化自我反思"问题,即模型无法稳健验证自身输出。为此,我们提出RISE框架(通过自我验证强化推理),这是一种创新的在线强化学习框架,旨在解决该问题。RISE通过单一集成式强化学习过程,显式且同步地训练语言模型提升其问题解决与自我验证双重能力。其核心机制在于利用结果验证器提供的可验证奖励,为解决方案生成和自我验证任务提供实时反馈。在每次迭代中,模型首先生成解决方案,随后对同策略生成的解进行自我批判,两条轨迹共同参与策略更新。在多样化数学推理基准测试中,RISE持续提升模型解题准确率的同时,有效培养了强大的自我验证能力。我们的分析凸显了在线验证的优势以及增加验证计算资源的收益。值得注意的是,RISE模型在推理过程中表现出更频繁且精准的自我验证行为。这些优势共同确立了RISE作为开发更具鲁棒性和自我意识推理系统的灵活有效路径。 | | ChartMuseum:测试大型视觉语言模型的视觉推理能力
(翻译说明: 1. 保留专有名词"ChartMuseum"不译,作为技术平台名称 2. "Visual Reasoning Capabilities"译为"视觉推理能力",准确传达视觉信息处理与逻辑推理结合的学术概念 3. "Large Vision-Language Models"采用学界通用译法"大型视觉语言模型",保持与人工智能领域术语的一致性 4. 整体采用"测试...能力"的动宾结构,符合中文技术文档的表述习惯 5. 使用冒号分隔主副标题,保留原标题的层级关系) | Liyan Tang | PDF | Chart understanding presents a unique challenge for large vision-language models (LVLMs), as it requ [翻译失败] | | 《冥想盆追忆:基于未校准视频学习的新视角合成》
(翻译说明: 1. "Recollection from Pensieve"采用《哈利·波特》系列官方译法"冥想盆"的意象,保留魔法记忆容器的隐喻特征 2. "Novel View Synthesis"译为专业术语"新视角合成",符合计算机视觉领域命名规范 3. "Uncalibrated Videos"译为"未校准视频",准确表达缺乏相机参数标定的技术含义 4. 整体采用"主标题+副标题"的学术论文标题结构,主标题保留文学性,副标题突出技术性 5. 通过冒号分隔保持原标题的逻辑层次,中文标题长度(15字)与英文原标题(8词)保持相近的信息密度) | Ruoyu Wang | PDF | Currently almost all state-of-the-art novel view synthesis and reconstruction models rely on calibra [翻译失败] | | VTBench:面向自回归图像生成的视觉分词器评估框架
(翻译说明: 1. 保留原缩写"VTBench"作为专有名称,符合学术文献命名惯例 2. "Evaluating"译为"评估"体现工具的核心功能 3. "Visual Tokenizers"采用计算机视觉领域术语"视觉分词器",准确对应图像离散化表示技术 4. "Autoregressive Image Generation"译为"自回归图像生成",精准传达生成式AI领域技术概念 5. 整体采用"框架"作为Bench的意译,突出其系统性评估能力,比直译"基准"更符合中文技术文献表述习惯 6. 通过"面向"的介词结构,清晰建立评估对象与技术领域的关系) | Huawei Lin | PDF | 自回归(AR)模型近期在图像生成领域展现出卓越性能,其核心组件视觉分词器(VT)通过将连续像素输入映射为离散标记序列发挥关键作用。VT的质量在很大程度上决定了AR模型性能的上限。然而,当前离散式VT的表现显著落后于连续型变分自编码器(VAE),导致图像重建质量下降,细节与文本保留能力欠佳。现有基准测试主要关注端到端生成质量,未能独立评估VT性能。为填补这一空白,我们推出VTBench——一个通过图像重建、细节保留和文本保存三大核心任务系统评估VT的综合基准测试框架,涵盖多样化评估场景。我们采用多维指标体系对前沿VT进行系统性评估,结果显示:连续型VAE产生的视觉表征显著优于离散式VT,尤其在空间结构与语义细节保留方面;而离散式VT生成的退化表征往往导致重建图像畸变、细粒度纹理丢失以及文本与物体完整性保存失败。此外,我们针对GPT-4o图像生成开展实验,探讨其潜在的自回归特性,为视觉分词机制研究提供新视角。我们公开基准测试框架与代码库以促进后续研究,并呼吁学界开发强健的通用开源VT解决方案。 | | 通过预算相对策略优化实现随时推理的最优化
翻译说明: 1. "Optimizing"译为"优化"符合计算机领域术语规范 2. "Anytime Reasoning"采用专业译法"随时推理",指可随时中断并返回结果的推理系统 3. "Budget Relative"译为"预算相对",准确表达与计算资源预算相关的含义 4. "Policy Optimization"译为"策略优化",保持强化学习领域的术语一致性 5. 整体采用"通过...实现...的..."句式,既符合中文表达习惯,又完整保留原文的技术含义 6. 术语翻译参考了《人工智能标准化白皮书》和《计算机科学技术名词》等权威资料 | Penghui Qi | PDF | 扩展测试时计算能力对于提升大语言模型(LLMs)的推理能力至关重要。现有方法通常采用强化学习(RL)来最大化推理轨迹末端可验证的奖励信号。然而,这类方法仅针对固定大额token预算下的最终性能进行优化,导致训练和部署效率受限。本研究提出创新框架AnytimeReasoner,旨在优化任意时刻的推理性能,从而提升token使用效率及可变预算约束下的推理灵活性。为实现这一目标,我们通过从先验分布中采样token预算来截断完整思维过程,迫使模型为每个截断思维生成最优答案摘要以供验证。这种方法在推理过程中引入了可验证的密集奖励信号,有效改善了RL优化中的信用分配问题。随后,我们采用解耦方式分别优化思维策略与摘要策略以最大化累积奖励。此外,我们提出新型方差缩减技术——预算相对策略优化(BRPO),在强化思维策略时显著提升学习过程的鲁棒性与效率。数学推理任务的实验结果表明,在不同先验分布条件下,我们的方法在所有思维预算场景中均持续优于GRPO基准,同时提升了训练效率与token使用效率。 | | 《FinePhys:基于物理定律显式嵌入的细粒度人体动作生成框架——面向精准骨骼运动引导》
(翻译说明: 1. 专业术语处理: - "Fine-grained"译为"细粒度",符合计算机视觉领域术语规范 - "Physical Laws"译为"物理定律",保留学术严谨性 - "Skeletal Guidance"译为"骨骼运动引导",准确表达动作生成中骨骼系统的指导作用
- 句式重构:
- 将英文名词短语结构转换为中文"框架式"标题结构
- 通过破折号连接主副标题,符合中文论文标题常见范式
-
"Explicitly Incorporating"译为"显式嵌入",既保持计算机学科术语特征,又符合中文表达习惯
-
技术内涵传达:
- 添加"框架"二字明确研究载体
- "Effective"译为"精准",更贴合动作生成任务的技术追求
- 通过冒号与破折号的双重分隔,清晰呈现方法核心(物理定律嵌入)与应用目标(骨骼引导)的层级关系) | Dian Shao | PDF | Despite significant advances in video generation, synthesizing physically plausible human actions re [翻译失败] | | KinTwin:基于扭矩与肌肉驱动生物力学模型的模仿学习技术,可实现无标记动作捕捉下健全与障碍运动的精准复现
(翻译说明: 1. 专业术语处理:"Torque and Muscle Driven Biomechanical Models"译为"扭矩与肌肉驱动生物力学模型",保留生物力学领域的专业表述 2. 技术概念转换:"Imitation Learning"译为"模仿学习",符合人工智能领域的中文术语规范 3. 复合名词处理:"Markerless Motion Capture"译为"无标记动作捕捉",准确表达计算机视觉技术特征 4. 句式结构调整:将英文被动语态"Enables..."转换为中文主动语态"可实现...",更符合中文表达习惯 5. 精确性保持:"Able-bodied and Impaired Movement"译为"健全与障碍运动",既准确传达医学康复领域的专业概念,又避免歧视性表述) | R. James Cotton | PDF | 更广泛地获取高质量运动分析技术将为运动科学与康复领域带来显著益处,例如实现对运动功能障碍及干预响应的更精细表征,甚至有助于早期发现神经系统异常或跌倒风险。尽管新兴技术正使基于生物力学模型的运动学参数(如关节角度随时间变化)更易获取,但要推导产生这些运动的底层物理机制(包括地面反作用力、关节扭矩乃至肌肉激活状态)仍存在挑战。本研究探讨如何通过模仿学习算法处理来自健全者与功能障碍者的大规模运动数据集,训练生物力学模型计算这些逆动力学参数。尽管人体姿态估计中的模仿学习近年备受关注,我们的研究存在以下创新点:采用精确的生物力学模型而非计算机视觉常用模型;在包含运动功能障碍者的数据集上进行验证;报告与临床运动评估密切相关的详细追踪指标(含关节角度与触地事件);最终将模仿学习应用于肌肉驱动的神经肌肉骨骼模型。实验表明,我们的模仿学习策略KinTwin能精确复现多种运动模式(含辅助器具或治疗师协助下的动作),并能推断具有临床意义的关节扭矩与肌肉激活差异。这项工作证实了模仿学习在临床实践中实现高质量运动分析的潜力。 |