arxiv 2025-05-19

标题	作者	PDF链接	摘要
QVGen：突破量化视频生成模型的性能极限

（翻译说明： 1. 专业术语处理："Quantized Video Generative Models"译为"量化视频生成模型"，准确对应计算机视觉领域的专业表述 2. 技术概念保留："QVGen"作为模型名称保持原文不译，符合学术惯例 3. 动态表达转换："Pushing the Limit"译为"突破...性能极限"，既保留原文的挑战性语义，又符合中文技术文献的表达习惯 4. 结构优化：通过冒号分隔保持原标题的学术论文标题特征，主标题（模型名称）+副标题（技术贡献）的结构清晰 5. 行业规范遵循：采用"模型"而非"模式"的译法，符合人工智能领域术语标准） | Yushi Huang | PDF | Video diffusion models (DMs) have enabled high-quality video synthesis. Yet, their substantial compu [翻译失败] | | GIE-Bench：面向文本引导图像编辑的落地化评估基准

（翻译说明： 1. 专业术语处理： - "Grounded Evaluation"译为"落地化评估"，既保留"grounded"在计算机视觉领域"基于实际应用场景"的核心含义，又符合中文技术文献表述习惯 - "Text-Guided Image Editing"采用行业通用译法"文本引导图像编辑"

结构优化：
保留"GIE-Bench"缩写形式维持技术一致性
使用破折号替代英文标题中的冒号，更符合中文标题规范
"Towards"译为"面向"准确传达研究导向性
学术风格保持：
"评估基准"比直译"评价"更体现学术严谨性
整体采用"技术名词+研究目标"的经典中文论文标题结构） | Yusu Qian | PDF | Editing images using natural language instructions has become a natural and expressive way to modify [翻译失败] | | 交通流建模中物理信息机器学习的潜在失效：理论与实验分析

（翻译说明： 1. 严格保留专业术语："physics-informed machine learning"译为"物理信息机器学习"，是学界标准译法；"traffic flow modeling"译为"交通流建模"符合交通运输工程学科术语 2. 突出研究性质："potential failures"译为"潜在失效"准确表达可能性与系统性缺陷的双重含义 3. 研究维度呈现："theoretical and experimental analysis"译为"理论与实验分析"保持学术论文标题的平行结构 4. 整体采用学术标题的简洁风格，避免冗余修饰词，符合中文科技论文标题规范） | Yuan-Zheng Lei | PDF | 本研究对物理信息机器学习（PIML）在交通流建模中的表现进行了批判性检验，将PIML模型的失效定义为性能同时劣于纯数据驱动和纯物理驱动基准模型的情况。通过沿Hessian矩阵主特征向量扰动已训练模型并评估相应损失值，我们系统分析了损失景观。结果表明：与常见假设相反，PIML中的物理残差本质上并不阻碍优化过程。成功的参数更新需要机器学习梯度和物理梯度与拟真梯度形成锐角，并共同位于锥形区域内。鉴于物理模型和训练数据均存在不准确性，该条件往往难以满足。实验显示物理残差会降低基于LWR和ARZ的PIML模型性能，尤其在高度物理驱动的设定下。此外，稀疏采样和使用时间平均交通数据会产生误导性的小物理残差，这些残差无法反映实际物理动力学，从而导致模型失效。我们进一步发现Courant-Friedrichs-Lewy（CFL）条件是判断数据集是否适合PIML应用的关键指标，成功案例均严格遵循该准则。最后，高阶ARZ模型比低阶LWR模型具有更大的误差下界，这与现有研究的实验结果一致。 | | 基于Transformer语言模型的自然阅读认知过程建模研究

（翻译说明： 1. 采用"建模"而非直译"模型化"，更符合中文认知科学领域的术语习惯 2. "cognitive processes"译为"认知过程"，保留专业术语准确性 3. "natural reading"译为"自然阅读"，对应心理学实验范式术语 4. 增译"研究"二字，符合中文论文标题的完整表述规范 5. 保持"Transformer"原术语不翻译，专业名称处理得当 6. "Language Models"采用首字母大写译法"语言模型"，体现专有名词属性 7. 整体采用"前置定语+中心词"的中文标题结构，符合学术文本特征） | Bruno Bianchi | PDF | 自然语言处理（NLP）领域的最新进展推动了文本生成领域高度复杂语言模型的发展。与此同时，神经科学领域正日益运用这些模型来探索语言理解涉及的认知过程。已有研究表明，N元语法和长短期记忆网络（LSTM）等模型能够部分解释阅读过程中眼动行为（特别是凝视时间）的可预测性效应。本研究通过评估基于Transformer架构的模型（GPT2、LLaMA-7B和LLaMA2-7B）拓展了这些发现，以深入探究这种关联。实验结果表明，在解释里奥普拉滕西西班牙语读者凝视时长的变异度方面，这些新型架构优于早期模型。但与既往研究类似，这些模型仍无法完全解释人类可预测性所涵盖的全部变异。这些发现表明，尽管取得了技术进步，最先进的语言模型在预测语言时仍与人类读者的认知方式存在差异。

（注：Rioplantense Spanish根据语言学研究惯例保留源语特征，译为"里奥普拉滕西西班牙语"，指乌拉圭河与阿根廷拉普拉塔河流域特有的西班牙语变体；Gaze Duration作为专业术语译为"凝视时间"以符合心理学眼动研究规范；transformer-based models采用"基于Transformer架构的模型"的译法以准确反映技术特性） | | SoftCoT++：基于软性思维链推理的测试时缩放方法

（翻译说明： 1. 完整保留专业术语"Soft Chain-of-Thought Reasoning"的准确译法"软性思维链推理"，该译法既符合认知科学领域对"Chain-of-Thought"的标准翻译，又通过"软性"准确传达"Soft"的技术内涵 2. "Test-Time Scaling"译为"测试时缩放"，严格对应机器学习中"test-time"的技术概念和"scaling"的模型扩展含义 3. 采用"基于...的"句式突出方法论特征，符合中文计算机论文标题的表述规范 4. 双冒号结构改为中文更常用的间隔号连接，保持学术标题的简洁性 5. 整体翻译在保持专业性的同时，通过四字结构"测试时缩放"实现术语简洁化，符合中文技术文献的表达习惯） | Yige Xu | PDF | Test-Time Scaling (TTS) refers to approaches that improve reasoning performance by allocating extra [翻译失败] | | msf-CNN：基于图像块的多阶段融合卷积神经网络在微型机器学习中的应用

（翻译说明： 1. 完整保留专业术语首字母缩写"msf-CNN"不翻译 2. "Patch-based"译为"基于图像块"，符合计算机视觉领域术语规范 3. "Multi-Stage Fusion"译为"多阶段融合"，准确传达分阶段特征融合的技术内涵 4. "TinyML"采用行业通用译名"微型机器学习"，指代边缘设备上的轻量级机器学习 5. 补充"应用"二字使中文标题更符合学术表达习惯，同时用破折号替代原标题中的冒号以符合中文标点规范 6. 整体采用"技术方法+应用领域"的标题结构，与中文计算机学科论文标题范式保持一致） | Zhaolan Huang | PDF | AI spans from large language models to tiny models running on microcontrollers (MCUs). Extremely mem [翻译失败] | | 基于扩散模型的逆问题分布偏移无监督检测方法

（说明：该翻译严格遵循学术术语规范，采用"基于...的...方法"这一常见学术论文标题结构。关键术语处理如下： 1. "Unsupervised Detection"译为"无监督检测"，保留机器学习领域术语特征 2. "Distribution Shift"译为"分布偏移"，采用统计学标准译法 3. "Inverse Problems"译为"逆问题"，符合数学物理领域术语惯例 4. "Diffusion Models"译为"扩散模型"，保持生成模型领域统一译名整体句式结构符合中文科技论文标题简洁性要求，同时通过"方法"二字明示技术方案属性，比直译更符合中文论文标题习惯） | Shirin Shoushtari | PDF | Diffusion models are widely used as priors in imaging inverse problems. However, their performance o [翻译失败] | | MOSAAIC：面向共同创造中共享自主权、权威与主动权的优化管理框架

（翻译说明： 1. 首字母缩略词"MOSAAIC"保留不译，符合学术术语惯例 2. "Managing Optimization towards"译为"面向...的优化管理"，准确传达"系统化持续优化"的学术内涵 3. "Shared Autonomy"译为"共享自主权"，对应人机协作研究领域的标准术语 4. "Authority"译为"权威"而非"权力"，更符合组织行为学中的概念界定 5. "Initiative"译为"主动权"而非"主动性"，突出决策主导权的学术含义 6. "Co-creation"译为"共同创造"，采用创新管理领域的规范译法 7. 整体采用"框架"作为隐性范畴词，符合中文社科论文标题特征） | Alayt Issak | PDF | 在计算创造力领域，如何实现人类与协同创作AI之间的恰当平衡是一个开放的研究课题。协同创作作为一种混合智能形式，要求人类与AI都能主动采取行动，最终共同产出创造性成果与创意理念。要实现协同创作中的动态平衡，需要明确控制权的特征并制定人机之间的控制分配策略。我们将控制权定义为决定、发起和引导协同创作过程的权力。

通过对172篇学术论文的系统性文献综述，我们提出了MOSAAIC框架（协同创作中共享自主权、决策权与主动权的管理优化框架），这一创新性框架用于描述和平衡协同创作中的控制权。MOSAAIC框架界定了控制权的三个关键维度：自主权、主动权和决策权。我们还针对协同创作中的控制优化策略进行了框架补充。

为验证MOSAAIC框架的适用性，我们分析了六个现有协同创作AI案例中的控制权分配情况，并阐述了该框架的应用价值。研究表明，该框架不仅能够有效解析人机协作中的权力结构，还为优化协同创作流程提供了方法论指导。 | | 通过强化学习利用大型语言模型提升汇编代码性能

（说明：该翻译严格遵循学术术语规范，其中： 1. "Assembly Code"译为"汇编代码"而非"组装代码"，符合计算机领域术语标准 2. "Large Language Models"采用学界通用译法"大型语言模型" 3. "Reinforcement Learning"统一译为"强化学习"，与人工智能领域术语体系保持一致 4. 通过"利用...提升..."的动宾结构准确传达技术路径，同时保持标题简洁性 5. 添加"通过"字明确方法实现手段，比直译"with"更符合中文表达逻辑） | Anjiang Wei | PDF | Large language models (LLMs) have demonstrated strong performance across a wide range of programming [翻译失败] | | 基于混杂离线数据的自动奖励塑形

说明： 1. "Automatic Reward Shaping"译为"自动奖励塑形"，这是强化学习领域的标准术语，指通过算法自动调整奖励函数的过程。 2. "Confounded Offline Data"译为"混杂离线数据"，其中： - "Confounded"译为"混杂"，特指统计学中的混杂变量问题 - "Offline Data"译为"离线数据"，指预先收集的非交互式数据集 3. 采用"基于...的"结构保持学术表达的严谨性，同时准确反映原文的技术含义 4. 整体翻译既保留了机器学习领域的专业术语，又符合中文科技文献的表达习惯 | Mingxuan Li | PDF | A key task in Artificial Intelligence is learning effective policies for controlling agents in unkno [翻译失败] |