arxiv 2025-06-25
| 标题 | 作者 | PDF链接 | 摘要 |
|---|---|---|---|
| 径向注意力:一种用于生成长视频的$O(n\log n)$稀疏注意力机制及其能量衰减特性 |
(翻译说明: 1. 专业术语处理: - "Radial Attention"译为"径向注意力",保留数学中的"径向"概念 - "$O(n\log n)$"保持原样,符合计算机复杂度表示规范 - "Sparse Attention"译为专业术语"稀疏注意力" - "Energy Decay"译为"能量衰减",符合物理/数学术语规范
- 技术准确性:
- 使用"机制"补充原文隐含的technical含义
- "for"译为"用于"更符合中文技术文献表述
-
通过"及其"连接两个技术特性,保持逻辑关系
-
句式结构调整:
- 将英文名词短语转换为中文"特性描述+应用领域"的句式
- 使用破折号替代原标题中的冒号,更符合中文标题规范
-
添加"一种"使中文标题更完整
-
领域适配性:
- "Long Video Generation"译为"长视频生成",准确对应视频生成领域术语
- 整体符合计算机视觉/深度学习领域的论文标题风格) | Xingyang Li | PDF | 扩散模型的最新进展已实现高质量视频生成,但额外的时间维度显著增加了计算成本,使得长视频的训练和推理代价极高。本文发现视频扩散模型中存在一种时空能量衰减现象:后softmax注意力分数会随着token间时空距离的增加而衰减,这与自然界中信号或波在时空维度上的物理衰减特性相似。基于此发现,我们提出径向注意力机制——一种可扩展的稀疏注意力方案,其计算复杂度为O(n log n)。该机制将能量衰减转化为指数递减的计算密度,相比标准O(n²)稠密注意力显著提升效率,同时比线性注意力更具表达能力。具体而言,径向注意力采用静态注意力掩码,使每个token仅关注空间邻近的token,且注意力窗口尺寸随时间距离增大而收缩。此外,该方法支持预训练视频扩散模型通过高效的LoRA微调来扩展生成长度。大量实验表明,径向注意力在Wan2.1-14B、HunyuanVideo和Mochi 1等模型上能保持视频质量,相比原始稠密注意力最高可获得1.9倍加速。经少量调参即可支持生成长度延长4倍的视频,与直接微调相比训练成本降低达4.4倍,与稠密注意力推理相比推理速度提升达3.7倍。 | | AnimaX:基于联合视频-姿态扩散模型的3D无生命体动画生成技术
(翻译说明: 1. 专业术语处理: - "Joint Video-Pose Diffusion Models" 译为"联合视频-姿态扩散模型",保留"Diffusion Models"作为生成式AI领域的标准术语"扩散模型" - "Animating the Inanimate" 意译为"无生命体动画生成",准确传达将静态物体动态化的技术内涵
- 技术概念传达:
- 将介词结构"in 3D"转换为前置定语"3D",符合中文语序习惯
-
"Animating"译为"动画生成"而非简单"动画化",突出技术生成特性
-
标题风格优化:
- 采用主副标题结构,主标题保留原文品牌名"AnimaX"
- 副标题使用破折号连接,符合中文论文标题规范
- 补充"技术"二字明确研究属性,增强学术性) | Zehuan Huang | PDF | We present AnimaX, a feed-forward 3D animation framework that bridges the motion priors of video dif [翻译失败] | | 统一视觉-语言-动作模型
(翻译说明: 1. "Unified"译为"统一",准确表达多模态整合的核心概念 2. "Vision-Language-Action"采用直译加连字符的形式,完整保留三个关键模态的并列关系 3. "Model"译为"模型",符合人工智能领域的术语规范 4. 整体采用四字格结构,符合中文科技文献的命名习惯 5. 未添加冗余修饰词,保持学术命名的简洁性 6. 通过"模型"而非"系统/框架"等译法,突出其机器学习模型属性) | Yuqi Wang | PDF | Vision-language-action models (VLAs) have garnered significant attention for their potential in adva [翻译失败] | | ScaleCap:基于双模态去偏的推理时扩展图像描述生成
(翻译说明: 1. 保留原创新术语"ScaleCap"的音译加意译处理,体现技术特征 2. "Inference-Time Scalable"译为"推理时扩展",准确传达模型在推理阶段可动态扩展的特性 3. "Dual-Modality Debiasing"译为"双模态去偏",专业术语采用计算机视觉领域标准译法 4. 通过"基于..."的句式突出技术方法的创新性 5. 整体符合IEEE会议论文标题的简洁学术风格,同时保持中英文术语一致性) | Long Xing | PDF | This paper presents ScaleCap, an inference-time scalable image captioning strategy that generates co [翻译失败] | | 可扩展的正交微调技术
(翻译说明: 1. "Orthogonal Finetuning"译为"正交微调",准确保留了机器学习领域的专业术语,指通过正交变换进行模型参数微调的技术 2. "Made Scalable"译为"可扩展的",突出该技术解决了原有方法在扩展性方面的局限 3. 采用"技术"作为隐性增译,符合中文科技文献标题习惯,比直译"变得可扩展"更专业 4. 整体采用偏正结构名词短语,与原文语法结构保持一致 5. 使用"可扩展"而非"可规模化",更符合中文计算机领域术语惯例) | Zeju Qiu | PDF | Orthogonal finetuning (OFT) offers highly parameter-efficient adaptation while preventing catastroph [翻译失败] | | JoyAgents-R1:基于强化学习的多功能多LLM智能体联合演化动力学
(翻译说明: 1. 保留原项目名称"JoyAgents-R1"作为专有名词不译 2. "Joint Evolution Dynamics"译为"联合演化动力学",准确传达多智能体协同进化的动态特性 3. "Versatile Multi-LLM Agents"译为"多功能多LLM智能体",其中: - "Versatile"采用计算机领域常用译法"多功能" - "LLM"作为大语言模型标准缩写保留 - "Agents"遵循人工智能领域规范译为"智能体" 4. "with Reinforcement Learning"译为"基于强化学习",符合中文前置修饰的学术表达习惯 5. 整体采用"项目名称+技术特性"的学术标题结构,保持专业性与可读性平衡) | Ai Han | PDF | 多智能体强化学习(MARL)已成为应对日益复杂任务的重要范式。然而,由于协作效率低下与训练不稳定性,异质智能体间的联合进化仍具挑战性。本文提出名为JoyAgents-R1的联合进化动力学框架,首次将群体相对策略优化(GRPO)应用于异质多智能体的协同训练。该方法通过迭代优化智能体的大语言模型(LLM)与记忆系统,实现决策能力与记忆效能协同进化的全局均衡。
具体而言,JoyAgents-R1首先对每个智能体在完整推理轨迹上的行为实施节点级蒙特卡洛采样,在保持策略多样性的同时提升GRPO采样效率。随后,基于边际效益驱动的选择策略识别奖励波动最大的Top-$K$采样群组,通过高性价比的参数调整实现精准的智能体模型更新,既提升训练稳定性又最大化联合收益。同时,该框架引入自适应记忆进化机制,将GRPO奖励重构为无监督信号,有效消除重复推理并加速收敛。
通用场景与领域专用场景的实验表明,JoyAgents-R1在较小规模开源模型基础上,实现了与更大规模LLM相媲美的性能表现。 | | 图像复原任务中NAFNet基准模型的对比研究
(说明:根据学术翻译规范,对标题进行了以下处理: 1. 将"Comparative Study"译为"对比研究",符合中文论文标题习惯 2. "NAFNet Baselines"译为"NAFNet基准模型",其中: - 保留英文缩写"NAFNet"(该网络2022年由香港大学等机构提出) - "Baselines"译为"基准模型"而非"基线",更符合计算机视觉领域术语 3. "Image Restoration"译为"图像复原",与《中国图像图形学报》标准术语保持一致 4. 补充"任务中"使中文标题更通顺完整 5. 整体采用"研究对象+研究性质"的标题结构,符合中文论文标题范式) | Vladislav Esaulov | PDF | 我们研究了NAFNet(非线性激活自由网络)——一种简单高效的图像复原深度学习基线模型。通过使用添加噪声和模糊的CIFAR10图像数据集,我们对NAFNet的核心组件进行了消融实验。基线模型采用了SimpleGate激活函数、简化通道注意力机制(SCA)以及层归一化技术。我们将该基线模型与替换或删除组件的不同变体进行对比,通过峰值信噪比(PSNR)、结构相似性(SSIM)等量化指标及复原样例,系统分析了各模块修改对性能的影响。研究结果验证了NAFNet架构的合理性:SimpleGate与简化注意力机制相较于传统激活函数和注意力模块能取得更优效果,而层归一化对训练稳定性具有关键作用。最后我们提出了模型设计建议,并探讨了可能的改进方向与未来工作。 | | 主动视角选择器:基于交叉参考图像质量评估的快速精准主动视角选择
(翻译说明: 1. 专业术语处理:"Active View Selector"译为"主动视角选择器",保留"active"在计算机视觉领域的专业含义 2. 技术概念转换:"Cross Reference Image Quality Assessment"译为"交叉参考图像质量评估",准确传达多图像交叉比对的技术特征 3. 算法特性表达:"Fast and Accurate"译为"快速精准",符合中文技术文献对算法性能的惯用表述 4. 句式结构调整:将英文后置定语转换为中文前置定语,符合汉语技术术语的修饰习惯 5. 领域适配性:整个翻译保持计算机视觉/图像处理领域的专业风格,避免口语化表达) | Zirui Wang | PDF | We tackle active view selection in novel view synthesis and 3D reconstruction. Existing methods like [翻译失败] | | 时态逆向强化学习模型:基于逆向强化学习的港口拥堵与泊位调度建模
翻译说明: 1. "Temporal-IRL"采用技术术语直译加注的译法,译为"时态逆向强化学习",其中"Temporal"体现时间维度特征,"IRL"是"Inverse Reinforcement Learning"的标准缩写译法 2. 副标题采用学术论文常见的"基于...的..."结构,符合中文科技文献表达规范 3. "Port Congestion"译为"港口拥堵"而非"港口拥挤",采用交通运输领域专业术语 4. "Berth Scheduling"译为"泊位调度",保留航运管理学科的专业表述 5. 整体句式结构调整为中文典型的"主题+方法"的学术标题结构,比原文的冒号结构更符合中文阅读习惯 6. 通过"建模"一词的增译,完整传达原文隐含的研究方法论内涵 | Guo Li | PDF | 港口拥堵预测对于维持全球供应链可靠性至关重要。准确的预测能优化货运规划、减少延误与成本,并完善库存与分销策略,从而确保准时交付并增强供应链韧性。要实现精准预测,关键在于分析船舶行为及其在特定码头泊位的停留时间,尤其需关注不同条件下的泊位调度机制。模型必须准确捕捉并学习泊位调度的内在优先级与运作规律。
泊位调度规划受多重因素影响,包括到港船舶吨位、候泊时长及码头内船舶状态等。通过解析船舶自动识别系统(AIS)历史定位数据,我们重构了泊位调度时间表,进而采用逆向强化学习(IRL)算法推导奖励函数。为此,我们以纽约/新泽西港某特定码头为研究对象,开发了时序逆向强化学习模型(Temporal-IRL)。该模型通过学习泊位调度规律,可预测码头船舶作业序列,并估算船舶在港总停留时间(含候泊与靠泊时长),最终实现港口拥堵预警。
基于马赫码头2015年1月至2023年9月的运营数据,我们对模型进行了训练与测试,取得了显著优异的预测效果。 | | 非氧化糖酵解途径的热力学自由能图谱
(翻译说明: 1. "Thermodynamic free energy"译为"热力学自由能",严格保留专业术语 2. "map"在此学术语境下译为"图谱"而非普通意义的"地图",更符合学科表述习惯 3. "non-oxidative glycolysis pathways"译为"非氧化糖酵解途径",其中: - "non-oxidative"采用"非氧化"标准译法 - "glycolysis"沿用生物化学领域通用译名"糖酵解" - "pathways"译为"途径"而非"通路",更符合中文文献表述传统 4. 整体采用"的"字结构保持学术文本的严谨性,同时确保专业概念的准确传递) | Adittya Pal | PDF | 在系统生物学中,如何设计反应路径以使目标化合物在特定代谢网络中的产量最大化是一个基础性课题。本研究基于吉布斯自由能差为负值的反应具有热力学优势这一原理,对非氧化糖酵解代谢网络进行了系统性探索。我们按照路径长度分类,枚举了实现非氧化糖酵解净反应的所有替代路径。分析结果表明,除实验已报道的路径外,还存在多条具有热力学优势的替代路径。此外,我们还发现该代谢网络中的某些分子(如3-羟基丙酸)可能具有重要的研究价值。
(翻译说明: 1. 专业术语处理:"Gibbs free energy"译为"吉布斯自由能","non-oxidative glycolysis"译为"非氧化糖酵解","thermodynamically favored"译为"热力学优势"等均采用标准译法 2. 句式重构:将原文复合句拆分为符合中文表达习惯的短句,如将"guided by..."独立译为分句 3. 逻辑显化:通过"基于...原理"等表述明确原文隐含的逻辑关系 4. 学术规范:保留"3-hydroxypropionic acid"的专业名称"3-羟基丙酸",并采用括号标注的学术格式 5. 语态转换:将被动语态"are thermodynamically favored"转化为主动表述"具有热力学优势" 6. 术语一致性:全篇保持"pathways"统一译为"路径"而非"通路"等不同译法) |