Arxiv 2025-01-14 Papers

标题	作者	PDF链接	代码仓库	Title
DAViD: 使用预训练的视频扩散模型对3D物体的动态可供性进行建模	Hyeonwoo Kim	PDF	N/A	DAViD: Modeling Dynamic Affordance of 3D Objects using Pre-trained Video Diffusion Models
MangaNinja：精确参考跟随的线稿上色技术	Zhiheng Liu	PDF	N/A	MangaNinja: Line Art Colorization with Precise Reference Following
随波逐流：使用实时扭曲噪声的运动可控视频扩散模型	Ryan Burgert	PDF	N/A	Go-with-the-Flow: Motion-Controllable Video Diffusion Models Using Real-Time Warped Noise
在线学习中的梯度均衡：理论与应用	Anastasios N. Angelopoulos	PDF	N/A	Gradient Equilibrium in Online Learning: Theory and Applications
从单目视频预测4D手部轨迹	Yufei Ye	PDF	N/A	Predicting 4D Hand Trajectory from Monocular Videos
PokerBench：训练大型语言模型成为专业扑克玩家	Richard Zhuang	PDF	N/A	PokerBench: Training Large Language Models to become Professional Poker Players
Omni-RGPT：通过标记符号统一图像和视频的区域级理解	Miran Heo	PDF	N/A	Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks
GameFactory: 使用生成式互动视频创建新游戏	Jiwen Yu	PDF	N/A	GameFactory: Creating New Games with Generative Interactive Videos
ADAM-1：人工智能与生物信息学在阿尔茨海默病检测及微生物组-临床数据整合中的应用	Ziyuan Huang	PDF	N/A	ADAM-1: AI and Bioinformatics for Alzheimer's Detection and Microbiome-Clinical Data Integrations
探索多语言大语言模型在现实世界噪声数据上的鲁棒性	Amirhossein Aliakbarzadeh	PDF	N/A	Exploring Robustness of Multilingual LLMs on Real-World Noisy Data
增强自动可解释性：以输出为中心的特征描述	Yoav Gur-Arieh	PDF	N/A	Enhancing Automated Interpretability with Output-Centric Feature Descriptions
函数相似性度量及其在统计学习与优化中的应用	Chengpiao Huang	PDF	N/A	A Similarity Measure Between Functions with Applications to Statistical Learning and Optimization
这段英文可以翻译为中文如下：

扩散对抗性后训练用于一步视频生成

一种基于Choquet积分和差分进化优化的特征级集成模型，用于CXR图像中的COVID-19识别

翻译说明： - Feature-Level Ensemble Model：特征级集成模型，指在特征层面进行模型集成的方法。 - COVID-19 Identification：COVID-19识别，指通过图像或其他数据识别COVID-19。 - CXR Images：CXR图像，即胸部X光图像。 - Choquet Integral：Choquet积分，一种用于多特征融合的数学工具。 - Differential Evolution Optimization：差分进化优化，一种用于优化问题的进化算法。

对象中心的二维高斯泼溅：背景去除与遮挡感知修剪以实现紧凑的对象模型

基于Chiron的大型语言模型服务分层自动扩展

指导大语言模型在分层规划中集成的路线图

摘要： 近年来，Transformer模型在自然语言处理领域取得了巨大成功，并逐渐扩展到计算机视觉领域。本文将探讨Transformer模型在图像超分辨率（SR）任务中的应用，介绍其核心技术、面临的挑战以及实际应用场景。

关键词： Transformer，图像超分辨率，深度学习，计算机视觉

1. 引言

图像超分辨率是指从低分辨率图像重建高分辨率图像的技术，在医学影像、卫星图像、视频监控等领域具有广泛应用。传统的图像超分辨率方法主要基于插值和重建算法，而深度学习的兴起为这一领域带来了新的突破。

2. Transformer模型简介

Transformer模型最初应用于机器翻译任务，其核心思想是利用自注意力机制捕捉序列数据之间的长距离依赖关系。与传统的卷积神经网络（CNN）相比，Transformer模型具有以下优势：

全局感受野： 自注意力机制可以捕捉图像中任意两个像素之间的关系，而CNN的感受野受限于卷积核大小。
并行计算： Transformer模型可以并行处理序列数据，计算效率更高。
可解释性： 自注意力权重可以直观地反映模型关注的重点区域。

3. Transformer模型在图像超分辨率中的应用

近年来，研究者们将Transformer模型引入图像超分辨率任务，并取得了显著成果。主要技术路线包括：

基于Transformer的编码器-解码器架构： 将Transformer模型作为编码器和解码器，分别用于提取图像特征和重建高分辨率图像。
混合CNN-Transformer架构： 结合CNN和Transformer的优势，利用CNN提取局部特征，利用Transformer捕捉全局依赖关系。
轻量级Transformer模型： 针对移动端等资源受限场景，设计轻量级的Transformer模型，在保证性能的同时降低计算复杂度。

4. 挑战与未来方向

尽管Transformer模型在图像超分辨率任务中展现出巨大潜力，但仍面临一些挑战：

计算复杂度高： Transformer模型的计算复杂度与图像尺寸的平方成正比，难以处理高分辨率图像。
数据需求量大： Transformer模型需要大量的训练数据才能达到较好的性能。
模型可解释性有待提高： 尽管自注意力机制具有一定的可解释性，但仍需进一步研究如何更好地理解和解释Transformer模型的决策过程。

未来研究方向包括：

设计更高效的Transformer架构： 探索更高效的注意力机制和模型结构，降低计算复杂度。
利用无监督学习和自监督学习： 减少对标注数据的依赖，提高模型的泛化能力。
结合领域知识： 将图像超分辨率领域的先验知识融入Transformer模型，提高模型的性能和可解释性。

5. 应用场景

Transformer模型在图像超分辨率领域的应用前景广阔，例如：

医学影像： 提高医学影像的分辨率，辅助医生进行疾病诊断和治疗。
卫星图像： 增强卫星图像的清晰度，用于环境监测、城市规划等领域。
视频监控： 提升监控视频的画质，便于目标识别和行为分析。

6. 结论

一种用于半监督动脉粥样硬化冠状动脉斑块分割的帧内和帧间拓扑一致性方案

“视觉语言模型作为空间领域中的操作代理”