基于Transformer的深度条件视频压缩 |
| |
引用本文: | 鲁国,钟天雄,耿晶.基于Transformer的深度条件视频压缩[J].北京航空航天大学学报,2024(2):442-448. |
| |
作者姓名: | 鲁国 钟天雄 耿晶 |
| |
作者单位: | 北京理工大学计算机学院 |
| |
基金项目: | 国家自然科学基金(62102024)~~; |
| |
摘 要: | 近年来,基于深度学习的视频压缩技术主要基于卷积神经网络(CNN)且采用运动补偿-残差编码的架构,由于常见的CNN只能利用局部的相关性,以及预测残差本身的稀疏特性,难以取得最优压缩性能。因此,提出一种基于Transformer架构的条件视频压缩算法,以实现更优的压缩效果。所提算法基于前后帧之间的运动信息,利用可形变卷积得到对应的预测帧特征;将预测帧特征作为条件信息,对原始输入帧特征进行条件编码,避免了直接编码稀疏的残差信号;利用特征间的非局部相关性,提出一个基于Transformer的深度条件视频压缩编码算法,用来实现运动信息编码和条件编码,进一步提升压缩编码的性能。实验结果表明:所提算法在HEVC、UVG数据集上均超越了当前主流的基于深度学习的视频压缩算法。
|
关 键 词: | 视频压缩 Transformer 深度学习 神经网络 压缩算法 |
|
|