AI带来的穿越，老电影重现新画质

2020-03-10 13:08

老照片、老电影总能让人们的思绪飘回那些久远的年代，沉淀于其中，可与此同时，模糊的画面又不免给记忆蒙上了一层薄雾。如今，随着人工智能技术的发展，SRGAN（超分辨率生成对抗网络）使得拨散云雾始见真，成倍还原了画面质量。

2019年底，WAIC开发者·上海临港人工智能开发者大会的开幕式上，上海市经济和信息化委员会副主任张英为上海市人工智能创新中心授牌，深兰科技等7家企业首批入选，同时深兰科技两项应用场景方案入围“上海市第二批人工智能试点应用场景”。

其中，在AI＋文化旅游场景中，深兰科技入围成为上海文化广告影视集团有限公司的解决方案供应商，将为其提供视频图像质量增强技术，通过智能算法提高视频画面质量，使2K高清素材达到4K超高清要求，优化提升老旧节目的图像清晰度。

今天，就来个承上启下，回顾前一年成绩的同时，也用创新和进步为新的一年注入能量。获奖方案的团队负责人、深兰科学院深度学习科学家方林博士，给出了实现超分辨率的SRGAN模型的网络结构、训练步骤和损失函数，将帮助GAN的初学者理解对抗网络的实质，为今后设计更加复杂的超分模型打下基础。

超分辨率

超分辨率的目的是把低分辨率的图像或者视频转为高分辨率，比如：

我们利用超分辨率生成式对抗网络（SRGAN， Super Resolution Generative Adversarial Network）实现超分辨率。

下面我们通过一个简单的SRGAN模型来说明超分模型的基本结构和训练步骤。

图片准备

超分模型由两张图片组成，第一张是模糊图片，形状为［128， 128， 3］；第二张是对应的清晰图片，形状为［512， 512， 3］。清晰图片的长宽分别是模糊图片的长宽的4倍。我们的目标是把模糊图片的分辨率提高16倍。

图片必须是一一对应的，即一张模糊图片必须有对应的一张清晰图片。为了准备图片，我们先收集足够数量（最好2万张以上）的清晰图片，图片的长度和宽度应该都大于等于512。然后选取任意一个512＊512的部分进行剪裁。

注意：

不要把一个大的图片resize成512＊512大小，因为这会导致图片变形；

由于我们可以在大图片的任意位置剪裁出512＊512的图片，所以长度或者宽度大于512的图片可以生成多个清晰图片。比如520＊520的图片可以生成64个清晰图片。

当我们获得了所有清晰图片之后，再把每张清晰图片resize到128＊128大小，这样我们就获得了模糊图片。OpenCV的resize（）方法可以帮助我们改变图片大小。

SRGAN模型

1、主要结构

SRGAN模型结构如下图所示：

图中“模糊”是指模糊图片，“清晰”是指清晰图片，“生成”是指生成器生成的图片。生成图片的分辨率与清晰图片相同，为512＊512。模糊图片的分辨率是128＊128，为清晰图片的1／16。

上图中的模型主要由生成器和辨别器两部分组成。生成器的目的是输入模糊图片（图中的“模糊”），输出生成图片（图中的“生成”）。辨别器的输入由a、b两个参数组成。其中b是模糊图片，a是生成图片或者清晰图片。辨别器的目的是判断图片a是否是真实的清晰图片。b是用来协助辨别器进行判断的。辨别器的输出p是一个概率，1表示a是100％的真实清晰图片，0％表示a是100％的生成图片。

训练上述模型时，生成器总是尽可能生成像真实图片的图片，而辨别器则尽可能分辨出a是真实图片还是生成图片。所以辨别器和生成器之间存在着一种对抗：生成器越优化，辨别器越不能分辨生成图片的真假；辨别器越优化，生成器生成的图片就越不能通过辨别器的检查。对抗的结果是双方的能力都得到了提高，最后达到纳什均衡：即生成器生成了很像真实图片的图片，连辨别器也无法分辨其中的真假。这就是SRGAN的基本原理。

2、生成器结构

生成器的输入是128＊128的3通道图片，输出是512＊512的3通道图片。SRGAN使用U型网络实现这种图片到图片的转化，结构如下：

请注意：

第一，整个U型网络的左半部分全部由卷积操作组成，用来抽取输入图像的特征。右半部分全部由反卷积操作组成，用来根据特征构建清晰图片。由于输出图片比输入图片大4倍，所以右边比左边高出一截。

第二，左右两边相同大小的图片之间的连线称为捷径，表示左边的图片与右边的图片进行加法操作，结果保留在右边。这是借用了残差神经网络（ResNet）的做法。不过ResNet中的捷径跨越相同数量的操作，而这里的捷径跨越不同数量的操作，并且越上方的捷径离输入和输出越近，快速传播梯度的效果越好。

第三，左边最后的卷积和最后的反卷积操作都不含激活函数，并且整个网络中不使用Dropout，这样做的原因超出了本文的讨论范畴，这里不叙述。

3、辨别器结构

辨别器有两个输入，a表示要判断真假的图片，b是辅助辨别器判断的模糊图片。两者的分辨率分别是512＊512和128＊128。对于参数a，我们采用卷积操作不断提纯其特征，最后全连接到一个神经元，最后经过sigmoid激活后得到一个概率。这条路径我们称为主路径。参数b，我们通过resize改变其大小，然后从侧面切入到主路径中去，从而影响特征的提取。下图显示了辨别器结构：