OpenAI提出Image GPT实现高质量图像补全和样本生成

2020-07-17 10:13

模型直接生成的样本也具有明显的个体特征，包含着可以被清晰识别的目标个体，这说明模型的确理解了图像中所包含的空间信息和不同目标的特征。

从语言跨界图像的GPT

在语言领域，像GPT－2和BERT等依赖于词预测的非监督学习算法非常成功，在多个语言相关任务上取得了最好的表现。其中一个重要的原因在于下游任务（数据）是以自然的文本方式呈现的：答案往往伴随着问题（问答任务），文章往往伴随着总结（文本摘要任务）。而像素序列针对其所属的图像却没有非常明显的标签。

即使没有这种隐式的监督，GPT－2在图像任务上成功的原因也不难发现：一个足够大的transformer模型，用于训练针对下一个像素的预测，最终能够学会生成丰富的可以清晰辨认的目标样本。

当模型可以有效合成图像时，研究人员开始思考是不是可以通过“基于合成的分析”来尝试利用模型识别目标的分类。先前很多生成模型都受到了这一观点的启发，最近的BigBiGAN就是一个典型的例子，可以产生非常有效的样本和特征。在这一研究中，研究人员首先展示了更好的生成模型可以实现更强的分类表现，随后通过对GPT－2生成能力的优化，在很多情况下实现了最为优异的分类表现，为基于合成的分析思想提供了更多的佐证。

迈向通用非监督学习

生成序列模型可以被视为一种通用的非监督学习算法：由于所有的数据类型都可以被标示为字节序列，无需额外的改动，transformer可以被直接应用于任何类型的数据形式上。为了验证这种算法的通用性，研究人员将原先用于自然语言处理的GPT－2的架构直接应用于图像生成任务上，故意放弃了对图像先验知识的手动编码（包括卷积、相关注意力、稀疏注意力、2D位置嵌入等等）。

但随之而来的是，如果要实现具有竞争力的非监督学习性能，就需要更多的计算量来保证。基于对比的方法在从图像生成高质量特征的过程中的确具有更高的计算效率，然而在与最好的无监督算法比较过程中，基于对领域知识的手工编码和计算需求间可以找到有效的平衡。在没有领域知识的全新领域，大规模的计算也许是解决问题值得一试的有效手段。