OpenAI提出Image GPT实现高质量图像补全和样本生成

2020-07-17 10:13

与先进自监督模型的比较，虽然需要更多的计算但是本文提出的模型还是能得到更具竞争力的结果。

由于像BERT这类基于掩膜的语言模型在众多语言任务上超越了生成模型的结果，研究人员同时还利用BERT测评图像模型。研究人员没有调优而是使用了15％的掩膜来去除像素，并从非掩膜的像素中来预测出这些结果。结果表明基于BERT模型的线性探测器具有明显的劣势但却能在调优下实现后来者居上。

BERT和iGPT－L预训练模型在32x32分辨率上的比较，可以看到生成模型在预训练阶段得到的特征更好，而BERT模型在调优后则迎头赶上。

虽然非监督学习无需人类标记数据，但近年来自监督学习取得了长足的进步，有效使用了有限的标注数据。成功的半监督学习方法都使用了像连续性正则、数据增强、准标签等手段来实现，纯粹基于生成的方法近年来没有显示出有效的竞争力。iGPT－L在这一子领域对基准数据进行了评测，结果表明在没有图像增强的情况下性能超过了Mean Teacher和MixMatch，并接近FixMatch的水平。

与精心设计的半监督方法不同，iGPT－L在没有任何数据增强和调优的情况下用于逻辑回归分类器的拟合，实现了非常好的半监督学习结果。

局限性

虽然iGPT在各种图像任务上都很成功，但却不得不提这种方法的局限性。由于使用了GPT－2中的通用序列迁移器架构，这种方法需要大规模的计算资源，iGPT－L典型情况下需要2500 V－100 GPU日的计算才能达到MoGo模型的水平，而后者只需要约70 V100 计算日的训练。

此外，这一基于transformer模型的输入分辨率较低，而其他自监督方法可以利用卷积编码器轻松地处理高维度输入。也许在未来需要构建多尺度transformer的新架构来处理输入维度受限的问题。这一工作仅仅是大规模语言模型在新领域尝试的原型验证，无需领域知识的人工编码。然而庞大的计算量消耗、卷积网络的高精度表现使得这一方法在实际工作中并不实用。

最后，生成模型会受到训练序列中偏见的影响。有的对于构建上下文关系十分有利，但有的却会造成不好的结果。例如在训练数据中男性较多就会造成生成图像中包含更多的或者完全都是男性，而不是有男有女的场景。在未来的研究中希望可以对数据进行更有效的除偏处理，并更好的理解数据偏见与模型的关系。

利用语言模型GPT对图像进行处理的想法非常独特，实验也显示了这种非监督方法的对于全新领域的通用性，在提供足够计算资源的情况下序列transformer也许能在未来为很多新领域提供解决问题新思路。

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门创新服务、将门技术社群以及将门创投基金。将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

将门创新服务专注于使创新的技术落地于真正的应用场景，激活和实现全新的商业价值，服务于行业领先企业和技术创新型创业公司。

将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容，使创新成为持续的核心竞争力。

将门创投基金专注于投资通过技术创新激活商业场景，实现商业价值的初创企业，关注技术领域包括机器智能、物联网、自然人机交互、企业计算。在近四年的时间里，将门创投基金已经投资了包括量化派、码隆科技、禾赛科技、宽拓科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。

<上一页 1 2 3 4