缺乏训练样本医疗AI“喂不饱”？腾讯优图实验室想了这两个办法

2019-06-04 17:15

“医学影像本质上是一个图像识别问题，面临的最大挑战是小样本学习的问题。”

5月30日－6月2日，由中国医师协会、中国医师协会放射医师分会主办，广东省人民医院及广东省医师协会放射医师分会承办的“中国医师协会第十三次放射医师年会”在广州召开，这也是中国放射学界最高级别的会议之一，影像组学与医学影像人工智能领域的跨界融合是这次会议的重要议题之一。

腾讯优图实验室医疗AI总监郑冶枫博士受邀出席，并进行题为“深度学习在医学影像分析上的应用”的主题分享，分享优图实验室通过迁移学习和计算机合成图像两大方法，突破医疗AI数据量不足，没有办法像传统机器学习那样用大数据进行喂哺的问题。

郑冶枫博士在中国医师协会第十三次放射医师年会上做主题演讲

腾讯优图实验室是腾讯顶级人工智能实验室之一，专注于在人脸、图像、视频、医疗影像等领域开展技术研究。腾讯首款将人工智能技术运用在医学领域的产品“腾讯觅影”，即是由腾讯医疗健康事业部牵头，优图实验室提供的算法支持。

医疗AI面临“双重挑战”

当前人工智能技术的迅猛发展，与强大的计算能力、合理的优化算法和高质量的大数据密切相关。要让机器像人类那样思考，成为医生的得力助手，就必须“喂”给它大量的数据，帮助它从中找出规律。但是，在医疗人工智能领域，这一切却没有这么简单。郑冶枫博士提到，近年来，深度学习在包括图像识别、游戏、语音识别、自然语言处理等方面取得了重大发展。但是，医疗AI的发展却面临“双重挑战”。

一是缺乏训练样本。郑冶枫博士表示，“深度学习的目标是尽量端对端，图像进去、结果出来，因而网络越来越大，越来越多层，需要的训练样本也越来越多。”但与自然场景下自然图像获取不同，医学影像的获取十分艰难。一方面，患者对于个人的就医隐私要更为重视，医学图像几乎不会上网和共享；另一方面，图像采集的“高门槛性”也制约着训练样本的获取。“医学影像采集需要专门的设备，有一些设备非常昂贵，比如CT和核磁。”同时，疾病本身的特殊性也对算法工程师获取样本造成阻碍，郑冶枫博士表示，“对于一些罕见病种，能够找到的图像就只有几百张或者一千来张，因为每年的发病量就那么多。”

二是缺乏标注。郑冶枫博士介绍道，对于自然图像来讲，其标定相对容易，即便是普通人也能够直接标注。但医学影像不同，其标注需要行业顶尖的专业医生参与。“现实是，培养一个医生需要十年时间甚至很长，加上临床、科研任务重，做数据标注对于医生来说也是‘有心无力’。”

两大方法突破医疗AI小样本学习问题

缺乏训练样本、缺乏标注这两大挑战让深度学习“弹药不足”，由此衍生出的“小样本学习”问题一定程度上阻碍了AI医学影像的发展。郑冶枫博士提出，有两种方法有助于解决这一问题：一是迁移学习；二是计算机合成图像，比如生成对抗网络。

在介绍迁移学习的概念时，郑冶枫博士用了一个生动的比喻：“比如说一个人去森林里找老虎，但从来没有见过老虎，不知道老虎长什么样。但假如他可以把猫和狗、狐狸等其他动物区分开来，就可以先训练他去找猫，这就是预训练的过程。接下去，我们告诉对方：老虎就是黄色的猫放大100倍，从而达到‘找老虎’这个目的。”他强调，迁移学习非常适用于解决小样本的训练问题。

另一个方法则是计算机合成图像。郑冶枫博士表示，通过影像跨模态转换，计算机合成图像能够有效补充训练样本，而生成对抗网络则让训练如虎添翼：一个网络生成图像，一个网络鉴别目标的真伪，把两个网络做一些联合训练。训练结束时，生成网络可以产生非常逼真的图像。郑冶枫博士以肝癌为例，“有时候跨模态生成的图像会扭曲，会生成一些新的病灶，也可能遗漏一些病灶，为此，我们在研究过程中会加上各类限制，减少生成图像的失真。我们的算法很完美地保留了器官和病灶的形状，是在用非常真实的图像作为训练任务，通过这种方法，能够让准确率得到明显的提升。”

“腾讯觅影”能精确定位3mm以上的微小肺结节，检出率≥95％

医疗AI逐步落地提升诊断准确率和效率

通过迁移学习、计算机合成图像等方法，影像诊断领域的深度学习取得了显著进展。以肺结节检测为例，郑冶枫博士介绍道，目前肺结节检查方式主要是肺部CT，随着薄层低剂量CT的应用，图像数量的倍增、小结节显示率的提高及结节的定量测量等使得读片的难度显著增加，同时，繁重、枯燥的阅片工作使影像科医师的疲劳度增加，漏诊、误诊的风险也在增加。

人工智能的运用，使得这些问题逐步得到解决。经过不断地迭代和更新，“腾讯觅影”早期肺癌筛查AI系统采用了腾讯优图实验室的“端到端肺癌辅助诊断技术”，能够精准定位微小结节位置和辅助医生准确判断患者患有肺癌的风险。预处理模块、检测与识别模块是这一系统的核心算法。前者利用肺部的三维分割和重建算法，可以处理不同CT成像设备在不同成像参数条件下产生的不同源数据。而后者采用了“深度学习领域最好的分割算法”——全卷积神经网络，可以实现早期肺结节检测和分割。郑冶枫博士表示，全卷积神经网络有两部分，一部分是编码器，把图像不断卷积和下采样，最后压缩到低维空间，这是不同任务可以共享的。一部分是解码器，不断卷积和上采样，最后输出一个输入图像大小一样的分割结果，这部分是每个任务独有的。我们预训练的编码器会把所有任务的图像都看一遍，因此训练得非常好。”

“把编码器训练好之后，就将其迁移到其它任务，如肺部分割和肺结节良恶性判断上。采用公开数据集，发现不仅仅分割可以做得很好，分类也可以做得很好。”郑冶枫博士强调，“在医疗AI上，技术方面大部分工作都差不多，最后的竞争还是在细节方面。比如在良恶性的判断上，腾讯提出了Med3D预训练模型，该模型采用多个公开竞赛数据集进行训练。通过选取三维医学影像进行图像分割任务，并对这些数据进行抓取、收集，预训练一个模型，能够大幅提高分割和分类的准确率，解决了大部分结节不活检，不知道良恶性的问题。”

据了解，目前，“腾讯觅影” 通过人工智能医学图像分析能力辅助医生阅片，已经能精确定位3mm以上的微小肺结节，检出率≥95％。同时，除早期肺癌外，“腾讯觅影”还能利用AI医学影像分析辅助临床医生筛查早期食管癌、眼底疾病、结直肠肿瘤、宫颈癌、乳腺肿瘤等疾病。