测量模型不确定性的两种简单方法

2022-02-07 15:49

在本文中，我们将介绍两种方法，它们允许你获得模型的不确定性：蒙特卡罗Dropout法（MC Dropout）和深度集成法。

它们适用于各种各样的任务，但在本文中，我们将展示一个图像分类的示例。它们都相对容易理解和实现，都可以很容易地应用于任何现有的卷积神经网络架构（例如ResNet、VGG、RegNet等）。为了帮助你快速轻松地应用这些技术，我将提供用PyTorch编写的这些技术的补充代码。给出两个杯子的图像，你的预测模型有多确定？

在我们开始之前，让我们回顾一下测量模型不确定性意味着什么，以及它如何对你的机器学习项目有用。

什么是模型不确定性？

就像人类一样，机器学习模型可以对其预测显示一定程度的信心。一般来说，在讨论模型不确定性时，需要区分了认知不确定性和任意不确定性。认知不确定性是在模型参数中表示的不确定性。这种类型的不确定性可以通过额外的训练数据来减少，因此具有“可减少的不确定性”的替代名称。任意不确定性捕获环境固有的噪声，即观测。与认知不确定性相比，这种类型的不确定性不能用更多的数据来减少，而是用更精确的传感器输出来减少。第三种类型称为预测不确定性，即模型输出中传递的不确定性。预测不确定性可以结合认知不确定性和任意不确定性。

分类器的softmax输出示例：

如果你自己已经训练过简单的神经网络，那么最直观的想法就是模型的softmax输出，即你经常看到的作为模型预测结果显示的百分比值。

但是，使用softmax输出作为模型不确定性的度量可能会产生误导，并且不是很有用。这是因为softmax函数所做的只是计算模型不同激活值之间的某种“关系”。

因此，你的模型可以在其输出层的所有神经元中具有较低的激活值，并且仍然达到较高的softmax值。这不是我们的目标。但值得庆幸的是，有多种更有效的技术来估计模型的不确定性，如蒙特卡罗Dropout和深度集成。

为什么模型不确定性有用？

有两个主要方面使评估模型的不确定性变得有用：

首先是透明度。假设你正在构建一个应用于医学图像分析的机器学习模型。因此，使用你的工具的医生在很大程度上依赖于其做出正确诊断的能力。

如果你的模型现在做出了一个预测，它实际上是高度不确定的，但确实将此信息传达给了医生，那么对患者治疗的后果可能是致命的。因此，对模型的不确定性进行估计可以在很大程度上帮助医生判断模型的预测。

第二是显示出改进的空间。没有一种机器学习模型是完美的。因此，了解模型的不确定性和弱点实际上可以告诉你需要对模型进行哪些改进。

实际上，有一门完整的学科专门研究这门学科，叫做主动学习。假设你已经用1000张图片和10个类训练了你的ConvNet。但你仍然有9000多张尚未标记的图像。如果你现在使用经过训练的模型来预测哪些图像是最不确定的，则标记这些图像并重新训练模型。结果表明，与这些图像的随机抽样相比，这种不确定性抽样对模型改进更有效。

好了，让我们来讨论这两种技术。

技巧1：蒙特卡罗Dropout

Monte Carlo Dropout，简称MC Dropout，是一种在模型中使用Dropout层来创建模型输出变化的技术。

应用于神经网络的Dropout可视化。