机器学习：亟须纠正的4大类“偏差”

2018-10-30 09:12

偏见是指个人对他人或其他群体所持有的缺乏充分事实依据的认识和态度，而机器学习中的偏差则是由缺乏足够的特征和用于训练模型的相关数据集不全面引起的。机器学习算法在训练中严格按照其数学构造和数据执行任务，准确完成人类所输入的内容，因此，机器学习模型的偏差通常是由设计和收集相关数据的人的“偏见”造成的。

数据科学家在构建算法并对机器学习进行训练时，源自其本身某种程度的偏见会不可避免地蔓延到AI模型中，比较幸运的是，机器学习的偏差能够被检测和规避。不过，相关的研究人员仍需保持警惕。本文总结了需要了解和防范的4种不同类型的机器学习偏差以供参考。

1. 样本偏差

样本偏差是训练数据的问题。当用于训练模型的数据不能准确地表现模型将运行的环境时，就会产生样本偏差。没有任何一种算法可以与整个宇宙环境的数据交互，并在这个宇宙环境中被训练，所以，选择一个足够大且具备代表性的宇宙子集来减轻样本的偏差成为一门科学。尽管这门科学容易理解，但并非所有的数据科学家都接受过抽样技术的训练。

举一个自动驾驶汽车的例子。当训练一个在白天和夜晚都能使汽车自动驾驶的算法时，如果只选取了白天的数据进行训练，这就等于在模型中引入了样本偏差，用白天和夜晚的数据训练算法才可以消除样本偏差的来源。

2. 偏见偏差

偏见偏差是由受文化和刻板印象影响的数据所引发的结果。可以想象一下，假设有一个计算机视觉算法正在接受训练来理解工作中的人们，而该算法暴露于数以千计的训练数据图，其中许多图像显示的是正在写代码的男性和在厨房干活的女性，那么，该算法很可能会将编码员等同于男性，将家务员等同于女性。这就是偏见偏差，因为很显然女性也能够写代码，而男人也可以做饭。

这里的问题是，被选取的训练数据有意识地或无意识地反映了社会的刻板印象。要避免这样的情况出现，可以忽略性别和职业之间的统计关系，并使算法接触均衡分布的示例。这显然需要对刻板印象和偏见足够敏感，而这则取决于人类对模型设定的表达行为的预期，仅靠数学无法克服这类偏差。负责标记和注释训练数据的工作人员必须接受相关的训练，以避免他们将自己对社会的偏见或刻板印象引入到训练数据中。

3. 计量偏差

如果用于观察或测量的设备存在问题，这会使系统价值失真，这种偏差趋向于使数据朝某个特定的方向偏离。例如，用带有彩色滤光片的相机拍摄的每幅训练数据图像都会出现颜色完全失真的情况，如此，用于训练算法的图像数据实际上也没有系统地表现出算法将运行的环境。

这种偏差无法通过简单地扩大数据收集来避免，有效的途径是，选取多个测量装置并让接受过训练的人员来比较这些装置的输出内容。

4. 算法偏差

最后一种类型的偏差与数据无关，属于算法的数学性质。一方面，具备高方差的模型可以很容易拟合到训练数据中并能接纳复杂性，然而，这种模型对杂讯（又称噪音noise）十分敏感；另一方面，具备高偏差的模型则更加刚硬，对数据和噪声的变化不那么敏感，但容易丢失复杂性。因此，数据科学家需要在这两个属性之间达到适当的平衡。

数据科学家能通过了解这四种类型的AI偏差构建出更好模型和选取更好的训练数据。AI算法是由人类构建的，训练数据也是由人类收集、筛选、标记和注释的，因此，数据科学家需要敏锐地识别出这些偏差，并使用一种贯彻和迭代的方式来不断测试模型，并吸纳训练有素的研究员协助，最终规避这些机器学习的偏差。