难以“驯服”AI？IBM为企业提出了这些建议

2018-11-16 08:37

IBM的研究人员认为，由于概率性编程模式和混乱的数据，目前AI对企业而言难以驾驭，日前，IBM的沃森和阿尔马登研究中心发布了一篇题目为《刻画机器学习过程：一个成熟度框架》的论文，提出许多充满希望的建议，同时也暗示了一个实质性的问题：这家蓝色巨人是否能提出“驯服”AI这匹野兽的方法使其适用于企业的软件生命周期和业务流程呢？

IBM研究人员给出的建议是，需要仔细考虑机器学习的多个阶段，包括管理者应该如何为神经网络模型“设定目标”、如何为神经网络的输入构建数据管道（data pipeline）的示例、以及如何不断迭代和改进AI模型。另外，受管制产业需要特别注意一些地方，比如数据血统：所使用的数据的“合法性”是什么？

AI对企业的挑战在于机器学习编程和传统软件编程之间的本质区别：传统的软件应用程序是确定性的，但机器学习模型是概率性的。另外，使用混杂的数据来开发神经网络，这对企业而言并不合适。然而，截至目前关于机器学习建模的学术文献并没有提出如何使机器学习为企业工作的解决方案。

为了使AI达到适用于企业的成熟度，IBM的科学家建议将机器学习和大量有关诸如“应用生命周期管理”的文献保持一致，并扩展此类术语的含义以适应AI的新特性。IBM提出，一个机器学习的生命周期涵盖了各个阶段，企业必须在持续基础上不断为完成某个阶段的工作做好准备。

研究人员借鉴了Watts Humphrey在20世纪80年代对软件能力成熟度模型（Capability Maturity Model，CMM）的定义，CMM是对软件组织在定义、实施、度量、控制和改善其软件过程的实践中各个发展阶段的描述，其假设是：只要持续建立有效的软件工程过程的基础结构，不断改进管理的实践和过程，就可以克服软件生产中的困难。

这项工作最原始的贡献是研究人员关于神经网络应根据一个特定行业的特殊性进行开发的建议，而为了找到AI的业务用例，企业需要定制行业和领域通用的机器学习模型，并针对特殊的情况提供特殊的数据。

显然，IBM正在试图解决一个棘手的问题，事实上，机器学习的很多方面并无法与简洁规范的CMM相协调，尤其是深度学习。比如，IBM建议在企业内部监督下建立一套AI服务数据引导系统（AI Service Data Lead），在工作开始时，用于训练机器的数据被贴上ground truth（参考标准，即用于有监督训练的训练集的分类准确性）的标签，然而仍然有许多未受监督的机器学习试图在神经网络设计中远离ground truth。

也许最令人望而却步的前景是，在IBM看来，企业有责任确保神经网络不存在偏差，而偏差正是令整个AI社区都抓耳挠腮的棘手问题。IBM在论文中表示，负责开发神经网络的人员需要保证最后建立的模型是公正、透明、没有偏差的。

最后，尽管IBM的建议看起来颇为自信，但似乎现阶段的机器学习尚处在一种“未开化”的状态，正如论文的结尾所描述的那样，“企业对采用AI模型犹豫不决的另外一个原因就是，他们发现AI模型就像一个不透明的黑匣子，这点尤其在用深度学习技术对模型进行训练时更加突出。”