实现AGI道路上，数据科学家防不胜防的9大陷阱

2019-08-01 09:49

最近几个月，科技研发的速度也越来越快。微软宣布将投资10亿美元，与科研实验室OpenAI联手打造通用人工智能（AGI），也就是人工智能的最高目标。OpenAI的首席执行官Sam Altman表示，AGI将成为人类历史上最重要的技术。

对于某些特定的任务，计算机能做得比人类好很多。但他们不具备智慧、常识和批判性思维，因此它们无法像人类那样去应对一些特殊情况（比如一些未定义的情形、模糊的规则、模棱两可甚至自相矛盾的要求）。随着技术的发展，计算机也许能做到人类大脑能够完成的任何事情，但之前微软的表现并不让人满意。

2016年，微软发布了聊天机器人Tay，这家公司称“它能与人类在线交流，语言随和风趣”。Tay的编程语言让它表现得像一位千禧一代的女性，在学习训练过程中，它就是在模仿千禧一代的讲话方式。微软表示，“你和Tay聊得越久，那么它就会越聪明。”在不到一天的时间里，Tay发送了9．6万条推特，拥有超过5万名关注者。但这个问题最终出在Tay自己身上，它讲的内容越来越令人厌恶。“元首是对的，我讨厌犹太人。”“911事件是有内幕的。”“我非常讨厌那些女权主义者。”Tay非常善于利用它接收到的词汇和词组，但它无法根据语境来说话，也不理解自己发送的推特到底是什么意思。因此微软在16个小时后就关闭了Tay，但不到一周，它又重新上线。后来微软称第二次上线是个意外，并再次关闭了Tay。

AGI也许是一个美好的梦想，而数据科学让我们有机会去利用大数据和强大的计算机，作出基于现实而非空想或偏见的决策。但不幸的是，在数据大规模出现之后，企业和政府仍然在重复之前犯过的一些错误，而且重复的速度更快。将重要的决策交给机器，只是实现了“犯错的自动化”。

数据科学不仅仅是数学证明、统计计算和计算机编程。真实的人类智能也必不可少：比如实验设计、智慧、常识、怀疑和批判思维等。数据科学家并不是要成为一台机器，不断地尝试新模式，不断地进行曲线拟合；他们更应该成为一位科学家。

如果数据科学家想要充分挖掘数据科学的潜力，他们应该避免以下九种常见的错误。

1．使用劣质的数据

第一代机械计算机的投资者Charles Babbage曾被国会成员两次提问：“Babbage先生，如果我们给计算机输入错误的数据，那么它会得到正确的答案吗？”显然优质的数据必不可少，而非可有可无。

芝加哥医院对一批脓毒症患者进行过一次研究，它发现，血液pH值较低的患者在出院后，重新回医院治疗的可能性更低。两者的相关系数达到了0．96。但是这些数据还包含了一些在住院期间死去的患者，也就是说这些患者通过太平间离开了医院，是绝对不可能回来重新治疗的。最后将这些死者的数据去掉，就会发现血液pH值较低的患者反而是更加危险的。

2．将数据的地位放在理论之上

一些数据科学家在没有理论和常识的指导下，为了模型搜索大量数据。他们认为对于一个问题的定向思维会影响新的发现。然而不幸的是，大多数时候泛滥的数据都是没什么意义的。大数据领域的一个悖论就是，我们为一个模型输入的数据越多，最后发现它无用或错误的可能性越大。

一位互联网营销人员在大约100个国家测试过三种可选的登录页面颜色（黄色、红色和蓝绿色）与它传统的蓝色之间的对比，从理论上讲，他应该会发现某些国家采用特定的颜色，会带来更高的收入。比如他认为英格兰更喜欢蓝绿色，但实际上并不是。

3．盲目崇拜数学

数学家热爱数学，非数学专业的人惧怕数学。这两者的组合可能会催生大量不切实际的模型。

在经济大萧条时期，由于假定违约事件的发生是独立分布的，许多按揭贷款违约的数学模型都失效了。这些人低估了极端事件的可能性，同时也没有考虑在经济大萧条的背景下，无法按期偿还贷款的可能性本身就更高。

4．盲目崇拜计算机

常常有人认为，计算机做某些事情做得很好，所以它们一定有非常高的智能，但要知道适用于特定任务和普遍适用多项任务之间还有很大的差别（甚至这些任务还可能完全不一样）。我们对计算机的依赖并非百利而无一害。如果认为计算机比我们更聪明，从而将所有决策交给计算机，可能会带来灾难性的后果。

5．反复捣腾数据

为了寻找数据之间的隐藏关系，有些人会把数据按照多种方式进行分类。诺贝尔经济学奖得主罗纳德·科斯就说过：“如果你不停地操作一些数据，机器自己都会糊涂。”但大数据和强大的计算机却助长了这种行为。

一位著名研究员曾在他的助手分析数据时，告诉后者“尽可能多地从数据中榨取信息”。当时他的助手试图通过机器视觉将一间意大利自助餐厅的客人分为“男性、女性、吃中饭的、吃晚饭的、单独吃饭的、两人吃饭的、两人以上一起吃饭的、点了酒精饮料的、点了软饮料的”等。最后这些“榨取的信息”变成了四篇“披萨论文”，其中最著名的一篇称“男性在女性一起吃饭时，会多吃93％的披萨”。如今他的十几篇论文都被退回，人也被大学辞退。

6．自我欺骗

诺贝尔物理学奖得主理查德·费曼曾向科学家们提出过一条建议：“首要原则就是不要欺骗你自己——因为你自己是最容易被糊弄的。”真正的科学家是分享自己的理论、质疑自己的假设，然后寻找机会做实验来验证或推翻假设。而摆弄数据的人只会看到自己想看的东西。

曾有一份研究要求一所高校的学生预测自己的数学测验成绩。结果预测的平均分数比实际分数要高，但两组数据之间的相关系数高达0．70。因此作者得出两条结论。第一，这些学生高估了自己的能力。第二，为提高学生的自信心，打分可以适当高一些。对于第一条，可能是学生低估了测验的难度。对于第二条，较高的相关系数表明学生其实对自己的数学水平很有信心，少数认为自己考不好的，也只是不太熟悉材料。他们并不是太过于悲观，而是非常现实。

7．把相关性当作诱因

不论被告知多少遍“存在相关性并不一定是诱因”，但研究人员总是会不自觉地忽略这条重要的建议。

2011年，谷歌创建了一个人工智能项目Google Flu，它用搜索请求来预测流感的爆发。当时他们夸下海口：“我们能精准地预测出美国各个地区未来一周的传染状况，每天更新一次。”他们称模型的精准度已经达到97．5％，也就是模型预测结果和实际流感案例的相关系数已达到0．975。谷歌是怎么做到的呢？它的数据挖掘项目浏览了5000万条搜索请求，并确定了其中45条请求最有可能和流感相关。由于流感的爆发具有高度的季节性，Google Flue更像是一个季节检测器，它会挑选季候性的搜索词汇（如圣诞节、寒假和情人节等）。当离开了历史数据，开始真刀真枪地预测时，Google Flu的准确率就大大地下降。在发布报告后，Google Flu误报了未来108周内的100起流感案例。从此，Google Flu再也不去预测流感了。

8．不要对平均值的回归过于惊讶

当数据波动时，预测值可能会高于检测值，但随后就会继续趋于平均值。比如一位高尔夫选手赢了大师锦标赛冠军，不代表下一次他也能赢。并不是说他下次会倒霉，或者技术会退步，也许这次胜利本来就是超水平发挥。

数据也会在未来回归平均值，这有点类似于防止一次“发挥失常或超常发挥”。例如一家数据科学公司做过一个实验，它将一位客户的网页布局和100多万域名中20个常用的布局进行比较。客户们经常会抱怨自己的网站表现不佳，认为网站本来还能赚更多的广告营收。因此它给一位数据分析师一系列网站域名，这些网站在过去三个月的营收都在下降，分析师可以根据它来调整网页布局，看看能否提高营收。结果他成功了，第二天的营收数额上涨了20％，当时他就仿佛一位万众瞩目的摇滚歌手。但直到某一天他太忙了，来不及做任何改变，营收就开始下降。所以这些网站仍然属于那些表现不佳的一类，他们的营收最终会回归平均值。

9．不要伤害用户

不幸的是，在大数据时代，企业和政府为了预测和影响我们的行为，都在时时刻刻搜集我们的数据。优秀的数据科学家会很谨慎地处理这个过程，充分尊重我们的权利和隐私。数据科学的黄金法则：对待别人就像对待你自己那样。

一家互联网约会网站做过三个实验。实验一，他们暂时移除了网站上所有的照片，结果发现很少有人愿意主动发信息，这证明了爱情不是“盲目”的。实验二，他们随机隐藏了人们的部分简介，结果发现对用户的评价没有太大影响，这证明了爱情是“不会仔细阅读”的。实验三，他们对调了匹配程度评级，例如将最匹配的人贴上“最不匹配”的标签，反之亦然。第一和第二个实验对用户没有太大的伤害，但第三个就有问题了。因为用户不希望自己的生活被不合适的人打扰。约会时遇到一个错误的对象还只是痛苦一时，错过一个合适的对象可能会影响一生。

要避免这些陷阱，必须时刻留意。为了将数据融入科学，我们更应该表现得像一位科学家，而非一台机器。