为什么要让AI价值对齐？

2023-12-19 11:07

文/陈根

随着AI大模型进入各行各业的应用，以及AI技术的持续迭代，关于AI是否会威胁人类的讨论也越来越多。

其实这样的讨论过去也有很多，甚至从AI技术诞生开始，就有人在担忧AI会不会有一天取代人类，或者威胁人类这个物种的存在。

只不过，今天，AI大模型的爆发，让这个问题一下子从抽象的讨论变得非常具体。我们必须要思考，我们该怎么迎接即将到来的AI时代；必须要面对，如果AI的性能以及达到人类水平甚至超越人类水平时，我们人类该怎么办，以及未来AI会不会有一天真的具有了意识，那个时候，人机发生冲突该又怎么解决。

而面对这些问题时，有一个概念也被人们重新提起，那就是“价值对齐”。这其实也不是一个新的概念，但这个概念放在今天好像特别合适。那么，到底什么是价值对齐？谁和谁的价值对齐？又怎么对齐？

简单来说，价值对齐，其实就是让AI的价值观和我们人类的价值观对齐，而之所以要让AI的价值观和我们人类的价值观对齐，核心目的就是为了安全。

大家可以想象一下，如果不对齐，会有什么后果。

比如哲学家、牛津大学人类未来研究所所长Nick Bostrom，曾经就提出一个经典案例。就是说，如果有一个能力强大的超级智能机器，我们人类给它布置了一个任务，就是要“制作尽可能多的回形针”，于是，这个能力强大的超级智能机器就不择手段的制作回形针，把地球上所有的人和事物都变成制作回形针的材料，最终摧毁了整个世界。

这个故事其实早在古希腊神话里就发生过。说的是一位叫迈达斯的国王，机缘巧合救了酒神，于是酒神就承诺满足他的一个愿望，迈达斯很喜欢黄金，于是就许愿，希望自己能点石成金。结果迈达斯真的得到了他想要的，凡是他所接触到的东西都会立刻变成金子，但很快他就发现这是一个灾难，他喝的水变成了黄金，吃的食物也变成了黄金。

大家从这两个故事里有没有发现一个问题，不管是超级智能机器还是迈达斯，它们都是为了自己的目的，最后超级智能机器完成了回形针任务，迈达斯也做到了点石成金，但得到的结果却是非常灾难的。因为在这个过程中，它们缺少了一定的原则。

这就是为什么今天价值对齐这个概念会被重新重视的原因。AI根本没有与人类同样的关于生命的价值概念。在这种情况下，AI的能力越大，造成威胁的潜在可能性就越大，伤害力也就越强。

因为如果不能让AI 与我们人类“价值对齐”，我们可能就会无意中赋予AI与我们自己的目标完全相反的目标。比如，为了尽快找到治疗癌症的方法，AI可能会选择将整个人类作为豚鼠进行实验。为了解决海洋酸化，它可能会耗尽大气中的所有氧气。这其实就是系统优化的一个共同特征：目标中不包含的变量可以设置为极值，以帮助优化该目标。

事实上，这个问题在现实世界已经有了很多例子，今年11月，韩国庆尚南道一名机器人公司的检修人员，被蔬菜分拣机器人压死，原因是机器人把他当成需要处理的一盒蔬菜，将其捡起并挤压，导致其脸部和胸部受伤严重。而后他被送往医院，但因伤重而不治身亡。

除此之外，一个没有价值对齐的AI大模型，还可能输出含有种族或性别歧视的内容，帮助网络黑客生成用于进行网络攻击、电信诈骗的代码或其他内容，尝试说服或帮助有自杀念头的用户结束自己的生命等等。

好在当前，不同的人工智能团队都在采取不同的方法来推动人工智能的价值对齐。OpenAI、谷歌的DeepMind各有专注于解决价值对齐问题的团队。除此之外，还有许多第三方监督机构、标准组织和政府组织，也将价值对齐视作重要目标。这也让我们看到，让AI与人类的价值对齐是一件非常急迫的事情，可以说，如果没有价值对齐，我们就不会真正信任AI，人机协同的AI时代也就无从谈起。

原文标题 : 陈根：为什么要让AI价值对齐？