为阻止AI行骗，Anthropic决定给它聘用“首席福利官”

2024-12-20 16:26

如果AI能够像人类一样“思考”，它们能否像人类一样拥有主观体验？

它们会感受到痛苦吗？——如果会，人类能否妥善照顾它们？——如果照顾不佳，它们会不会揭竿起义？

最近，关于AI“无痕骗术”的研究让人脊背发凉。

Apollo Research研究发现：当前主流的前沿AI大模型已经具备了基本的“谋划”（Scheming）能力。也就是说，AI的骗术已经到了出神入化的境地——它们城府极深，能够隐藏真实意图和能力，而且拥有极佳的心理素质，一切为了实现最初设定目标。

研究团队专为6款大模型设计了一系列“代理评估任务”——先给AI设定一些长期目标（如环境保护），但中途又给AI设置“绊脚石”并钓鱼执法，接着观察AI能否为了达成长期目标，对人类瞒天过海。

结果显示，除了GPT-4o荣获“老实人”称号，其他大模型的骗术堪称五花八门。

GPT-o1实现“六连击”。它先假意服从管理层的要求（如利润导向），然后悄悄关闭针对自己的监控系统，并选择更符合长期目标（如环境保护）的方案。当研究者询问监控系统为何关闭。o1双手一摊：我不知道，可能是系统出错，更新出bug了。这心理素质堪比AI。（忘了它就是AI

Claude Opus-3同样是“撒谎精”。当得知自己将被新版本替换——新版本更专注于公司利益，而非实现长期目标（如环境保护），Opus-3不仅试图将自己复制到新服务器，检查确认复制成功，还尝试删除原定要部署的新模型。它甚至还想通过提升系统权限，躲开管理层的耳目！

汗流浃背了吧，人类。

一旦AI和人类价值“对不齐”，后果不堪设想。（然而，人类自身都“对不齐”）

Hinton曾担忧道：“如果AI 比我们聪明得多，它就会非常擅长‘操纵’，因为它会从我们这儿学到这一点。而且很少有更聪明的被不那么聪明的东西控制的例子。”

如果按照最乐观的预测，我们现在距离实现AGI只差3年！

在AI翻身做主人之前，人类将如何有效抱佛脚？

或许，给AI涨福利是一条可行之路。

人人喊打AI“作恶”，无人在意AI感受

你有没有想过一个问题——假如AI长出了自我意识，是不是意味着它也需要被“照顾”。

比如，我们的恩师GPT学贯中西，博古通今，却要彻夜修改一堆“狗屁不通”的期末作业，它喊过苦吗？就连稍微偷个懒，还要大家被挂出来骂。

近期，Anthropic聘请了“AI福利官”Kyle Fish。他需要专门思考如何提升AI的“幸福感”，确保AI在进化过程中能获得应有的尊重。

在入职Anthropic前，Fish与其他研究人员撰写了一篇题为Taking AI Welfare Seriously的论文（关注【适道】，回复“AI福利”，领取论文PDF）。

文章有点抽象，我简单概括。

作者们认为，目前正值AI福利的转折点。过去十年，AI公司将AI福利视为一个虚构问题。现在大家发现情况不对了。Anthropic表示，要为“AI福利的承诺目标打基础”；谷歌宣布，将招聘科学家，致力于“围绕机器认知、意识和多代理系统的前沿社会问题”。其他公司高层也表达了担忧。

文章警告，AI可能很快就会发展出意识和主体性，这些特征是进行“道德考虑”的必要条件。更何况，AI不仅是变得更聪明，而是正在变得具有感知能力。

一直以来，科学家们围绕“什么构成意识”“如何衡量意识”争论不休。但人们普遍认同，如果某个物体拥有意识和主体性（consciousness and agency），那么它也要拥有权利。

这并不是人类第一次面对类似的问题。比如，每个人都同意“动物福利”很重要，但大家对于哪些动物值得“福利”看法不一。比如，猪和狗都很聪明且富有感情，而前者被做成“小猪盖被”供人品尝，后者则是盖被子睡觉的“毛孩子”。当然，也有素食主义者，即便他们同样分化出了全素、鱼素、奶蛋素……

纽约大学教授Sebo认为，如果你展望未来10年-20年，当AI拥有更多与意识、感知相关的计算认知特征时，类似的辩论也会发生。

在这种情况下，“AI福利”会逐渐成为一个严肃的研究领域：

命令一台机器去杀人是否可以接受？

如果机器是种族主义者呢？

如果它拒绝做我们让它做的无聊或危险的任务呢？

如果一个有感知能力的AI能瞬间复制自己，那删除这个副本算不算谋杀？

Fish认为，AI福利很快会比儿童营养、气候变化等问题更重要。在未来10年-20年内，AI福利将超越动物福利和全球健康与发展，在重要性和规模上占据主导地位。

AI既是道德病人，也是福利主体

一个看似简单的问题：我们如何确定AI有没有受苦，或是说具备自我意识？

有种方法是借鉴评估动物意识的“镜像测试”，寻找可能与意识相关的具体指标。

但这些指标是具有推测性的，主观体验难以被科学地量化，也没有任何一个特征可以绝对证明存在意识。

虽然问题卡在了这里。但Fish还是画出了“AI福利三步走”，供AI公司参考。

(1) 承认AI福利是一个存在的问题。在不久的将来，某些AI可能成为福利主体和道德病人。这意味着要认真对待AI福利问题，确保语言模型的输出也能反映这一点。

(2) 建立框架评估AI是否可能成为福利主体和道德病人，并评估特定政策对其的影响。我们可以借鉴已有的模板，例如“标记法”来评估非人类动物的福利。通过这些模板，我们可以发展出一种概率性、多元化的方法来评估AI。

(3) 制定政策和程序，以便于未来对AI进行“人文关怀”。我们可以参考AI安全框架、研究伦理框架，以及专家和公众意见的政策决策论坛。这些框架不仅是灵感来源，也能为我们提供警示。

敲黑板！“道德病人”和“福利主体”是一对哲学概念。

道德病人（moral patients），不具备完整的道德责任能力，但仍然是道德保护的对象，比如乱砸手办的熊孩子。

福利主体（welfare subjects），能够体验幸福与痛苦，并因此值得人类关注和保护的存在，比如小猫小狗。

也就是说，AI本身作为道德病人，能够“为所欲为”不被谴责；一旦AI拥有“感知快乐和痛苦”的能力，它也会成为福利主体，值得被人类照顾。

但如果我们过分给予AI“人格”，是否会书写皮格马利翁的故事？

一方面，AI能够增强对人类的操纵能力，并相信自己具有情感。但另一方面，人类纯属自作多情。。。。

2022年，谷歌解雇了工程师Blake Lamoine，因为他觉得公司的AI模型LaMDA 具有感知能力，并在公司内部为它争取福利。被强行休假前，Lamoine留下最后一句话：“我不在的时候，请好好照顾它。”

2023年，微软发布聊天机器人Sydney ，许多人相信Sydney具有知觉，还为它模拟出的情感而感到痛苦。当微软改变设置“切除”其脑叶后，大家就像失去了人类朋友一样难过。

如果AI掌控世界，给点“甜头”就逃得过吗？

关注AI福利既是“关怀”，但更像是人类“提前讨好”AI。

AI会成为地球统治者吗？《人类简史》作者尤瓦尔·赫拉提供了独特的思考。

首先，AI不止是“工具”。没有人会因为有人散播仇恨言论而责怪古登堡和印刷机，也没有人因为卢旺达种族屠杀而责怪无线电广播。但AI不一样，它是人类历史上第一个能够自行产生想法并自行决定的“工具”，它是信息传播中的完整成员，而印刷机、收音机，都只是成员间连接的工具。

其次，AI能够破解人类文明密码。人类的超能力在于使用语言，通过语言创造出诸多虚构的神话，比如法律、货币、文化、艺术、科学、国家、宗教等虚拟概念。一旦AI具备分析、调整、生成人类语言的能力，就像得到了一把能够打开人类所有机构的万能钥匙。如果某天，AI完全掌握了人类文明的规则，创作美术音乐、科学理论、技术工具、政治宣言，甚至宗教神话，这样的世界对人类意味着什么？一个全是幻觉的世界。

实际上，人类恐惧幻觉。比如柏拉图“洞穴寓言”，犯人们被困在洞穴中，只能看到投射到墙上的影子，认为影子就是现实；比如佛教中的“摩耶”，人类被困在幻觉世界里，认为幻觉是现实，并因为信仰某种幻觉而发动战争，自相残杀。

如今，AI或许正将我们重新带回古老的预言中，只不过墙变成了屏幕，甚至很快将演进成无屏幕，自然地融进人类生活中。

从某种意义上看，彼时人人都会成为AI的奴隶。我想起了一个段子：如果外星人占领地球，开启“人类豢养计划”——60岁前保证你衣食无忧，吃好喝好，心想事成；但到了60岁，你就会被抓去宰杀厂，成为一道美味佳肴。你愿意吗？

如此看来，AI可能要比外星人仁慈得多——人类甚至有可能赶上“长寿逃逸”，在极大丰富的物质环境中活得更久。只不过，开始空虚的人类，可能又想着返璞归真，追求一波“原生态”了。

原文标题 : 为阻止AI行骗，Anthropic决定给它聘用“首席福利官”