GPT付费订阅再度开放，AI界的「石油危机」解决了？

2023-12-15 15:57

众人拾柴火焰高。

北京时间 12 月 14 日凌晨，OpenAI CEO Sam Altman 在 X（Twitter）上发布了一则推文，正式宣告重新开放 ChatGPT Plus 新用户订阅。按照 Altman 的说法，核心原因是 OpenAI 已经找到了更多的 GPU，原文是：we found more gpus.

就在 1 个月前，也是 Altman 宣布暂停 ChatGPT Plus 新用户订阅（20 美元/月，约合人民币 141 元/月），理由是「开发日后使用量的激增超出了我们的承受能力，我们希望确保每个人都有良好的体验。」

即使对于风头正盛的 OpenAI 来说，这也不是一件易事。

要知道，顶级 GPU，或者是算力早就成为了科技公司的一种战略资源，甚至是吸引顶级研究人员的「利器」。公开报道指出，作为全球英伟达 H100 GPU 储备第二多的公司，Meta 已经将大量 H100 作为吸引顶级 AI 人才的招聘策略。

难怪 Altman 新推文下面有网友再次感叹道：「GPU 是新的石油。」

图/ X（Twitter）

但算力依然受限，核心是大模型训练、推理都严重依赖于英伟达高端 GPU，而英伟达又受限于台积电先进芯片制造工艺、封装工艺以及韩国 HBM 内存的产能。

说到底，还是算力不够用，「供给」赶不上「需求」。这不仅是 OpenAI 一家公司，也是整个 AI 行业所面临的危机。但现在 OpenAI 重新开放了 ChatGPT Plus 订阅，又是否意味着行业已经走出了算力短缺的危机？

并不尽然。

自始至终，OpenAI 都没有明确指出所谓「找到」，是指从「算力之王」英伟达购买到了更多的英伟达 GPU，还是从「幕后大佬」微软那里拿到的支持，又或是从「最强备胎」AMD 买到最新一批的 AI 芯片 Instinct MI300X。

但至少可以肯定，算力市场正在经历一轮洗牌。

英伟达的对手们

一周前，谷歌 DeepMind CEO Demis Hassabis 代表 Gemini 团队正式推出了全新一代多模态大模型 Gemini，拥有「视觉」和「听觉」，还有强大的学习和推理能力。其中，Gemini Ultra 直接对标公认最强大的 GPT-4 模型，行业推测参数超万亿。

更耐人寻味的是，在一众基于英伟达高端 GPU 训练出的大模型中，Gemini 是唯一一个完全基于自研 AI 芯片—— TPU 训练出的万亿参数大模型。

TPU v5p 集群，图/谷歌

从单片性能来看，不管是 TPU v5e、v4 还是最新发布的 v5p 其实都远不是英伟达 H200、H100 的对手。以谷歌最新的 TPU v5p 为例，INT8 下的峰值算力仅为 918 TFLOPs，远低于上一代英伟达 H100 的 1979 TFLOPs。

但就像半导体研究机构 Semianalys 首席分析师 Dylan Patel 指出的，「对人工智能基础设施来说，系统能力比微架构更重要。」通俗来讲就是，芯片集群的算力比单块芯片的算力更重要。

在大模型训练、推理的大规模计算之中，单块芯片计算完成后需要进行通信，但受制于通信效率实际往往无法做到全部传输，这就意味着部分算力被浪费了。行业抢购英伟达 GPU 除了因为最成熟的 CUDA 生态，在于单块更强 GPU 提供的效率提升，更在于英伟达 NVLink、NVSwitch 等通信技术可以实现芯片集群的算力最大。

图/英伟达

而谷歌自研 TPU 一开始的目的就是用在全球数据中心，不可能不重视多芯片互连技术。事实上，谷歌也没有公布训练 Gemini 使用的 TPU 数目，而是强调动用了不只一个集群，甚至不只一个数据中心。

不仅如此，谷歌还宣称，包括 Salesforce 和 Lightrick 等客户已经在使用谷歌云的 TPU v5p 超级计算机来训练大模型。

谷歌之外，微软在 11 月举办的 Ignite 大会发布了自研 AI 芯片——Maia，亚马逊也于同月举办的 re:Invent 大会上推出自研 AI 芯片——AWS Trainium2。不过，目前亚马逊、微软都还没有推出基于自研 AI 芯片训练的大模型，更多还是用于大模型的推理，但也有 AI 独角兽 Anthropic 宣布了基于 Trainium2 构建模型的计划。

图/亚马逊

不同于云计算三巨头的竞争，英伟达老对手、芯片巨头 AMD 则在本月初的 Advancing AI 发布会上，正式推出了高端 GPU Instinct MI300X（以下简称 MI300X），谷歌、亚马逊、微软、OpenAI、甲骨文、Meta、戴尔、惠普、联想等公司纷纷为其站台。

生态上，AMD ROCm 虽然相比英伟达 CUDA 生态还有不小的差距，但 AMD 也借助整个行业加注「备胎」的风向紧赶慢赶，而且 AMD CEO 苏姿丰今年早些时候就表示，她不相信在 AI 芯片市场发展如此之快的情况下还会有什么「护城河」一说。

与此同时，微软、Meta 也都承诺购买 MI300X 用于 AI 计算需求，甲骨文甚至提前先采购了一批。另据供应链传闻，微软为此还提前一步砍掉了英伟达的部分订单。

王权没有永恒

众所周知，GPU 最初的目的就是为游戏和视频进行图像渲染。但前英伟达首席科学家戴维·柯克（David Kirk）一直有个梦想——将主要服务于图像渲染的 GPU 算力「通用化」，使之转变为通用算力中心。

2006 年，戴维·柯克说服了英伟达创始人兼 CEO 黄仁勋推出了 CUDA（Compute Unified Device Architecture，统一计算架构）。

CUDA 的今天从来不是一蹴而就的，而是老黄连续十多年坚定的投入才实现的。从游戏、科学研究到区块链、挖矿，再到元宇宙以及今天的生成式 AI，老黄不断为 CUDA 和 GPU 算力寻找计算的出口和未来，包括在 2016 向刚刚成立的 OpenAI 捐出英伟达的第一台 AI 超级计算机——DGX-1。