GPT-4o重磅发布，但AI已经进入泡沫前期

2024-05-21 11:21

GPT-4o很强，但没到颠覆世界的程度

前段时间OpenAI发布了GPT-4o（“o”代表“omni”）。简单来说它可以实现文本、音频和图像的任意组合作为输入，并生成文本、音频和图像输出的任意组合。且有诸多惊艳应用。

GPT-4o 的主要升级点在于打通任何文本、音频和图像的输入，相互之间可以直接生成，无需中间转换；此外 GPT-4o 语音延迟大幅降低，能在 232 毫秒内回应音频输入，平均为 320 毫秒，这与对话中人类的响应时间相似。

GPT-4o 不仅能通过视觉 AI 能力理解摄像头中发生的事情，同时还能够将理解的内容通过语音与旧版本 ChatGPT 交互，进行更加丰富有趣的互动。同时还支持中途打断和对话插入，且具备上下文记忆能力。

而且 GPT-4o 对广大用户来说它有个远超 GPT-4 的优点：免费。体验 GPT-4 级别的智能、从模型和网络获取响应、分析数据并创建图表、聊一聊你拍的照片、上传文件以获取摘要、写作或分析帮助、使用 GPTs 和 GPT Store、通过 Memory 构建更加有帮助的体验，这些功能全部可以免费获得。要知道 GPT-4 Plus 版本就因为收费贵、付款麻烦，使用门槛高让绝大部分人望而却步，能让更多的人用上便是 GPT-4o 的最大亮点。

但是现在能用上GPT-4o只有GPT-4 Plus版本，其他版本需要后续开放而且免费的GPT-4o次数有限，过了次数会直接转为GPT-3.5。

有业内人士认为，特别是在预告中 OpenAI 公司的 CEO Altman 甚至用上了 " 魔法 " 二字，相比之下 GPT-4 的神通广大、Sora 那种神笔马良的既视感，GPT-4o 显然称不上魔法。而且从多模态能力方面考察，GPT-4o 的能力并没有比上代有明显提升。哪怕是和 GPT 的老对手 Anthropic 的 Claude 3 相比也没有拉开差距，可以说从模型能力来看 GPT-4o 和 GPT-4 没有本质区别。

所以GPT-4o的发布更多像是一种抢跑，展现一种领先的姿态，也是维持热度刺激购买需求的一种方式。

有意思的是，就在GPT-4o发布24小时之后，谷歌也紧跟着发布产品颇有对阵叫板的意味。谷歌CEO桑达尔·皮查伊发布数十款Google和AI 结合产品，堪称“全家桶”级别，全面围剿Open AI。其中包括支持200万token长文本的Gemini 1.5 Pro和 Gemini 1.5 Flash，对标Sora的Veo，开源模型Gemma 2，支持生成式搜索的AI Overviews、第六代TPU等。

谷歌CEO桑达尔·皮查伊

整场开发者大会最大的看点为，谷歌推出的AI语音助手——Astra，它能够通过摄像头识别物体、代码和各种东西。现场演示视频中，用户要求Astra在看到发出声音的东西时告诉她，助手回答说，它可以看到一个发出声音的扬声器。对于一闪而过的苹果，Astra居然也能够准确回答出在眼镜旁边。除Astra外，谷歌还推出基于Gemini的多款通用AI Agent子系列产品。如音频的NotebookLM、音乐的Music AI Sandbox、视频的Veo、图像的Imagen 3，直接对标OpenAI发布的GPT-4o、Dall-E和Sora。

但问题也跟OpenAI类似，目前还不足以让开发者构建更加原生和杀手级应用，从推理能力到多模态能力都是如此。两家更像是你追我赶的算术级竞争，谁也没有拉开太多，自然就很难贡献震惊世界的应用。

也难怪马斯克在看过发布会后表示，GPT-4o的演示让他感到“不适、尴尬”。Andrej Karpathy大佬也用十分平静的语气给出技术总结，得到了马斯克的附议：他们发布的是一个在同一神经网络中结合文本-音频-视频三种模态并同时处理的模型，仅此而已。

大模型也要“精打细算”

去年生成式AI与大语言模型这一拨科技热潮在去年席卷了全球科技圈。无论是科技巨头还是新兴独角兽，都在争先恐后研发规模更大、性能更强的模型，进而引发了围绕AI芯片的军备竞赛，并让身为AI军火商的英伟达比前一年多赚了340亿美元。

但今年的情况已经显然没有那么乐观，务实谨慎的风格传遍了科技圈。科技媒体The Information报道称，「包括微软、亚马逊和Google在内的云厂商和其他销售该技术（指生成式AI）的公司，正在降低自己的预期」。一些人已经在担忧生成式AI吹出来的泡泡会不会已经太大了，它是未来，但可能不是现在，就像互联网如今已经是一门万亿美元级别的生意，但并不妨碍千禧年时吹出的互联网泡泡的爆炸结局。

关于OpenAI公司去年的营收，目前有两种说法，The Information称其2023年最后一个月的年化收入是16亿美元，而《金融时报》给出的数字是20亿美元。这个收入水平在AI行业绝对是第一梯队，但是跟微软每年提供给OpenAI公司不低于10亿美元的费用相比，仍然不算多，更何况Sam Altman雄心勃勃计划7万亿美元自建芯片工厂打造软硬一体呢？或许上市能解决OpenAI的投资难题，但是作为非营利性组织的OpenAI转为正常的私人盈利公司尚存在诸多问题，短期来看并不现实。

一大批刚刚在2023年晋升为独角兽的美国生成式AI公司，已经落入理想难以兑现的窘境。曾经在AI独角兽上排名前3的初创公司Inflection两位联合创始人跳槽微软，因为挖走了Inflection大部分员工，包括其创始人，微软同意向Inflection支付约6.5亿美元，以获得其模型授权，并补偿Inflection的投资人。

排名仅次于Inflection的另一家AI独角兽Cohere也被传出融资困境。这家公司自去年12月就开始寻求以60亿美元估值融资5亿美元，迄今没有确定交易，而它上一轮融资还停留在去年6月。按照大模型的烧钱速度，这些无法自我造血的独角兽原本每半年甚至每个季度都要有新的融资才能为继。

更为尴尬的是这些公司并没有明显推出强于GPT-4的大模型，虽然宣传上都是“各种领先”但实际体验下来差距不小。而且这些公司基本不具备盈利能力，成为资本弃儿，缺少后续输血也就不难理解了。

金沙江主管合伙人朱啸虎认为，大模型是很差的商业模式。问题是技术没有差异点，而且每一代技术比如3.5可能就要几千万美金，4.0可能要几亿美金，5.0可能要几十亿美金，每一代模型你都要重新去砸钱，而且你变现周期可能就两三年，这比发电厂还要差。

比如发电厂，在投了基建以后，基本上不需要再投入很多钱，但大模型是要每两三年就要砸更多的钱去升级，而且变现的周期可能就两三年。说实话这个商业模式是非常差的商业模式。

所以不管国内外AI投资都已经进入了要认真考虑成本收益的阶段，如果AI已经进入终局那么行业第二第三将变得价值极低，现阶段OpenAI领导者的地位仍然牢不可破，对于初创公司来说可能随时在“死亡边缘”。

去年的“宫斗”仍没有结束

去年 11 月，Ilya 与另外三名董事会成员一道，迫使该公司高调的首席执行官 Sam Altman 辞职，但后来他表示后悔。据报道，双方争论的焦点是对 OpenAI 方向的分歧：Ilya 对 Altman 以牺牲安全工作为代价而急于推出人工智能产品感到沮丧。Altman 在被赶下台的五天后就回到了 OpenAI，重申了自己的控制权，并继续推动越来越强大的技术，这让他的一些批评者感到担忧。Ilya 仍然是 OpenAI 的员工，但他再也没有回去工作。

Sam Altman（左）Ilya Sutskever（右）

今年5月17日，在公司联合创始人兼首席科学家伊利亚·苏茨克沃（Ilya Sutskever）周二宣布离职后几个小时，其超级对齐团队负责人之一詹·莱克（Jan Leike）也在社交平台X上发帖宣布辞职。

OpenAI超级对齐负责人Jan Leike，自曝离职的真正原因，以及更多内幕。一来算力不够用，承诺给超级对齐团队的20%缺斤少两，导致团队逆流而行，但也越来越困难。二来安全不重视，对AGI的安全治理问题，优先级不如推出“闪亮的产品”。

Jan Leike

这里先解释一下“对齐”是什么意思，由于GPT大模型的生成是黑盒机制产生内容是随机可控性弱的，难免产生不符合人类价值观的东西。所以他们在构建一个能与人类水平相媲美的自动对齐研究器，尽可能将相关工作交由自动系统完成，同时确保人工智能系统的行为与人类价值观和目标保持一致。

离开的也不只是对齐团队的人，OpenAI前工程负责人，曾领导过ChatGPT, GPT-4, DALL·E和APIs上线的Evan Morikawa也宣布离开，将与前波士顿动力高级机器人学家Andy Barry和Deep Mind研究科学家Pete Florence 和 Andy Zeng共同开展一个全新项目，并认为“这是在全球范围内实现 AGI 所必需的”。

有网友表示这听起来像是OpenAI想继续烧钱商业化，而不是确保前进步骤的安全。他们想成为大亨，而不是英雄。

对Jan Leike的长文开炮，奥特曼当然是不会就此作罢的了。很快他便发文“反击”：“我非常感谢 Jan Leike 对 OpenAI 对齐研究和安全文化的贡献，也非常难过看到他离开。他说得对，我们还有很多事情要做，我们承诺会做到。我会在接下来的几天里发一篇更长的文章。”不出意外的话，未来几天还会像去年一样，小作文反转不断。至于真相是什么，或许只有躬身其中的少数人知道，是非曲直其实对网友来说并不太重要。

重要的是此次“离职潮”表明了去年以来的内部矛盾并没有消弭，反而是隐藏转移爆发。归根结底的来说，Ilya Sutskever跟Sam Altman之争主要是技术原教旨主义者和市场激进派之间的矛盾。Jan Leike表示：“我相信，我们应该将更多的带宽花在为下一代模型做准备上，关注安全、监控、对抗性稳健性、超级对齐、保密性、社会影响等相关话题。这些问题很难解决，我担心我们还没有走上正轨。”

但Sam Altman一直以来在强调AI会如何颠覆世界创造出令人惊讶的产品，在疯狂地积累芯片甚至要自建芯片厂，来加速技术的发展。笔者认为两者之争是几乎所有AI从业者都要考虑的事情，技术当然可以促进社会生产力发展，但也会带来一系列安全问题和风险。

Sam Altman未必真的是唯利是图一心只想赚钱，他所说的重视AI安全不一定是谎言。但作为管理者要考虑公司的长久运营，能兼顾是最好不能兼顾那就需要有优先级。目前AI对齐所需算力并不小而且对齐之后的AI性能下降明显，这可能是Sam Altman无法给对齐团队满意安排的重要原因之一。当然真实情况可能更复杂，但迈向下一个时代的科技生产力，如果没有足够的商业利益一切都会是空谈。

如果OpenAI完全放弃对齐或者不重视，那对未来的GPT-5来说将是巨大的风险，商业化被迫戛然而止也有可能。总之，我们希望出现一个更好更开放的OpenAI，而不是把问题都丢给社会。

中国大模型也无需自卑

近一个月国产大模型让市场产生了正在追平美国的印象，很多亮点也来自初创企业。月之暗面将上下文长度扩展至200万token；Minimax出海陪聊应用Talkie日活接近 Character.AI；发布了Vidu的生数科技，提出U-ViT架构比Sora还早；开源模型DeepSeek在保证性能的前提下，让成本降至1块钱百万token输入。

有些文章说国内AI都在卷价格只有国外在卷功能，其实并不客观。推理需求已经真实存在了。去年底发布以来，阿里巴巴近1.7万中小外贸商家订购了AI生意助手，发布了上百万商品，搜索量提升近四成。字节跳动将豆包大模型接入了抖音、飞书等业务，日均处理1200亿token文本，但没有公布参数等细节，可能是因为与Tiktok用了类似的推荐算法。百度文心大模型日处理文本2500亿token，日均调用量为去年底的4倍。腾讯已经把混元大模型用在了会议、读书与游戏客服上；AI支持的广告服务的点击率与交易量也在上升。

开源大模型通义千问已经火到国外去了，有太多外国人在讨论和使用（通义千问）Qwen大模型。

通义发布1100亿参数开源模型Qwen1.5-110B，该模型在MMLU、TheoremQA、GPQA等基准测评中超越了Meta的Llama-3-70B模型；在HuggingFace推出的开源大模型排行榜Open LLM Leaderboard上，Qwen1.5-110B冲上榜首，再度证明通义开源系列业界最强的竞争力。

或许有人会质疑跑分成绩，但是面向C端主打全功能免费的通义，却是真香了。同时通义千问 APP 还升级为「通义 APP」，集成文生图、智能编码、文档解析、音视频理解、视觉生成等全栈能力，想成为用户的「全能 AI 助手」。

写在最后

无论是OpenAI还是国内的AI企业，都离不开金融资本和产业资本的运作，过于排斥商业化并不是好事，但也应该有底线取得安全与效益的平衡，只有这样才能实现科技创造美好未来。历史上的重大技术进步往往伴随着金融泡沫，这是新技术推广的自然组成部分。AI有泡沫并不可怕，可怕的是技术的基石不牢，难以解决现实中的种种问题，最终难以落地变成“全都是泡沫”。

参考资料：

OpenAI重磅发布GPT-4o 来源：Founder Park

GPT-4o抢先测来源：DoNews

GPT-4o很好但最大亮点只有免费来源：ZAKER

大模型的泡沫来了吗？来源：NewNewThing

中美巨头的AI差距来源：未尽研究

OpenAI保护人类的团队分崩离析来源：硅星人Pro

OpenAI的元老科学家都跑光了来源：AI前线

Ilya离开OpenAI内幕曝光来源：量子位

通义千问2.5正式发布来源：阿里云

原文标题 : GPT-4o重磅发布，但AI已经进入泡沫前期