Sora配得上一句「遥遥领先」吗？

2024-02-21 13:49

数字力场

关注

Sora没有让「现实不存在了」，毕竟现实中的杠精依旧存在。

文 | 佘宗明

Sora+苹果头显VisionPro+脑机接口=？

这注定是个没有标准答案的问题。

在e/acc（有效加速主义）思维中，答案也许是「颠覆」「革命」「iPhone时刻」等大词不够用，「未来已来」的既视感愈发强烈。

在EA（有效利他主义）视角里，这可能意味着风险连着风险：深度伪造、后真相，意念失控、脑波异样……

担心「被AI替代」、热议「××行业已死」，成了Sora在舆论场激起的链式反应。震惊体和重磅发布体标题堆砌，则成了自媒体蹭热点的标准姿势。

在网上，还有些YY达人用脑补那些难以描述画面的方式，代偿着《完蛋！我被美女包围了》玩完后的意犹未尽：戴上VR眼镜，就能观看由自己意念发出的Prompt（提示词）生成的小视频，男主角是自己，女主角是刘亦菲杨幂刘诗诗热巴……

▲从Sora生成的视频中，可以看到女子眼部的细节变化。

虽然打开方式各异，但现实中，大多数人终究是承认「二向箔原产地供应商」OpenAI的优秀的：去年初ChatGPT爆火带来的AI大模型热余温犹在，今年初文生视频大模型Sora又将AIGC推向新里程碑，怎一个「了得」二字了得？

饶是如此，仍有不少人对「开年王炸中的王炸」Sora翻起了白眼——他们手里拿着DAO、DeFi、NFT、Crypto的概念合订本，准备在上面再加个「Sora」。

每场技术变革，都是在被质疑中扩散开来的，「泡沫论」几乎是每个风口都挥不去的阴影。

只不过，对Sora的质疑里，还掺杂了更为复杂的情绪配方。这类情绪配方，跟「大国技术差距」的对照关联，也被民族情绪托起的某种力场强化。

这番景象，让惯于自己打倒自己的胡锡进都有些坐不住。

在ChatGPT刚问世时，面对「胡锡进要被替代」的调侃，他还能调侃着回应「老胡不依附任何时髦的东西」。

到了Sora问世时，面对Sora「不代表什么」的论调，他怒斥这是「睁着眼睛硬说」「太不负责任」「给广大网民们灌迷魂汤」，还感慨：最可怕的是我们不敢面对问题，在一切都OK甚至很好的自我安慰和陶醉中，变得麻木。

挺耐人寻味的。

尽管总有「新工业革命」之类的强冲击字眼蹦出来提醒人们：AI时代大幕已启，人类离通用人工智能（AGI）又更近一步，ChatGPT和Sora面世都是标志性节点……可总有些从新卢德主义余烬里窜出的「看空」话语，跟「看多」声量形成对冲。

在盛产奇观的简中舆论场，把Sora看成「又一个Web3」「下一个元宇宙」的贬抑话语含量更是超标。很多人绣口一吐，就是一个「奇技淫巧」。

Sora明明凭着具备超长生成时间（60s）、单视频多角度镜头、细节高度仿真、理解物理世界等优势，实现了对同行的降维打击，引得Runway、Pika Labs、Stable Video几大竞品都俯首称臣。

▲谷歌今年1月发布的视频模型Lumiere演示了图生视频案例，却终究难逃被Sora艳压的命运。

可他们却微微一笑：无他，大力出奇迹尔。

Sora本是依托两项核心技术突破的突破——Spacetime Patch（时空Patch）技术和Diffusion Transformer（扩散型 Transformer）架构。

可他们却摆了摆手：这些技术又不新，全靠咱们谢赛宁。

你还想说些什么，他们甩出一堆翻车神图：椅子漂浮、反向跑步、玻璃杯诡异碎裂……然后满脸不屑地说：Sora也就比人工智障多走了几步而已，它能用多个1分钟视频「拼」成2小时的电影吗？不能。能表现影视剧中复杂的人物内心活动吗？不能。能生成三维化虚拟世界让人在里面嗨吗？不能。

▲Sora生成的视频中出现了椅子悬浮的反物理学画面。

很显然，Sora没有让「现实不存在了」，毕竟现实中的杠精依旧在。

Sora当然没有免于质疑的豁免权。

Sora引爆科技圈后，满屏盛赞的同时就有许多质疑声冒出来。

点赞的人很多。

马斯克在X平台（原推特）上感慨：「GG Humans」「被人工智能增强的人类，将会在未来几年之内创作出最杰出的作品。」之后又不无遗憾地透露：特斯拉早在1年前就掌握了类似OpenAI的视频生成技术，它的真实世界模拟和视频生成是全世界最好的，奈何受限于算力不足。

▲马斯克在X平台上感慨：被人工智能增强的人类，将会在未来几年之内创作出最杰出的作品。

在OpenAI推出Sora的当天（2月16日）宣布Stable Video Diffusion更新1.1版本后又删除动态的AI视频生成初创公司Stability AI CEO埃马德·莫斯塔克在X平台上感叹：「奥特曼（OpenAI创始人兼CEO）真是个魔术师」，并称Sora可以被视为AI视频的GPT-3。

Runway的CEO克里斯托瓦尔在X平台上发了句「Game On（比赛开始了）」。

Pika创始人郭文景表示:「我们觉得这是个很振奋人心的消息，我们已经在筹备，将直接对标Sora。」

英伟达高级研究科学家兼人工智能代理负责人Jim Fan认为，Sora代表了文本生成视频的 GPT-3 时刻。他断言，「Sora 是个数据驱动的物理引擎……是个可学习的模拟器或世界模型」。

▲英伟达高级研究科学家Jim Fan认为，Sora是个世界模型。

被誉为「最懂DiT架构科学家」的谢赛宁说：Sora将改写整个视频生成领域。

360集团创始人周鸿祎更是据此预言，「AGI实现将从10年缩短到1年」。

质疑者也不乏其人。

Open AI自称Sora是「世界模拟器」，可很多大神级科学家不答应。

图灵奖得主、Facebook首席AI科学家杨立昆（Yann LeCun）怒斥，Sora不能理解物理世界。他还顺势安利了Meta前几天推出的AI视频模型 V-JEPA联合嵌入预测架构的优越性。

▲杨立昆认为，Sora并不能理解物理世界。

前谷歌、Facebook技术主管Hongcheng也表示：「AI模型不大可能通过被动看训练数据视频，就能掌握物理定律。」言下之意，再聪明的智能体，也不大可能通过看太阳东升西落的视频，就能悟出地球围着太阳转。

谷歌AI研究员、Keras之父弗朗索瓦·肖莱分析，从Sora生成的部分视频看，它是依赖于数据插值和潜空间拼贴来生成图像，而不是真实的物理模拟。

在他看来，通过机器学习模型拟合大量数据点后形成的高维曲线（大曲线）在预测物理世界方面是存在局限的，因为现实世界的复杂性和多样性不是AI模型能够通过有限数据就全部学习到的。

围绕Sora到底是不是物理引擎、世界模型的争论，估计一时半会无法止息。

Sora免不了被质疑，但质疑跟质疑也有区别。

人家争论火箭推进器燃料用C2H4、N2H4、高级硼硅烷哪个好，终归是科学范畴的讨论，你在旁边嚷着「得烧柴，最好是烧煤，煤还得精选，水洗煤不行」，就多少有些民科了。

目前看，网上已经冒出了很多大聪明，就在用「精选煤思维」看Sora。

秉持「蒸汽机不就是个活塞吗」的简化逻辑，他们一眼看穿了Sora的「本质」：不就是大力出奇迹吗？

还有人顺带着抛出一张图——「Web3.0，颠覆了时代；Houseclub，颠覆了时代；GoogleGlass，颠覆了时代；元宇宙，颠覆了时代……回头一看，时代还是原样」，硬生生将Sora问世的意义拉低到「造词游戏」的维度。

左一个「纯属彻头彻尾的炒作」，又一个「一惊一乍没出息」，他们就差来上一句「不过是奇技淫巧尔」了。

▲由Sora生成的「赛博朋克背景下机器人的生活故事」。

Sora的惊艳场面，他们选择性无视；Sora的翻车画面，他们拿着放大镜看。

也不奇怪：用前现代思维理解现代技术的人，是难有从明天看今天的「明天观」的，你跟他们说Sora可以像ChatGPT向GPT-4非线性跨越那样快速进化，形同于鸡同鸭讲。

通用人工智能时代的大门都已经叩开了，他们却站在门外不入，还哼着「全都是泡沫，只一刹的花火」。

跟他们说「中美科技差距又……」，更是碰到了他们的逆鳞。

事实上，在Sora问世后，「大国科技差距」的问题总是无法回避。

在ChatGPT引爆大模型军备竞赛后，中国出现了百模大战，不少国内大模型厂商都声称多项能力已经赶超ChatGPT。但OpenAI掏出「秘密武器」Sora，又让许多人认清了现实。

周鸿祎就分析，中美间的AI差距还在扩大。

也有人认为，差距有是有，但没那么大。

如昆仑万维CEO方汉就认为，「国内厂商和国外厂商在文生视频的差距，不像大模型领域的差距那么大。」从技术上看，Sora领先国内同行大概半年。

▲Sora跟其他多个视频模型的区别。

差距是大是小，固然言人人殊，但首先得正视差距的存在。

现在的问题是，有些人习惯了错把「顺差」当「逆差」的思维意识中，对自媒体三天两头渲染的「光刻机大突破！」深信不疑，对「领跑-跟跑」角色锚定的差距却视而不见。

华大基因CEO尹烨这两天就撰文说：

如果把人类已经存在的语言、图像、音频、视频等这些资料库看成是人类文明的金矿，但是你已经有挖掘机了，我却被限制只能用铁锹，长此以往会是什么样的结果？

我们在芯片的问题上，可能犯了刻舟求剑的错误。比如总有一种声音，认为我们能够突破14纳米，甚至认为如果我们能追赶到7纳米，我们就会赢，但这个前提是我们的竞争对手就不进步了，就在原地等着。我并不是说，你追赶到14纳米、7纳米不重要，而是你要明白，竞争对手会在同样的时间，实现3纳米、2纳米，甚至1纳米。

我们可以在战略上藐视，但不能不在战术上重视……当下据不完全统计，国内号称有大模型的公司，已经有300多家，相信大部分还是「多小散乱」，面对GPT在简体中文的世界里，似乎尚能一战，但面对Sora的横空出世，可有一个能打的，甚至是接近的吗？

说到底，缩短差距的前提，永远是正视差距。

胡锡进之所以驳斥那些对准Sora的「奇技淫巧论」，究其原因大概就在于，诸如此类的颇具误导性。

把ChatGPT或Sora的深远影响降维，以维持「科技赶超」想象，只会是自我麻痹。到头来，面对技术革命轻易转过身去，没准是跟正在到来的AI时代擦肩而过。

要知道，AI时代的技术演化不是匍匐向前的，而是跳跃式的——经常从一个断层跃上另一个断层。

眼下我们就已进入科技发展的「最后7分钟（施拉姆语）」时刻。越是这时候，我们越不能搞「颅内闭关」。

就在过去1个月，全球科技圈发生了很多事：

1，英伟达（Nvidia）前不久发布了在本地运行的名为「Chat with RTX」的Demo版个性化AI聊天机器人。高性能AI处理器的加持，会加速AI+N类终端浪潮的到来。

2，2月16日，谷歌发布Gemini1.5，上下文窗口长度扩展到100万个tokens（GPT4-turbe12.8万tokens），是目前最大的上下文窗口。这其中，Gemini1.5pro能一次处理1小时的视频、11小时音频、超3万行的代码库、超70万字的代码库。说出来的是「最大」，没说出来的是「完爆GPT-4」。

3，2月17日，Meta推出了名为「V-JEPA」的视频预测模型。在此之前，Meta还推出了AI视频模型Fairy。看得出来，杨立昆对Sora100个不服。

4，差不多1个月前，奥特曼的7万亿美元造芯计划被曝出，旨在对标英伟达。从算力集群到芯片制造，奥特曼下了一盘很大的棋。

5，春节前，阿里巴巴发布了通义千问大模型Qwen-1.5版本，涵盖了6个不同参数规模的型号。节后伊始，OPPO、魅族都宣布，停止传统智能手机研发，资源向AI手机集中。

毫无疑问，Sora的出现，也是大时代的注脚。