国内版Sora的秘密，藏在生数科技大模型团队里

2024-05-08 09:19

Ai芯天下

关注

前言：

在众多长视频生成算法中，Sora的技术革新具有划时代的意义。

相较于传统的 Stable Diffusion，Sora采纳了创新的 Diffusion 与Transformer架构。

不仅弥补了Stable Diffusion在扩展性方面的不足，更在生成内容的精确度和灵活性上实现了显著的突破。

作者 | 方文三

图片来源 | 网络

[国产Sora]发布，全面对标Sora

近日，生数科技与清华大学携手推出国内首个基于自主研发的U-ViT架构的视频大模型——Vidu。

能迅速生成16秒、高清1080p分辨率的视频内容，展现了与Sora相当的性能，尤其在多镜头生成、时空一致性、模拟真实物理世界以及创新能力等方面。

Vidu在视频生成时长方面具有显著优势，突破了长期以来国产Sora的十秒阈值。

生数科技采用单一模型的完全端到端生成方式，实现连续、丝滑的视频内容生成，无需插帧处理。

具体而言，Vidu能够生成细节复杂的场景，符合真实物理规律，展现合理光影效果和细腻人物表情。

同时，它还能生成真实世界不存在的虚构画面，创造超现实主义内容。

在镜头语言方面，不再局限于简单镜头，而是能实现远景、近景、中景、特写等不同镜头的切换，生成长镜头、追焦、转场等效果。

值得一提的是，Vidu采用[一步到位]的生成方式，与Sora一样，文本到视频的转换直接且连续。

在底层算法实现上，Vidu基于单一模型完全端到端生成，不涉及中间插帧和其他多步骤处理。

这一创新技术为视频生成领域带来了新的突破和可能性。

清华系创业，两条路走路模式

Vidu之名，不仅与[Video]谐音，更富含[We do]之寓意，彰显着行动与实践的精神。

公开资料显示，生数科技成立于2023年3月，其核心成员均来自于清华大学人工智能研究院，致力于独立研发全球领先的可控多模态通用大模型。

生数科技的首席科学家朱军，不仅是清华大学计算机系的教授，还是人工智能研究院的副院长。

同时，生数科技的CEO唐家渝，其本硕学历均来自于清华大学计算机系；

CTO鲍凡则是清华大学计算机系的博士生，并作为朱军教授课题组的成员，共同推进研发工作。

生数科技当前采取的是模型层和应用层并行的战略。

一方面，他们正致力于构建涵盖文本、图像、视频、3D模型等多模态能力的底层通用大模型，为B端提供模型服务能力；

另一方面，他们也在图像生成、视频生成等场景上打造专业应用，通过订阅等方式进行收费。

这些应用主要面向游戏制作、影视后期等内容创作场景，展现出生数科技在技术和市场应用上的双重实力。

走对技术路线,融合框架优势显现

生数科技近日发布的Vidu与Sora视频生成技术，显著区别于市场主流基于U-Net卷积架构的传统扩散模型，采用了前沿的融合架构，即U-ViT与DiT。

这种融合架构是Diffusion（扩散模型）与Transformer的有机结合，旨在发挥Transformer在可扩展性方面的优势；

同时保留Diffusion模型在处理视觉数据时的天然强项，从而在视觉任务中展现出卓越的性能。

回顾生数科技在视频生成技术领域的研发历程，早在2017年，团队便发布了贝叶斯概率机器学习平台[珠算]。

这一平台在国际上属于最早面向深度概率模型的编程库之一，支持包括GAN、VAE、Flow等在内的多种深度生成式模型的概率建模。

2022年初，团队提出了无训练推理框架Analytic-DPM，通过直接估计最优方差，大幅提升了采样效率，相较于传统模型DDPM，加速近20倍。

该成果被评选为ICLR 2022杰出论文，并得到了OpenAI在DALL·E 2模型处理策略中的应用。

同年6月，团队再次创新，提出了采样算法DPM-Solver，仅需10到15步就能获得高质量的采样。

该成果入选NeurIPS 2022 Oral，并被Stable Diffusion等大量开源项目所采纳，至今仍是全球最快的图像生成算法之一。

在技术的不断推进中，2022年9月，团队发表了U-ViT论文，首次提出了将扩散模型与Transformer融合的架构思路。

随后推出的DiT架构也沿用了这一创新理念，并最终被Sora所采用。

与传统的Transformer相比，U-ViT通过引入[长连接]技术，显著提升了训练收敛速度。

2023年3月，团队基于U-ViT架构在大规模图文数据集LAION-5B上训练出了近10亿参数量模型UniDiffuser，并将其开源。

UniDiffuser不仅支持图文模态间的任意生成和转换，而且其实现验证了融合架构在大规模训练任务中的可扩展性（Scaling Law），标志着融合架构在大规模训练任务中的所有环节流程均得到了有效验证。

值得一提的是，相较于最近才转向DiT架构的Stable Diffusion 3，UniDiffuser在图文模型领域领先了一年。

基于资源等方面的考虑，Sora团队选择了高强度的工作模式，全力以赴投入长视频的研发，而生数科技则选择从2D图像入手，逐步拓展至3D和视频领域。

今年1月，生数科技正式上线了4秒短视频生成功能，随后在2月Sora发布后，公司迅速攻坚，于3月实现了8秒视频生成的突破，4月更是达到了16秒长度的突破，生成质量与时长均取得了全面性的提升。

完成三轮融资，成为国内估值头部

经过多轮严谨的资本运作，生数科技在2023年6月成功完成首轮融资，由蚂蚁集团主导，并得到BV百度风投和卓源资本的跟投。

经过此次融资，公司的估值已达到1亿美金。

这些资金将被投入到核心研发团队的建设和产品研发中，以推动公司的持续发展。

值得一提的是，自ChatGPT于去年11月发布以来，生数科技成为蚂蚁集团投资的首个AIGC项目，同时也是百度风投在AI内容生成领域的第三个重要投资项目。

在2023年8月，生数科技再次获得了锦秋基金的独家投资，完成了数千万元的天使+轮融资。

这笔资金将主要用于算法研发、产品开发和团队扩充，为生数科技的未来发展注入新的动力。

到了2024年3月，生数科技成功完成了数亿元人民币的A轮融资。

此次融资得到了启明创投、达泰资本、智谱AI等新机构的支持，同时也得到了BV百度风投和卓源亚洲两位老股东的继续跟投。

经过三轮融资，生数科技累计获得了数亿元人民币的投资，这使得公司成为目前国内多模态大模型中估值最高的初创公司之一。

同时，生数科技团队还推出了基于统一的多模态多任务框架的产业级通用基础大模型（闭源版），展现了公司在AI领域的深厚实力和创新精神。

生数科技的核心团队不仅是最早布局多模态大模型的团队之一，而且在扩散概率模型的基础理论和算法研究方面也有着丰富的经验和突出的成果。

目前，生数科技是国内在扩散概率模型领域发表论文成果最多的团队之一，这充分证明了公司在AI领域的领先地位和强大的研发能力。

结尾：市场前景广阔，有待持续开发

文生视频技术有望引领视频创作领域的生产力变革，显著降低生产成本和创作难度，有望在短视频和动漫领域率先实现应用落地。

建银国际指出，文生视频模型在多个行业中具有广泛的应用前景，包括但不限于营销广告、研发培训、电商零售以及文娱游戏等领域。

根据彭博行业研究的数据，全球AIGC市场规模预计将从2023年的670亿美元大幅提升至2030年的8970亿美元，这表明该领域的复合年增长率将达到惊人的45%。

对于中国市场而言，艾瑞咨询预测其产业规模将可能从2023年的143亿元人民币迅猛增长至2030年的11441亿元人民币，复合年增长率高达87%。

这一趋势显示出文生视频在中国市场的巨大潜力和广阔前景。

部分资料参考：极客公园：《国产 Sora 的秘密，藏在这个清华系大模型团队中》，机器之心：《国内公司有望做出Sora吗？这支清华系大模型团队给出了希望》，中国新闻网：《中国首个！全面对标Sora》，猎云精选：《背靠清华，[国产最强]Sora来了》，算力豹：《[应战]Sora，清华朱军「生数科技」又融数亿元，启明创投领投》

原文标题 : AI芯天下丨科创丨国内版Sora的秘密，藏在生数科技大模型团队里