AIGC时代，需要什么样的云存储？

2024-04-11 09:10

光锥智能

关注

文｜白鸽

编｜王一粟

AIGC狂飙一年，算法进步和应用落地的爆发，让中国云计算厂商感受着切实的变化。

“今年一季度，大模型企业在云存储的消耗同比在增加。”

4月8日，在腾讯云AIGC云存储解决方案升级发布会上，腾讯云存储总经理马文霜同时预计，今年AIGC对于云端的调用量一定是爆发式的增长。

马文霜还开半玩笑地说，“可能这些企业拿到的投资更多了”。

随着多模态技术的进化和落地应用的逐渐爆发，让大模型的训练和推理迎来了一些新的挑战。

事实上，从语言和图像为主的GPT，到视频生成模型Sora，大模型参数正在指数级增长。比如ChatGPT在GPT-2时是10亿参数量，到现在GPT-4已经有1.8万亿参数。Sora为主的多模态技术，更会让需要处理的数据量急剧增加，而这才刚刚是视频生成模型的GPT-1.0时代。

参数越大，对云存储的需求就会越高，包括云存储的数据量以及吞吐量等，如果云存储能力不能够满足大模型的需求，则会直接影响到大模型的训练速度和推理效率。

在大模型加速发展的阶段，大模型企业也越来越重视云存储这一重要的底层基础设施能力。但AIGC时代，究竟需要什么样的云存储技术？

AIGC数据训练的新需求

云存储的新挑战

“内卷”之下，大模型企业开始拼算力、拼参数，更拼大模型的更新速度。

如百川智能，前期平均一个月发布升级一款大模型，百度文心一言在发布之初，甚至一个月内就完成了4次技术版本的升级。

想要保持大模型的更新频率和速度，就要保证整个大模型数据训练过程的高效，其中某一个环节出现问题，就可能会拉长整个训练时长，增加训练成本。

因此，作为整个大模型数据训练的底座，云存储的重要性日益凸显。那么，AIGC时代到底需要什么样的云存储技术？

存储作为数据的载体，现如今已经不仅仅只承担“存”的作用，更需要打通数据从“存”到“用”的最后一公里。

始于19年前QQ空间的腾讯云存储，如今在国内云厂商中存储能力一直处于领导者象限（沙利文报告），他们的做法对行业颇有借鉴意义。

马文霜向光锥智能提到，在AIGC数据训练的4个环节中，存储需要提供的具体能力，包括：

数据采集阶段，需要一个大容量、低成本、高可靠的数据存储底座；

数据清洗阶段，需要提供更多协议的支持，以及至少GB甚至TB级的数据访问性能；

数据训练阶段，作为大模型训练的关键环节，则需要一个TB级的带宽存储保证训练过程中Checkpoint能够快速保存，以便于保障训练的连续性和提升CPU的有效使用时长，也需要存储提供百万级IOPS能力，来保证训练时海量小样本读取不会成为训练瓶颈；

数据应用阶段，则需要存储提供比较丰富的数据审核能力，来满足鉴黄、鉴暴等安全合规的诉求，保证大模型生成的内容以合法、合规的方式使用；

在这4个环节中，腾讯云AIGC云存储解决方案，分别由4款产品提供专属服务，包括对象存储COS、高性能并行文件存储CFS Turbo、数据加速器GooseFS和数据万象CI。

而这次腾讯云存储面向AIGC场景的升级，就是基于上述4款产品将大模型的数据清洗和训练效率提升1倍，整体训练时长缩短一半。

首先，在数据采集环节，基于自研的对象存储引擎YottaStore，腾讯云对象存储COS可支持单集群管理百EB级别存储规模，多种协议和不同数据公网接入能力，可以让采集的原始数据便捷入湖。

数据清洗环节，COS访问链路比较长，数据读取效率并不高，所以腾讯云在这中间添加了一层自研的数据加速器GooseFS。

COS通过自研数据加速器GooseFS提升数据访问性能，可实现高达数TBps的读取带宽，提供亚毫秒级的数据访问延迟、百万级的IOPS和TBps级别的吞吐能力。

“这让单次数据清洗任务耗时减少一半。”马文霜说道。

相比采集和清洁，大模型的训练则更加耗时，短则数周、长则数月，这期间如果任何一个CPU/GPU的节点掉线，都会导致整个训练前功尽弃。

业内通常会采用2～4个小时保存一次训练成果，即Checkpoint（检查点），以便能在GPU故障时能回滚。

此时则需要将保存的Checkpoint时间缩短到越短越好，但数千上万个节点都需要保存Checkpoint，这就对文件存储的读写吞吐提出了非常高的要求。

马文霜表示：“两年前我们发布高性能并行文件存储CFS Turbo第一个版本，是100GB的读写吞吐，当时觉得这个读写吞吐已经足够大，很多业务用不到。但去年大模型出来以后，用CFS Turbo再去写Checkpoint，我们发现100G还远远不够。”

CFS Turbo底层技术来自于腾讯云自研的引擎Histor。此次升级，腾讯云将CFS Turbo的读写吞吐能力从100GB直接升级至TiB/s级别，让3TB checkpoint 写入时间从10分钟，缩短至10秒内，时间降低90%，大幅提升大模型训练效率。

针对数据访问延迟问题，腾讯云引擎Histor可支持单个节点GPU与所有存储节点进行通信，进行并行数据访问。“另外，我们通过RDMA（远程直接地址访问）等技术不断优化数据访问延迟，缩短IO路径，最终可做到亚毫秒级访问延迟。”马文霜说道。

同时，腾讯云Histor还可以将元数据目录打散至所有存储节点上，提供线性扩张能力，从而实现文件打开、读取、删除的百万级IOPS能力。

应用阶段，大模型推理场景则对数据安全与可追溯性提出更高要求。腾讯云数据万象CI是一站式内容治理服务平台，它可以对AI生成的内容进行一站式管理，可以提供图片隐式水印、AIGC内容审核、智能数据检索MetaInsight等能力。

此次升级，腾讯云重点讲述了智能数据检索MetaInsight，其能够基于大模型和向量数据库进行跨模态搜索服务，也就是可以文搜图、文搜视频、图搜图、视频搜视频，并凭借95%以上的召回率，可以帮助用户快速锁定目标内容，提升审核效率。

基于这套AIGC云存储技术底座，腾讯云存储总经理陈峥表示，腾讯自研项目（比如混元大模型）的整体效率至少提升了2倍以上。

目前，除腾讯自己的混元大模型，数据显示，已有80%的头部大模型企业使用了这套AIGC云存储解决方案，包括百川智能、智谱、元象等明星大模型企业。

而针对解决方案升级后的产品价格，马文霜则表示，“不会有变化”。在阿里云和京东云都宣布降价时，腾讯云并没有选择降价，而是“加量不加价”。

“稳定性、高性能，以及性价比，是大模型时代云存储的核心。”腾讯云智能存储总监叶嘉梁说道。

当然，在AIGC时代，云厂商都想抓住这一次用云需求爆发的机会。除了腾讯云外，阿里云、华为云等其他云厂商在AIGC云存储领域也都有相应的布局。

比如2023年，华为云针对大模型时代的云存储发布了OceanStor A310 深度学习数据湖存储和FusionCube A3000 训/推超融合一体机两款产品。

阿里云面向AI时代的云存储解决方案，也覆盖了底层对象存储 OSS数据湖、高性能文件存储、并行文件存储 CPFS、PAI-灵骏智算服务以及智能媒体管理IMM平台等产品。

可以看到，围绕AIGC的需求，云厂商在云存储领域迅速更新换代。阿里云的思路与腾讯云非常接近，而华为云则加入了自己在硬件方面的优势。

云存储技术仅是云计算众多底层核心技术之一，随着大模型深度发展，云厂商们已经开始在整个PaaS层、IaaS层、MaaS层，都在围绕AIGC进行迭代升级，为行业提供全链路大模型云服务。

云厂商狂飙

争做“最适合大模型”的云

云已经成为大模型的最佳载体，大模型也正在重塑云服务的形态。

马文霜认为，云上丰富的资源、计算、存储、网络、容器技术和PaaS，都能够解决AIGC在各个环节上对资源的诉求。云还能够给AIGC提供成熟的方案和丰富的生态支持，让客户可以聚焦在自己产品竞争力的方向进行开发，加速整体研发效率以及应用落地的速度。

面对AIGC带来的大模型发展浪潮，腾讯集团副总裁、腾讯云与智慧产业事业群COO兼腾讯云总裁邱跃鹏曾表示，大模型将开创下一代云服务，腾讯云要打造“最适合大模型的云”。

自从大模型热潮爆发以来，腾讯云在大模型业务推出上不是最快的一个，但却是最扎实的一个。

在2023年9月的腾讯全球数字生态大会上，腾讯云面向AIGC场景推出了基于星脉网络的大模型训练集群HCC、向量数据库以及行业大模型的MaaS服务。

也就是说，腾讯云从底层智算能力，到中间件，再到上层MaaS，已经实现了全链路大模型云化能力升级迭代，每个业务都很务实。

比如，针对大模型对算力的迫切需求，腾讯云高性能计算集群HCC为大模型训练提供高性能、高带宽、低延迟的智能算力支撑。通过自研星脉网络，能提升40%GPU利用率，节省30%~60%模型训练成本，提升AI大模型10倍通信性能。利用星星海自研服务器的6U超高密度设计和并行计算理念，确保高性能计算。

针对在中间层对数据调度应用的需求，腾讯云向量数据库，可为多维向量数据提供高效存储、检索和分析能力。客户可将私有数据经过文本处理和向量化后，存储至腾讯云向量数据库，从而创建一个定制化外部知识库。在后续查询任务中，这个知识库也能为大模型提供必要的提示，辅助AIGC应用产生更精确的输出。

而针对行业大模型开发与落地应用服务，腾讯云则在整个云底座之上推出了MaaS服务解决方案，为企业客户提供涵盖模型预训练、模型精调、智能应用开发等一站式行业大模型解决方案。

其中，值得一提的是腾讯云是业界最早提出走“向量数据库”路线的云厂商，在大家对大模型部署还尚有技术路线争议之初，腾讯就做了这个选择。目前，向量数据库+RAG（检索增强）也已经成为业内使用频率最多的大模型部署路线。

可以看到，在回归“产品优先”战略后，腾讯云在大模型时代的打法也逐渐清晰——不盲目追随行业，而是基于对AIGC的理解，做自己的产品迭代。

不过，面对十年一遇的大模型机会，华为云、阿里云、百度云等云厂商也都在2023年争先恐后地布局，腾讯云的压力并不小。

过去一年，华为云构建了包括以华为云昇腾AI云服务为算力底座、行业首个大模型混合云Stack 8.3，在MaaS层用盘古大模型在千行百业中落地。华为云还上线了昇腾AI云服务百模千态专区，收录了业界主流开源大模型。可以看到，华为云集成了算力、政企、行业、生态等多方面的优势，可谓火力全开。

阿里云则是国内大厂中唯一做开源大模型的公司，说明心态最为开放、做平台的决心最强。阿里云在智能算力底座之上，打造了以机器学习平台PAI为核心的PaaS服务，以及上层MaaS服务。其中，在开发者生态层，截至2023年11月1日，阿里云发起的AI模型社区魔搭已经有超过2300个模型，开发者超过280万，模型下载次数也超过了1亿多次。