陈左宁:解析为什么说传统超算并不最适合AI
AI对算力体系结构的需求
要摆脱体系结构的限制,需要对现有体系结构进一步优化。这包括:
适度使用较低精度;
更有效利用内存层次结构;
更有效的并行形式;
使用大片上缓存和高带宽内存(目前应用较多);
发展包含编解码部件、稀疏部件等在内的新部件(比如NVDIA A100 专门做了稀疏部件的设计);
计算流/数据流/控制流有机结合;
异构深度融合结构……
再进一步,变革体系结构,使其能够实现“更合理的映射”。
所谓更合理的映射,可以理解为:既然人工智能表征的是点和点之间的“关系”,而“关系”本身又具有一种拓扑连接关系,那么如果计算物理架构能够更好地映射到这种拓扑连接,显然是最有效的。
如何实现?
首先要有面向应用需求的体系结构设计(主要是一些参数的变化,比如SIMD个数、核心数,改变芯片尺寸、互连、能耗等);
进一步可以发展存内计算、网内计算这种适合人工智能算法的计算形态(存算一体、传算一体);
最好的是,面向“连接关系”设计硬件、面向“连接”设计体系结构,使拓扑关系表示更能反映“关系和连接”。比如当前排行超算TOP 500榜首的日本“富岳”,通过设计出6D-Torus,更适于映射高维度的数据。
再进一步,变革体系结构,使其能够实现“高可扩展的架构设计”。
这类讲的比较多的有晶圆级封装和系统级封装。
异构集成系统设计方案的创新,让“Chiplet”走进人们视野。这种“产品中的不同组件在独立的裸片上设计和实现”的理念,正随着技术的发展引起大型商业公司和研究机构的关注。如今,不仅多核系统可以Chiplet,甚至多个Chiplet也可以再做融合。
比如美国初创公司Cerebras发布的“全球最大的芯片WSE”,就是晶圆级封装的典型代表;苏黎世联邦理工学院发布刚刚在今年发布的4096核心RISC-V芯片,也是一个由多个Chiplet组合起来的众核架构。
据称WSE上有1.2万亿个晶体管
在理想状态下,这类“大芯片”的效率非常高,比“CPU+GPU”高很多倍,同时所需能耗和空间也非常低。
当然,类脑芯片和量子芯片这种更加能够映射到AI表征的“关系”的芯片,是从硬件形态上对体系结构的突破,现在代表性的产品有谷歌发布的Truenorth 神经形态芯片浙江大学发布的“达尔文2”芯片。
值得指出的是,类脑芯片目前仍处于概念验证阶段,量子芯片更是还在襁褓之中。
AI对算力软件栈的需求
前文提到,根据发展趋势,AI对算力软件栈的需求,要求软件栈是复杂、动态、分布式,分散的,要支撑新的场景(如原生支持分散场景等),以及架构创新(如软硬件协同设计、体系结构突破等)。
这是由于,目前现有的人工智能软件栈是分离的——即各流程软件支持是分离的,每个阶段有每个阶段的处理系统。
比如:预处理,一般是基于CPU 集群,软件多用Hadoop、Spark等;模型设计,前端CPU服务器+JupyterNotebook系统;模型训练,基于CPU-GPU集群的TensorFlow等框架;部署、推理多利用边缘设备等等。
正是由于各阶段有各自的处理系统、不同的阶段用不同的系统,导致现在缺乏原生的扩展能力和动态支撑能力,包括编排、流程化处理,都缺乏很好的支撑。
由此,人工智能软件栈需求就是对可扩展的支持、动态的支持、协同全流程计算等的需求。
其中,协同全流程计算需要考虑AI应用的全生命周期和为“人的介入”作特殊设计。特别是人在环路中这点必须特殊考虑。
传统HPC中,“人的介入”非常明确——就是开发阶段,模型、算法确定以后就不必再去考虑了;但在AI特别是在训练中则不得不区别对待。
比如要研究人在回路中的最大特征,如要研究语义、交互、迭代;要研究不确定性、脆弱性和开放性条件下的任务建模、环境建模和人类行为建模;要研究人机物融合新型人工智能等等。
从架构创新的角度,人工智能对算力软件栈的需要,则集中在以下几个方面:
从集中式到适应分布式、分散、动态的需求;
从“以计算为中心”到“以数据为中心”;
从“面向计算机专家”到“面向数据分析专家”;
弹性、多框架的协同;
支持云边端协同。
特别需要指出的是,受编程及软件平台感知边缘资源限制,如今的智能任务不可能只在一台大机器中完成,显然需要云边端协同完成;而智能本身的任务分配,包括感知、认知、决策,也是一个闭环,同样需要云边端的智能融合。
最后,两点说明
当前,AI对算力的需求潜力已毋庸置疑。但由于AI发展的历史尚短,自身无论计算理论、方法算法都尚不完整,特别是数学理论的基础还很不坚实,因此,AI还不能如传统的数值模拟一样,能够非常明确地提出对HPC计算能力的要求。
也就是说,AI的计算理论还没有发展到它能对HPC明确提出很高的需求阶段。但反过来看,如果AI能够接近甚至达到人的智能水平,肯定会对计算能力、存储能力等的需求非常高。
另一方面,高性能计算未来也将不再简单比拼“肌肉”——只追求规模和性能——更加智慧的高性能计算系统将成为主流。
未来,高性能计算、物联网、大数据和人工智能将实现深度融合。国家超级计算广州中心主任卢宇彤甚至预言,“到2030年,所有高端计算设备将自带AI支持功能,高性能计算仿真将利用AI平台提高性能,AI也将重塑计算仿真。”
因此,现阶段HPC与AI融合、适配问题的关键在于,在HPC体系结构发生改变的过渡阶段,如何在AI的演进阶段支撑其计算能力需求,这是目前HPC领域应该考虑的问题。
还应注意到,深度学习仅仅是AI算法的一个分支,面向AI的云端高性能计算环境需要广泛适应包括深度学习在内的多种应用模式,未来的应用需求仍有待进一步研究。
最新活动更多
-
11月28日立即报名>>> 2024工程师系列—工业电子技术在线会议
-
12月19日立即报名>> 【线下会议】OFweek 2024(第九届)物联网产业大会
-
即日-12.26火热报名中>> OFweek2024中国智造CIO在线峰会
-
即日-2025.8.1立即下载>> 《2024智能制造产业高端化、智能化、绿色化发展蓝皮书》
-
精彩回顾立即查看>> 2024 智能家居出海论坛
-
精彩回顾立即查看>> 【在线会议】多物理场仿真助跑新能源汽车
推荐专题
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论