3D Xpoint将掀起人工智能领域一场革命?美光:我行
3D XPoint之美
3D XPoint连接了NAND存储器(SSD存储器)和DRAM存储器(RAM)之间的鸿沟。正如SumitSadana所言:“3D XPoint是一种持久性存储器,速度不如DRAM快,但明显快于NAND,它与DRAM不同,没有电也能保存状态。”
在原始读写速度上,3D XPoint与常规NAND内存更接近,几乎相同。在广受欢迎的YouTube硬件评论频道Linus Tech Tips执行的测试中,使用了3D XPoint技术的英特尔Optane硬盘的读写速度大致为2GB/s,与三星最新的NAND SSD相同。 相比之下,RAMdisk(从DRAM模块创建的虚拟磁盘)的读取或写入速度可以超过8GB/s。然而,3D XPoint的表现更像DRAM,尤其是在延迟上。
延迟是衡量给定存储介质响应请求的速度的一个指标。同样是CPU请求一张猫的照片,NAND和3D XPoint都能够以大约2GB/s的速度向CPU提供该图片,但3D XPoint模块的延迟(在CPU时间尺度上)更低,即它会比NAND模块更早开始传输信息。3D XPoint的响应时间接近DRAM的响应时间。
我们可以从另外一个角度思考这之间的差异。假如您想要从存储器中读取60 GB的连续数据,那么,NAND和3D XPoint在原始速度方面的性能大致相当。 但是,如果您想从存储器中随机执行120,000个单独的读取请求,比如120,000张大小为500 KB的猫图片,那么,3D XPoint模块完成处理这120,000个请求的速度远快于NAND模块。
3D XPoint的另一个显着优势是其耐用性。现代NAND在失效之前可以写入数十万次至数百万次,但3D XPoint的耐久性与DRAM的耐久性相当,它的性能不会因为重复写入而降低。
3D XPoint实现
现在我们已经知道了机器学习是如何工作的,也了解了3D XPoint的性能特征。现在,让我们看看3D XPoint怎么被非常有效地使用,以加速甚至是革命性地改变机器学习。不过,首先让我们看看Sumit Sadana的一段讲话,他暗示了美光在3D XPoint上可能正在做的工作:
“在云公司内部,一个众所周知的事情是,处理器需要花费大量的时间等待数据。随着这些新兴处理器内核数量在过去几年内的大幅增加,相对来讲这些处理器的附属内存容量并没有增加太多,这就意味着每个内核可以使用的内存带宽容量是实际下降的。
这就是为什么使用3D XPoint扩展这些进程的可寻址内存空间如此重要的原因,因为它实际上可以给你带来更大的回报和更高的性能,而不再是只能升级处理器到下一代版本上或者使用更快速的处理器。未来的处理器将允许更多的内存连接到处理器上,这也将成为提高服务器平均能力的另一个驱动因素。”
上面这段话中的一个关键词汇是“可寻址内存”,它到底意味着什么?你看,CPU并不能直接寻址计算机中的所有内存。你可以直接寻址DRAM,但是不能直接寻址硬盘或者SSD硬盘。
请注意,上图中的CPU可以直接访问DRAM模块中存储的任何数据,但无法对SSD硬盘执行相同的操作。为了访问SSD上的数据,CPU必须与存储控制器通信,要求存储控制器从硬盘驱动器获取一堆数据并将其放入RAM中。然后,CPU从RAM获取所请求的数据,这样就实现了对SSD硬盘数据的访问。写入SSD的过程与读取过程相反,CPU必须首先将一些数据写入RAM,然后要求存储控制器从RAM中获取该数据并将其写回到SSD中。正如你所看到的那样,这里面涉及到很大的性能开销。
相比之下,您可以在图的右侧看到访问DRAM内存和3D XPoint内存的方式。在该模型中,CPU可以直接访问DRAM和3D XPoint存储器中的内存页面。
Linus Tech Tips就这个概念做了一个视频测试,他们使用了英特尔的Optane硬盘取代了测试机器上的存储器。结果显示,即使是在当前的计算机架构中,没有使用特殊的操作系统级的配置,通过M2接口连接,使用3D XPoint内存的Optane硬盘也足够快,可以充分降低CPU访问数据的延迟。
为了让该系统实现最高性能,美光必须和操作系统(Linux和Windows)开发人员共同开发一种基本全新的内存结构和访问机制。在一个计算机系统中,你可能有1级缓存、2级缓存,有时甚至需要3级缓存,然后是我们都知道的RAM或DRAM内存。美光需要开发可以实施另外一层基于3D XPoint技术的内存介质的驱动程序,可能比DRAM稍慢一些,但是比DRAM更耐用,也更便宜。
相对于系统其余部分,这种设计调整可以相对透明地实现。系统会看到全部随机存取存储器,但是内核会做出区分,将经常运行的应用在DRAM中分配内存页面,同时为不太经常使用但当前仍然在运行的应用分配3D XPoint页面。
这种方式对机器学习模型特别有用,它允许服务器将整个数据集加载到可寻址内存中,然后CPU在可寻址的内存空间上,在训练集上开始前向传播和后向传播算法的训练。
更具体地说,如果您参考上文AI部分中的神经网络图,理想的实现会将以X1,X2 ...等表示的数据集加载到3D XPoint存储器中,同时将模型的主要部分,即我们在图中隐藏的第2层和第3层加载到主DRAM中。模型的权重通常由theta,θ表示,它们将被存储在DRAM中,并镜像到3D XPoint进行备份,以应对硬件或软件崩溃的情形。
CPU可以直接访问大量快速和低延迟的内存,将使得CPU大部分时间处于满载状态。这意味着更好的投资回报,更短的模型培训过程,以及机器学习任务的总体重大改进。
结论
美光在最近这次年度会议上展示了公司良好的执行力,他们火力全开,而且如果他们能够以上文所讨论的那样进行3D XPoint技术的部署,他们的股票可以获得更高的市盈率。而且,它也会摆脱商品级芯片供应商“周期上升,周期下降”的老讨套路。如果他们能够提供非易失性的可寻址内存,并与Linux和Windows等操作系统完美集成,他们就能够创建一种全新的存储器类型,并满足机器学习日益增长的需求。
最新活动更多
-
11月28日立即报名>>> 2024工程师系列—工业电子技术在线会议
-
12月19日立即报名>> 【线下会议】OFweek 2024(第九届)物联网产业大会
-
即日-12.26火热报名中>> OFweek2024中国智造CIO在线峰会
-
即日-2025.8.1立即下载>> 《2024智能制造产业高端化、智能化、绿色化发展蓝皮书》
-
精彩回顾立即查看>> 2024 智能家居出海论坛
-
精彩回顾立即查看>> 【在线会议】多物理场仿真助跑新能源汽车
推荐专题
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论