3D Xpoint将掀起人工智能领域一场革命？美光：我行

2018-05-30 10:21

3D XPoint之美

3D XPoint连接了NAND存储器（SSD存储器）和DRAM存储器（RAM）之间的鸿沟。正如SumitSadana所言：“3D XPoint是一种持久性存储器，速度不如DRAM快，但明显快于NAND，它与DRAM不同，没有电也能保存状态。”

在原始读写速度上，3D XPoint与常规NAND内存更接近，几乎相同。在广受欢迎的YouTube硬件评论频道Linus Tech Tips执行的测试中，使用了3D XPoint技术的英特尔Optane硬盘的读写速度大致为2GB／s，与三星最新的NAND SSD相同。相比之下，RAMdisk（从DRAM模块创建的虚拟磁盘）的读取或写入速度可以超过8GB／s。然而，3D XPoint的表现更像DRAM，尤其是在延迟上。

延迟是衡量给定存储介质响应请求的速度的一个指标。同样是CPU请求一张猫的照片，NAND和3D XPoint都能够以大约2GB／s的速度向CPU提供该图片，但3D XPoint模块的延迟（在CPU时间尺度上）更低，即它会比NAND模块更早开始传输信息。3D XPoint的响应时间接近DRAM的响应时间。

我们可以从另外一个角度思考这之间的差异。假如您想要从存储器中读取60 GB的连续数据，那么，NAND和3D XPoint在原始速度方面的性能大致相当。但是，如果您想从存储器中随机执行120，000个单独的读取请求，比如120，000张大小为500 KB的猫图片，那么，3D XPoint模块完成处理这120，000个请求的速度远快于NAND模块。

3D XPoint的另一个显着优势是其耐用性。现代NAND在失效之前可以写入数十万次至数百万次，但3D XPoint的耐久性与DRAM的耐久性相当，它的性能不会因为重复写入而降低。

3D XPoint实现

现在我们已经知道了机器学习是如何工作的，也了解了3D XPoint的性能特征。现在，让我们看看3D XPoint怎么被非常有效地使用，以加速甚至是革命性地改变机器学习。不过，首先让我们看看Sumit Sadana的一段讲话，他暗示了美光在3D XPoint上可能正在做的工作：

“在云公司内部，一个众所周知的事情是，处理器需要花费大量的时间等待数据。随着这些新兴处理器内核数量在过去几年内的大幅增加，相对来讲这些处理器的附属内存容量并没有增加太多，这就意味着每个内核可以使用的内存带宽容量是实际下降的。

这就是为什么使用3D XPoint扩展这些进程的可寻址内存空间如此重要的原因，因为它实际上可以给你带来更大的回报和更高的性能，而不再是只能升级处理器到下一代版本上或者使用更快速的处理器。未来的处理器将允许更多的内存连接到处理器上，这也将成为提高服务器平均能力的另一个驱动因素。”

上面这段话中的一个关键词汇是“可寻址内存”，它到底意味着什么？你看，CPU并不能直接寻址计算机中的所有内存。你可以直接寻址DRAM，但是不能直接寻址硬盘或者SSD硬盘。

请注意，上图中的CPU可以直接访问DRAM模块中存储的任何数据，但无法对SSD硬盘执行相同的操作。为了访问SSD上的数据，CPU必须与存储控制器通信，要求存储控制器从硬盘驱动器获取一堆数据并将其放入RAM中。然后，CPU从RAM获取所请求的数据，这样就实现了对SSD硬盘数据的访问。写入SSD的过程与读取过程相反，CPU必须首先将一些数据写入RAM，然后要求存储控制器从RAM中获取该数据并将其写回到SSD中。正如你所看到的那样，这里面涉及到很大的性能开销。

相比之下，您可以在图的右侧看到访问DRAM内存和3D XPoint内存的方式。在该模型中，CPU可以直接访问DRAM和3D XPoint存储器中的内存页面。

Linus Tech Tips就这个概念做了一个视频测试，他们使用了英特尔的Optane硬盘取代了测试机器上的存储器。结果显示，即使是在当前的计算机架构中，没有使用特殊的操作系统级的配置，通过M2接口连接，使用3D XPoint内存的Optane硬盘也足够快，可以充分降低CPU访问数据的延迟。

为了让该系统实现最高性能，美光必须和操作系统（Linux和Windows）开发人员共同开发一种基本全新的内存结构和访问机制。在一个计算机系统中，你可能有1级缓存、2级缓存，有时甚至需要3级缓存，然后是我们都知道的RAM或DRAM内存。美光需要开发可以实施另外一层基于3D XPoint技术的内存介质的驱动程序，可能比DRAM稍慢一些，但是比DRAM更耐用，也更便宜。

相对于系统其余部分，这种设计调整可以相对透明地实现。系统会看到全部随机存取存储器，但是内核会做出区分，将经常运行的应用在DRAM中分配内存页面，同时为不太经常使用但当前仍然在运行的应用分配3D XPoint页面。

这种方式对机器学习模型特别有用，它允许服务器将整个数据集加载到可寻址内存中，然后CPU在可寻址的内存空间上，在训练集上开始前向传播和后向传播算法的训练。

更具体地说，如果您参考上文AI部分中的神经网络图，理想的实现会将以X1，X2 ．．．等表示的数据集加载到3D XPoint存储器中，同时将模型的主要部分，即我们在图中隐藏的第2层和第3层加载到主DRAM中。模型的权重通常由theta，θ表示，它们将被存储在DRAM中，并镜像到3D XPoint进行备份，以应对硬件或软件崩溃的情形。

CPU可以直接访问大量快速和低延迟的内存，将使得CPU大部分时间处于满载状态。这意味着更好的投资回报，更短的模型培训过程，以及机器学习任务的总体重大改进。

结论

美光在最近这次年度会议上展示了公司良好的执行力，他们火力全开，而且如果他们能够以上文所讨论的那样进行3D XPoint技术的部署，他们的股票可以获得更高的市盈率。而且，它也会摆脱商品级芯片供应商“周期上升，周期下降”的老讨套路。如果他们能够提供非易失性的可寻址内存，并与Linux和Windows等操作系统完美集成，他们就能够创建一种全新的存储器类型，并满足机器学习日益增长的需求。

<上一页 1 2