“戈登贝尔奖”之后，中国需要什么样的超算呢？

2021-12-16 13:53

上个月的SC21大会，中国超算除了摘得国际超算应用领域的最高学术奖项“戈登贝尔奖”引起轰动之外，还有一件大事。那就是在当地时间11月18日公布的IO500榜单上，Top3 都是中国自研系统，其中两席是华为已经大规模商用的存储系统。

全球 HPC 存储系统性能排名 IO500 榜单，Top 3 均为中国自研系统，其中华为独占两席。来源：io500．orgIO500是高性能计算领域针对存储性能最权威的世界排行榜之一，它反映的是存储系统可为实际程序提供的I／O性能，是衡量超级计算机应用效率的重要指标，具有极高的参考价值。

而存力比之于算力，也愈显其重要性。从近年来入围“戈登贝尔奖”的超算应用及历年获奖情况来看，人工智能＋大数据与超算的融合正成为主流趋势。

而随着要处理的数据量暴增，高性能计算机也正从以计算为核心向以数据为核心的计算演进，数据密集型超算亦被视为未来发展的主流方向之一。

华为携存储技术优势，正在这一方向发力。12月10日，华为与湖南大学在国家超级计算长沙中心签署战略合作协议，成立“数据密集型超算联合创新中心”。

这是我国首个关注于数据密集型超算的联合创新平台。依照合作协议，双方将就项目共推、技术应用、人才培养等联合开展数据密集型超算示范相关工作。

为什么说数据密集型超算代表着未来超算发展的方向？其建设与应用有哪些技术要求、有哪些难题？未来该如何培育发展？

天才的预判，院士的首肯

在展开我国计算技术产业话题之前，有一个美日欧都无可比拟的前提，那就是中国势必是拥有最海量数据、最多元数据类型、最丰富应用场景的地方——这些特征随着信息爆炸愈发突出。可以说，抓住了大数据和数据价值挖掘这个“总龙头”，就抓住了未来计算产业竞争力的“牛鼻子”。

有时候不得不佩服天才大师们的先见之明——传奇的1998年度图灵奖得主吉姆·格雷（James Gray，或称詹姆士·格雷）早在2007年的演讲中就提出，随着数据的爆炸性增长，科学计算（即“第三范式”）中的数据密集型范式将成为一个独特的科学研究范式，即第四范式。而超算也将从科学计算工具，向着基于大数据、人工智能（AI）的“数据密集型科学”演进。

稍展开一下解读，可以说，作为构建下一代数据产业和科学计算的基石，超算无疑握着一把开启未来数据文明的钥匙。

吉姆·格雷那次演讲的题目为《科学方法的革命》，这是他留给世人的最后一次演讲。这次演讲17天后，吉姆·格雷以一个帆船运动爱好者的身份，消失在了茫茫大海，至今杳无音信。

1998年度图灵奖得主吉姆·格雷（资料图）

但他这一论断影响深远。在今年的全国高性能计算学术年会（CCF HPC China 2021）上，中国计算机学会高性能计算专业委员会（CCF高专委）发布了由华为公司与上海交通大学等多家高校、长沙超算等多家超算中心等主编的《数据密集型超算技术白皮书》（下简称《白皮书》）。《白皮书》由中国科学院院士陈国良作序，他在序言中直言：“智能世界运转的速率直接取决于数据分析的效率。”

陈国良院士（资料图）

陈国良院士作了个贴切的比喻：如果说数据是数字世界的新石油，那么“预计到2025年占比将超过80％的非结构化数据”就是石油中的页岩油。和页岩油一样，非结构化数据的“开采”（价值挖掘）难度更大，需要依赖更加专业化的工具。

他谈到，工具之一就是《白皮书》中提到的“面向海量数据的高性能数据分析”（High Performance Data Analysis，HPDA）。为帮助理解，陈院士还贴心地写下一条等式：

HPDA＝ HPC ＋ BigData ＋AI

从这个等式出发，陈国良院士对《白皮书》提出的以数据为中心的超算系统架构“深以为然”，他说：“以数据为中心也就是以价值为中心。”

“如果把IT系统跟人或组织的关系比喻成好朋友，那么IT系统以前更多是一个随叫随到、提升效率的小助手；而以后，IT系统更多地是参与人或组织在商业世界里的价值共创。”几乎与吉姆·格雷异曲同工地，陈国良院士认为，“超算系统将更多地从一个业务支撑系统走向一个价值生产系统”。

10大场景，需求摆在桌面

如果说我们能从前贤的见解中可以得出什么结论，至少有一条：未来数据密集型超算的发展，与我国科技创新迈向更广更深息息相关。

而与此同时，如何建设和发展数据密集型超算的问题也就摆在了桌面。

超算作为国之重器，当然不能“先射箭后画靶”。而要明确构建数据密集型超算的技术要求、勾勒数据密集型超算的轮廓，最必要的是要弄清楚，未来将会有哪些数据密集型的超算应用、它们给超算提出了哪些要求和挑战。

这些问题本来挺难回答的，但好在“刚想睡觉就有人送枕头”——前文提到的《白皮书》专门辟以大量篇幅，面向未来3～5年数据密集型超算场景作出了预测。

这个预测的完整表述是“面向2025年的十大数据密集型超算场景”。这十大场景依次是：基因测序、自动驾驶、能源勘探、气象预测、卫星遥感、类脑科学、高能物理、天文物理、灾害模拟、媒体计算。

《白皮书》作出以上预测的模型，充分考量了两个维度：场景应用与大数据及AI的相关度、场景应用数据量的规模及市场空间。

可以看到，这些应用场景，有的是从传统的HPC超算场景逐步演进到HPDA场景，如基因测序，能源勘探等；有的原生地就是HPDA应用，如自动驾驶等。

另外，从数据规模角度，依照《白皮书》的说法，上述10大数据密集型超算应用场景，数据量规模起步都是PB级以上。

共48页的《白皮书》，用了近20页的篇幅对表格中前6个典型应用场景作了分析。分析认为，这些应用场景虽然领域迥异、对计算平台的需求也各有侧重，但几乎都共同指向未来超算要满足对海量数据的计算需求、对各类应用之间的高效互通的需求、对大内存的容量要求、对存储的极致性能要求、对高效算力的低功耗或绿色化要求。

红色虚框中为面向2025的十大数据密集型应用场景

7项建议，呼唤示范先行

从需求出发，《白皮书》对数据密集型超算技术的建设提出了7条建议。这7条建议，直指超算自系统架构而上的层层技术迭代，也直面E级超算、EB级应用的“存储墙”“编程墙”“功耗墙”，非常全面，现归纳如下。

1、采用异构融合的新型 HPDA 架构

超算最本质的是算力。如今超算多采用异构架构，以让CPU、GPU、FPGA等不同的处理器发挥最大效用。但此举也存在问题，即计算单元各自为战、硬件资源闲时高于用时。《白皮书》认为，超算架构应在异构基础上，再加上“融合”。用异构融合的新型HPDA架构一统超算，能够最大化利用计算资源，更好发挥对海量数据的并行处理能力。

HPDA 融合架构图

2、打造存算分离的统一数据存储底座

数据密集型超算，意味着场景应用中的数据分析处理是“主角”。面对海量数据涌入，超算不能将大量机时浪费在等数据的读写上。这就是传统超算的“存储墙”难题。《白皮书》提出，要打造存算分离的统一数据存储底座，让计算节点共享存储，让热数据、冷数据按需流动。

另据统计，我国存力与算力之比约为1：2，对应投资约为1：3，而美国这两组数据均为1：1。从数据作为新生产资料的角度来看，存力的基础地位日益彰显；要改变当前“重算力、轻存力”的现状，未来我国还要在存力规划上下功夫。

3、推进全光化多网融合高速互联网络构建

海量数据的流动必然依赖高效的网络传输，所谓高效，就是高带宽、高IOPS、低时延。《白皮书》提到，可从器件材料和传输技术两个角度构建未来高速互联网络。材料方面，提倡“光进铜退”，即发展光通信技术；技术方面，推动超算内部计算网、存储网、数据网等的融合，同时降低成本。

4、使用低碳高效绿色节能的工程工艺

E级、10E级超算的挑战，除了计算性能，还有一个低功耗的“紧箍咒”。“绿色”是计算科学家们必须要去平衡的一个需求，这就是所谓的“功耗墙”。超算的能耗主要产自对器件的供电和散热，因此要“破墙”，就须提高电源使用效率（降低PUE）和设备能源利用率。当前水冷、液冷等技术发展较快，对降低PUE大有助益，而在提高设备能源利用率方面还缺乏有效措施。《白皮书》提到，使用SSD闪存盘组成的存储系统功耗较低，可作为参考方向。

5、构建高效并行开发和编译环境

异构融合的超算架构需要解决CPU＋GPU＋XPU等异构计算部件的并行编程难题，这就是超算的“编程墙”。《白皮书》提出，异构编程架构应该基于现有的经典并发模型，针对程序并行和数据并行，为用户提供方便快捷的工具。

6、构筑易用的国产应用平台支撑环境生态

建设超算，应用是目标。超算应用是有门槛的，为此超算供应商常用容器化技术将超算运行环境封装好，让上层应用与底层隔开，使普通用户也能使用超算。不过，即便如此，超算平台因一端连接计算、一端连接行业应用，能够兼具计算知识和专业应用的人才很少，一些共性难题须协同解决。因此《白皮书》认为，要让更多人参与到超算应用开发中，构建良好超算生态。这就要求超算平台要为用户提供简单、易懂的可视化操作界面。

7、提供智能化集群管理运维平台

素来超算平台的搭建都“人前风光”，但建设超算只是开始，超算运维从来都不轻松。投射到数据密集型超算，更是要面对不同用户巨量数据的管理，人工干预压力更大。

《白皮书》提出，数据密集型超算中心未来要逐步实现规划、建设、运维、优化的全生命周期数字化管理，逐步实现自动化、无人化、智能化。但有鉴于运维场景的多样性和复杂性，不同运维场景采用的 AI 算法差异巨大且通用性较差，通常需要多种 AI 算法的组合，智能运维技术的成熟落地仍然是一个长期演进的过程。