首次揭秘！这份白皮书公开了AI模型的医院全部训练过程……

2018-12-25 15:33

动脉网

关注

失眠已经成为一项通病，它难以治愈，也很复杂，研究起来非常困难。美国疾病控制和预防中心的数据显示，有超过三分之一的美国成年人睡眠不足。

通常，医生会通过在患者身上佩戴胸带、鼻探针和脑部电极等传统传感器，对患者进行睡眠监测。这些令人不舒服的方式本身就会导致失眠，因此收集到的数据不具有代表性。

为了给患者提供更好的睡眠，麻省理工学院和麻省总医院的研究人员联合英伟达公司，使用AI和类似Wi-Fi的信号来监测病人，且无需佩戴任何传感器。

研究人员在卧室安装了特殊的无线设备，因此受监测人员可以在家中睡觉。该设备收集从监测对象反射回来的信号，并通过云将数据发回给研究人员。

通过了解卧室内人员对射频的影响方式，并对脉搏、呼吸频率和运动这些测量数据的分析，研究人员可以确定不同的睡眠阶段：轻度睡眠、深度睡眠、快速眼动或清醒状态。

此外，研究人员还对25名人员在100个晚上的睡眠进行了研究。每隔30秒进行一次睡眠标记，并将用于训练的数据与用于测试的数据互相分开。其基于云的服务可以远程收集信号并运行算法模型。

麻省理工学院的研究人员使用NVIDIA GPU进行模型训练以及后端云服务上的推理。此外，他们还使用了NVIDIA的cuDNN库和TensorFlow深度学习框架。

睡眠阶段的研究具有广泛的应用价值，这种睡眠阶段检测技术可用于监测诸如抑郁症等疾病。这一应用案例，让人们看到了“AI+医疗”的全新应用场景。

从研究到临床的AI应用

如今，深度学习技术在医疗领域正逐渐从研究发展到临床应用。其涉及的数据类型，也从放射学和病理学数据，逐步扩展至其它类型的临床数据，如电子病历、医院运营和遗传学数据等。

然而目前在医院，AI算法的训练和使用依然不够成熟。原因在于，用深度学习方法打造临床影响，需要的不仅仅是前沿的算法，还包括这样一些关键的组成：

临床医生需要从项目开端即参与其中，以明确AI模型的使用情况；

可访问带注解的临床数据集；

开发机器学习模型；

整合到临床工作流中；

模型部署的基础设施；

在真实世界临床环境中进行验证。

基于此，全球顶尖GPU公司NVIDIA（英伟达）联合美国马萨诸塞州波士顿 MGH & BWH 临床数据科学中心（下简称：CCDS中心），总结出了一套科学的AI项目训练周期。据悉，CCDS 的典型项目周期，是以放射科医生的持续输入以及对近期研究的频繁评估等临床反馈为基础。

在CCDS 的典型项目周期中，专门的硬件基础设施，对于AI模型的训练可谓至关重要，因为它是整个模型开发和部署的基础。

医院的临床系统对计算能力的要求有限，于医院而言，更倾向于使用可靠度高、正常运行时间长的系统，以满足适度的计算和数据访问要求。而高性能 GPU、高速网络连接、高性能存储和训练神经网络所需的宽带接入模式，远远超出了医院 IT 团队的能力范围。

深度学习的临床应用，硬件基础设施必满足其计算要求。大部分医院在高性能计算基础设施方面的缺陷，正严重阻碍着AI项目实施的进程。

本篇文章，摘录自英伟达公司的《开发医院深度学习模型：关于临床数据科学中心的案例研究》白皮书。从中，你将了解到英伟达是如何与CCDS中心合作，利用自身高性能计算优势，解决AI模型训练过程中图像加工和初始模型开发、大规模模型训练、临床验证过程中的种种难题。

图像加工和初始模型开发

一旦对研究进行标注后，CCDS 团队便开始进行早期模型开发。

该过程的第一步，是将研究转化成易于使用的文件格式。通过研究供应商中性存档，从临床 PACS 复制图像，以将临床系统的风险降至最低。然后，将图像保存在网络存储解决方案的目录中，权限仅限于已获批的 IRB 申请上所列的人。

容量数据（例如，MR、CT 等）通常从 DICOM（PACS 使用的标准医学成像格式）转换成 NIFTI（一种文件格式）。

通过定制开发的网页应用程序，CCDS 团队对来自放射学报告的研究进行标记。通过基于短语的匹配首先分配软标号（顶部），对短语重新设定优先次序并进行质量评估（中间）。最后，CCDS 团队会逐个研究手动确认软标号（底部）。

模型开发的初始阶段也遵循交互式工作流。在这些交互式会话中，CCDS 团队对模型进行开发并进行一定时间的训练，以确保功能上的正确性。由于 PHI 顾虑问题，因此CCDS 团队必须在合作伙伴的数据中心远程启动这些交互式会话，以确保 PHI 被本地保存在易于移动的硬件上。

该环境旨在用作缩小版的 CCDS 计算集群。因此，CCDS 团队会为每位机器学习科学家分配两个至四个高性能 GPU（NVIDIA Tesla P100 或 Tesla V100），支持适用于高效节点内通信的 GPUDirect P2P 和适用于节点间通信的 GPUDirect RDMA。

在容量数据上训练模型时，这些特点非常有优势，已经证明同时属于高度计算型和内存密集型。16GB 的高速HBM2 内存, 支持半精度浮点操作，以及 TensorCore 混合精度矩阵相乘/相加（仅适用于Tesla V100）大幅度减少相对于消费者 GPU 所需要的硬件。

在整个CCDS 的基础设施中都体现了这些益处。虽然在早期模型开发阶段，高性能并非必要要求，但在集群工作期间，开发环境中必须具备这些特点，以确保模型的正确性。目前，CCDS 团队正在探索两种方法，以支持该工作流：

1.静态硬件分配：每位机器学习科学家均配备有专用机器，实体机或虚拟机，在机器上可进行对图像归一化技术和初始模型开发的所有探索。

2. 动态硬件分配：通过集群的调度器从高优先次序队列分配节点。相对于首个请求，个人对第二个节点的请求会非常不被优先考虑。

大规模模型训练

一旦确定了一组候选架构后，CCDS 团队便使用 CCDS 的计算集群大规模进行训练。虽然使用的是相同的硬件，但这些操作大部分是分两步进行：

1. 超参数搜索：用各种各样的超参数配置测试候选架构，以确定最佳模型配置。这取决于科学家的偏好，或通过随机搜索或贝叶斯优化 (Bayesian Optimization) 来决定。通过利用集群的过剩能力，大量配置可以平行进行测试，将之前测试各种架构和配置的系列任务转化成一项平行的任务，这让AI模型能够快速迭代和优化。

2. 大规模训练：一旦确定了有限的一组模型架构和超参数配置后，训练每个模型达到汇聚融合，设法确定组群中的最佳模型。成功的大规模训练依赖于：在具有高效节点间通信的GPU 中对模型进行并行化。

对此，CCDS团队将集群设计为容纳该工作流的需求。计算节点储存于 IBM 的 LSF 调度器之后，将已经提交的工作委派至可用的资源并确保节点的合理分布。

通过 Docker 容器提交工作，以管理开发环境和确保一致性，简化对集群和安装在每个节点上的程序包数量管理。

CCDS 团队最近收到了全世界首台 Volta 型 DGX-1 系统

凭借便于使用的容器化环境，CCDS 已能够非常容易的在多个节点和利用 TensorFlow 透明同步化操作的 GPU 以及定制的内部库对工作进行并行化。CCDS团队也深度依赖于NVIDIA 的 NCCL 库，该库被整合到框架中，用于高效的多 GPU 操作。该工具可以让团队减少训练的时间并缩短模型的开发周期。

临床验证

模型和工具的临床验证是CCDS团队开发过程的关键步骤。在学术背景中，如果某个模型能够在测试集上的表现超过三到四位放射科医生，则该模型被视为成功的。

CCDS团队专注于打造可供临床医生诊断患者的工具，对此制定了严格的验证过程，用于确保模型在临床上可行。

1、部署前验证

在模型开发期间即开始模型验证。CCDS团队与临床医生合作，创建群组和训练集。

CCDS团队与医生共同收集了海量的训练集，该训练集不仅仅是针对特定疾病阳性或阴性的清晰理想图像，团队还确保解释说明质量较低的研究（例如，扫面器移动或图像伪影）和被认为较“难以”读取的研究（例如，模拟、非典型解剖和手术后随访）。

为了对模型进行进一步应力测试，CCDS团队从医院扫描器获取的连贯研究上对其进行评估。由于每天均能获取大量图像，所以CCDS团队能够在整个开发周期内持续测试模型。

2、部署后验证

与医院的临床系统整合完成后，CCDS团队需要在临床医生的日常运作中评估该模型。该过程帮助评估：

模型性能：该模型在读取室中是否表现良好，是否满足放射科医生的预期？

易用性：该模型及其用户界面是否提高了临床工作流的有效性和效率？

对此，CCDS团队与临床合作伙伴一起，在高度协同和迭代的过程中测试了模型的性能和工具的易用性。

CCDS团队的软件和用户界面开发人员持续观察临床医生的情况，目的是为了了解工具在整个读取室的采用情况。由于不同的临床医生有不同的细微工作流差异，因此CCDS团队针对部门而非特定的放射科医生作出改变，以优化易用性。

这不仅提高了模型改进临床医生的表现而非抑制其表现的可能性，还有助于推动采用情况。随着更多放射科医生使用该工具，获取更多的反馈，团队能进一步改进模型，打造良性循环。

扫描器、其序列、其影像解决方案及其重建算法均不断发生变化，且团队无法始终察觉到这些软件或硬件的升级。

因此，需要连续监控，以确保模型性能不会下降。虽然可以应用手动反馈环路，但这样的程序易于出错且会增加放射科医生的工作负担和额外责任。

为了消除该依赖关系并将临床医生工作负担减至最小，CCDS团队将该过程自动化；所有模型输出均连同放射科医生的报告一起记录。通过运行分析，以评估模型随时间变化的性能并标记显著的变化。

鉴于停机时间对患者治疗的潜在重大影响，医院打算在采用新技术方面保守一点。因此，非常关键的是，任何新解决方案在整合之前均需彻底验证，且该解决方案符合现有工作流是非常有益的。虽然深度学习医学的出现给前线工作带来了许多新挑战，但是CCDS团队发现，适当结合创造性、警觉性和仔细挑选供应商解决方案，能克服这些困难。

英伟达提供了哪些技术支持？

在整个CCDS的项目中，英伟达提供的AI技术起到了至关重要的作用，包括以下几项重要技术：

1、高性能 GPU（Nvidia Tesla P100 或 Tesla V100），支持适用于高效节点内通信的 GPUDirect P2P 和适用于节点间通信的 GPUDirect RDMA。

2、集群基础设施：高性能 DGX-1 提供了强劲的计算平台。当与高速 Infiniband 连接起来时，个人能够高效地在容量医学数据上训练合理批量的大模型。

3、Nvidia-docker 可实现 GPU 无缝整合至容器最新的 2.0 发布版，进一步减少摩擦。CCDS 已实现的其它好处包括易于选择 Tensorflow 发布版，这通常需要特别版的 Nvidia 高度优化 cuDNN 库；选择基部容器的灵活性，包括非 Nvidia 容器（如需）；以及GPU分离的简单方法。

如果您是医疗AI领域的创业者或投资人，我们强烈推荐您下载这份白皮书，详细了解英伟达是如何基于高性能计算，解决AI模型在医院训练全周期中所遇到的种种难题。