人工智能利用生物数据的难点

2023-10-08 11:26

前言

人工智能（AI）最近在图像和语音识别等领域产生了深远的影响，这一进展已经转化为实际应用。然而，在药物发现领域，这种进展仍然很少，其中一个原因是所使用的数据本身。不同领域的数据存在显著的差异，即图像、语音、化学和生物领域，尤其在生物领域受限于可用数据的数量，以及与药物发现的相关性，这些都限制了AI在药物发现领域的应用。

未来需要我们改进对生物系统的理解，以及随后产生的足够数量的实际相关数据，以真正推进AI在药物发现领域的发展，从而能够发现新的化合物，以及新的作用模式，从而能够在实际的临床应用中表现出理想的疗效和安全性。

物理数据和生物数据的差异

人工智能已经改变了许多领域，可能最显著的是图像和语音识别领域，除了算法，对于数据的要求也非常重要。特别是在“深度学习”的背景下，数据更是至关重要的，这涉及到可用数据的数量及其分布。

不同领域的可用数据量差别很大，从仅有数百个带有体内注释的数据点（例如注释有可能诱发药物性肝损伤的药物，DILI）到特斯拉运营的车队每年可用的Zettabytes（1021字节）。在其他领域，可供使用的化学和生物数据量相对较少。

除了大量可用数据外，以计算机可修改的形式表示数据的能力也至关重要，为数据挖掘使用相关端点标记数据的能力也是如此。在这方面图像识别和化学，生物领域具有显著的差异。

在对图像和语音进行分类时，对对象的模型结构的表示和呈现比使用化学和生物数据时更为完整，标签的分配也相对不那么模糊。在化学领域，一个物体的最佳表征通常是未知的，一种化学物质的不同方面导致不同类型的效应，有些可能与官能团有关，有些可能与表面性质有关。而在生物领域，哪种类型的信息提供了与哪个终点相关的信息也是很模糊的。化学和生物领域的共同点是，标签在很大程度上取决于特定实验的设置，即使这些相同的东西在“原则上”是可测量的。

人工智能在围棋等类型的游戏上取得了突破性的进展，但这样的游戏比药物发现设置简单得多，因为存在一组有限的状态，规则是明确定义的，并且可以穷尽地计算（至少在理论上是）。然而在生物学领域，系统通常不遵循明确定义的规则（或者至少那些通常属于未知的规则，并且只能从可用的有限数据中获取）。相反，系统可以在大量不同的水平上定义，例如转录组学、蛋白质组学和代谢组学水平，也可以从表观遗传和功能相互作用水平，以时间和空间分辨的方式，同时考虑细胞内和细胞间信号，从细胞到生物整体水平。

此外，在生物领域的观察是高度条件性的（取决于大量的参数），这通常是未知的。在诸如副作用资源（SIDER）之类的数据库中，人们可以对具有特定副作用的药物进行注释，并使用这些信息训练计算模型以进行预测。然而，除了给药本身外，这种效应还取决于：（i）剂量；（ii）受体的遗传设置或遗传多态性；（iii）影响药物药代动力学（PK）特性的因素（如食物摄入量）；（iv）联合用药；（v）疾病状态；（vi）性别；（vii）年龄；或者（viii）微生物组；然后副作用可能只发生在特定的一部分患者身上，而且可能在不同的严重程度、不同的器官中以不同的形式出现。可以明显看出，不同领域的数据及其含义存在很大差异，并非每个在一个领域有效的方法都可以直接转移到另一个领域。化学和生物数据的使用必须非常谨慎，并始终在其背景下加以解释。

难点1：如何将生物活性和不良反应联系起来

我们现在根据间接的药理学分析数据，并将蛋白质基团的生物活性与生理功能联系起来，试图说明化学和生物领域结论的复杂性。尽管人们可以假设，针对蛋白质靶点的活性足以理解并预测其在生物系统中的作用（这确实有利于药物发现中的人工智能方法），但不幸的是，实际情况并非如此。

例如，基于FDA不良事件报告系统（FAERS）在考虑靶细胞生物活性与未结合血浆浓度的比值时，即如果一种药物的血浆浓度高于作用于某一特定靶点所需的阈值，那么假定人们就会看到一种特定类型的副作用（或者更普遍地说，生物效应），分析结果如下图所示。

根据体外生物活性与血浆游离浓度的比值进行分析，针对靶点具有高阳性预测值（PPV）的不良事件往往具有较低的命中率，这意味着只有一小部分与不良事件相关的药物与靶点的生物活性相关。另外，高命中率与低PPV相关，表明该靶点活性与不良事件对应的高假阳性率。因此，总的来说，靶向活性与给药后观察到的不良事件之间不存在明确的一对一关系。

此外，这种分析过于简单，因为在这种分析中没有考虑到许多因素（如化合物代谢、完整的PK、脱靶效应等），化合物的单一（甚至没有）描述将无法解释预测药物效应的全部生物学复杂性，然而，这是许多计算药物发现方法的基本假定。

比如氯胺酮，氯胺酮既是一种麻醉剂，也是一种街头毒品，在2000年发现，当明显低于用作麻醉剂的剂量时，其表现出抗抑郁的效果，此外，其支气管扩张特性也是众所周知的。尽管氯胺酮长期以来被认为是通过阻断NMDA受体发挥作用，但其他NMDA阻断剂，如美金刚和兰尼西明，在临床试验中并没有成功，这暗示了它们各自作用方式的不同，这一点还有待充分了解。除了NMDA受体外，研究发现阿片受体系统也与氯胺酮的作用有关。此外，最近发现氯胺酮的代谢物在抑郁症动物模型中具有活性，人类对氯胺酮的研究仍然有许多未知。这个案例说明了用明确的作用模式和适应症来注释药物的困难，因为这些通常都不知道细节，并且取决于剂量、代谢以及其他因素。这使得人工智能在药物发现中对这些注释很差的数据的应用变得极为艰难。

难点2：药物发现中的数据和问题设定

为了在药物发现领域使用数据分析方法，我们通常可以区分两种类型的模型：（i）基于大规模和代替指标的模型，这些模型通常旨在从大量物理可用或虚拟分子（例如，在虚拟筛选中）中选择化合物，在性质上更倾向于定性的模型，包括溶解度、脂溶性或蛋白质靶点生物活性的模型通常属于这一类；以及（ii）基于通常规模较小的可用数据的模型（但通常是与体内终点更相关的数据），其中具有更定量的性质，旨在预测安全性或疗效相关终点，更复杂的模型，如动物模型（人体药效或安全性数据）属于这一类。

在药物发现中，通过相对简单的分析类型可以生成大量的数据点，这有利于培训所需的数据量。然而，在代理指标对相关体内终点的预测性相对较低的情况下，单纯的数据量往往不足以生成实际有用的模型。而相比之下，复杂生物学的定量读数在人体内相关性方面可能更有利，但这些数据更难生成和建模。

总而言之，我们目前还没有合适类型的数据来生成模型，从而真正利用人工智能进行药物发现。因此，对这些代理终点进行建模的能力的增量变化也不会改变游戏规则，因为它们不会转化为与药物安全性和疗效相关的任何体内终点。在许多情况下，我们对生物学的理解还不足以指导我们需要测量什么，而替代终点的选择（与理化性质、PK、疗效或安全性相关）总是与它们如何转化为临床的重大不确定性相关。鉴于可用基础数据的这一特性，无论使用何种算法也无法改善当前的情况。

难点3：药物发现中的数据注释与标识

由于各种原因，生物注释通常远远不适合用于数据挖掘，例如药物的“作用模式”概念，其中通常使用解剖治疗分类（ATC）代码来提供这种类型的标签。然而，ATC代码在历史上一直在增长，ATC的最高级别类别是器官级别，这与任何有意义的生物学行为模式都没有联系。

那么还有哪些选择？例如，在特定靶标上的活性是一种常见的选择，可以使用Entrez基因ID作为目标标识符，然而，情况并不是那么简单。如果一个唯一可识别的基因不是靶标，而只是一个特定的剪接变体，或者一个的特定激活状态（例如激酶的磷酸化形式），或者一个特定的变构结合位点，那么应该使用哪个标识符？此外，该靶点也可能被抑制（而其浓度保持不变），或其表达可能被改变（例如，跨细胞类型或状态），或可能通过PROTACs标记降解，等等。

因此，有许多不同的方式与药物靶点相互作用，其中只有少数是功能等效的。此外，同一靶点上不同类型的相互作用可能导致不同的效果；在最简单的情况下，这可能是蛋白质上的激动剂和拮抗剂之间的差异；但受体药理学当然比这更微妙，而且偏倚的信号传递或考虑配体-受体相互作用的药效学，它们的功能性后果，导致了如何用行为模式“标记”特定化合物以实现数据挖掘的进一步复杂化。因此，即使一个人接受这样一个前提，即针对特定靶点的活性可以被用来注释化合物的作用模式（这本身就是一个很大的“如果”），那么用于这个目的的标签决不是无足轻重的。

未来AI在药物发现中的发展方向

目前，我们经常“在数据所在的地方建模”，这就像只在灯光所在的地方去寻找车钥匙，而不是真正期望在哪里找到它们，仅仅拥有“数据”是没有帮助的，我们需要的是正确的数据，以正确的格式提供，并用于正确的目的，药物发现中的人工智能才能给该领域带来真正的变化。

人们已经认识到，药物发现数据需要更好地被组织起来，目前，我们已经能够更好地进行数据查找、编目和搜索，所有这些都是有用的。然而，要进入下一个层次，我们需要超越现有数据的局限性，并根据这些数据所包含的信息来决定我们需要哪些数据来回答与体内安全性和有效性相关的问题。

科学问题或假设，是任何模型的开始，这使我们能够以一种有针对性的方式生成数据，我们需要以适当的方式表示这些数据，并最终使用适当的方法分析数据。

为了能够在药物发现的决策中真正使用化学和生物数据，我们需要超越技术“推动”产生的数据，朝着科学需求的“拉动”方向发展。因此，我们首先需要更好地确定要测量什么。

小结

药物发现领域的可用数据本质上与人工智能最近取得巨大进展的其他领域（如图像识别领域）的数据有根本不同。在许多情况下，生命科学数据很难标记，这是人工智能方法在药物发现领域应用时的一个严重问题。

为了真正推动这一领域的发展，我们需要了解为哪种目的生成哪些数据，这首先涉及到更好地理解生物学。只有当我们能够在体内测量和捕捉相关的生物终点时，我们才能在这一领域取得更大的进展，并将目前可用的计算算法有效地应用于药物发现领域，以提高化合物在临床上的疗效和安全性。

参考文献：

1.Artificial intelligence in drug discovery: what is realistic, whatare illusions? Part 2: a discussion of chemical and biological data. DrugDiscov Today. 2021 Jan 27;S1359-6446(21)00042-8.

原文标题 : 人工智能利用生物数据的难点