订阅
纠错
加入自媒体

人工智能能颠覆新药研发吗?

2018-05-14 11:33
来源: 虎嗅网


先关注一下人工智能近年来的战绩:

2015年估值就已达到17.81亿美元的Benevolent AI公司,通过分析海量的科技文献、专利和临床实验结果等挖掘潜在的知识产生新的假说,在肌萎缩侧索硬化(ALS) 疾病治疗上,发现的化合物在动物模型上显示效果,准备进入临床研究;另外它还把强生之前开发用于注意缺陷多动障碍(ADHD)失败的Bavisant重新开发用于帕金森氏症病人的日间极度嗜睡症(EDS)的Phase 2b的验证性试验。

近期获得软银领投的twoXAR,用人工智能技术平台进行老药新用,发现了艾塞那肽(Exenatide)和奥洛他定(Olopatadine)在类风湿性关节炎(RA)的动物模型上有较好的效果。

明码生物的人工智能团队与耶鲁大学合作,发现了纤维细胞生长因子(FGF)通过糖酵解参与到血管发育的过程。

不过仔细想想,拿得出手的进展大多是临床前的数据,研究结果未发表或者发表在非同行评议的网站,而根据老药新用的预测结果申请做一个Phase 2b的概念性验证试验并不是什么稀罕的事儿。通过实验筛选,甚至临床偶然观察发现的老药新用的事例数不胜数。至于FGF与血管发育的那篇文章,并没有提到多少人工智能的内容,更像是传统的转录组学(RNA-seq)分析加GO富集分析(当然也可能是限于文章篇幅而没有披露人工智能的细节)。

但生物系统本身就很复杂,人工智能之前的传统方法也同样磕磕碰碰,毫无疑问人工智能可以帮助生物学家产生新的假说,但是否会是更好的假说仍面临极大的挑战。

首先,近期的Nature Reviews Drug Discovery统计了FDA批准的1578个药物总共的靶点数目是667个,而Ensembl标注的潜在药物靶点就有4479个,当然还有些其他的关于靶点数目的预估,数值有差异,但都远大于目前已经成药的靶点,更何况每期的CNS文章里常有些看起来很有前景的新靶点,这些潜在的新靶点都是有或多或少obvious-data支持,而不仅仅是人工智能费力找出来的hidden-data。

我们究竟能有多大信心去花费足够资源验证这些由Natural Intelligence寻找的有obvious-data支持的新靶点?我们又能有多大信心去花费足够资源验证那些由人工智能寻找的有hidden-data支持的新靶点?

其次,大数据训练出来的人工智能的好处在于有问必有答,坏处也在于有问必有答。通过学习海量的文献数据,人工智能肯定能找出非常多的相关性, 无论强弱,但是信噪比如何?生物系统复杂异常,有着无数的独立变量,深度学习的神经网络层数是否足够处理?更重要的是,海量的文献必然质量参差不齐,存在着相当多的错误信息和结论、不可重复的实验数据和结论、部分公开的实验数据和结论,似是而非的实验数据和结论,有意无意误导性的实验数据和结论,盲目追热点导致给相关性加分的实验数据和结论,笔者相信上述的这些情况,行业中人必然是深有体会。

基于这样的数据集,人工智能该如何学习呢?一个优秀的研究人员也需要多年的培训才有可能学会区分文献中的可靠或不可靠信息,这其中隐含了大量的逻辑推理和常识,甚至偶尔还涉及到对文章作者学术名誉的估量,这些并不是人工智能所擅长的领域。

更进一步,我们都知道,相关性,即使是强相关性,也不是因果性。譬如全基因组关联分析(GWAS)常告诉我们某些基因与某些疾病相关性很强,可这些基因离成为药物靶点还离着十万八千里,需要科学家一步步的去探索和验证该基因与疾病的关系,弄明白具体的机制机理才有可能进入新药研发人员的眼眸,这一晃也许十多年就过去了。一个新药研发项目的启动意味着大量资金和人力的投入,因此能真正进入到新药研发管线中的药物靶标都是精挑细选和严苛验证的。所谓AI弱水三千,NI只取一瓢。

不过虽然生物体系异常复杂,但如果还原到更简单的水平,譬如细胞水平,结合人工智能强大的图像学习能力,有望取得突破。来自Janssen等公司和学校的研究人员,利用传统的高通量筛选针对糖皮质激素受体的细胞模型,筛选了50万个化合物,获得化合物的细胞表型图像数据,生成基于图像的分子指纹, 同时结合这些化合物之前在500多种不同靶点的筛选模型中测定的生物学活性作为训练集,采用深度学习的方法训练出一个人工智能模型,然后可以根据化合物在糖皮质激素受体的细胞表型图像数据,来预测化合物对其他不相关靶点的生物学活性数据。

这意味着单个高通量细胞表型图像筛选模型可以取代许多耗时耗力构建的特定靶点和通路的筛选模型, 显著降低人力和时间成本。于此同时Cell Image Library提供了上万的化合物处理细胞后不同的图像和形态学数据以供人工智能学习,以寻找新的药物作用新机制。笔者推测这方面的研究是否会催生一门新兴学科-图像基因组学(Imagenome),结合其他组学研究的数据,综合用来研究细胞水平的表型变化的分子机制。

总体而言,基于大数据的人工智能,擅长的是对已有知识的挖掘、重新组织和分配,所以人工智能可以学习已有的影像诊断规则,甚至能够看得更细更快,也可以在海量的数据中寻找已有知识的关联性。但每一次新药研发的成功,都是人类突破已有的知识框架,对疾病认知的新突破。

新知识的产生,来源于人类的无数次试错和实践,而不是一条条画在已有知识间的连线。能否更好的理解疾病,相信看到这里的读者,已经有了自己的判断。那能否成规模的产生药物候选物?究竟是“Garbage quick in, Garbage quick out”,还是另有洞天?(李伟)

<上一页  1  2  3  
声明: 本文系OFweek根据授权转载自其它媒体或授权刊载,目的在于信息传递,并不代表本站赞同其观点和对其真实性负责,如有新闻稿件和图片作品的内容、版权以及其它问题的,请联系我们。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

    人工智能 猎头职位 更多
    扫码关注公众号
    OFweek人工智能网
    获取更多精彩内容
    文章纠错
    x
    *文字标题:
    *纠错内容:
    联系邮箱:
    *验 证 码:

    粤公网安备 44030502002758号