机房360首页
当前位置:首页 » 业界动态 » 人工智能可以为抗击新冠疫情做些什么?

人工智能可以为抗击新冠疫情做些什么?

来源:腾讯网 作者: 更新时间:2021/8/27 15:09:19

摘要:人工智能和机器学习在抗击致命的新冠肺炎大流行中的应用概况。作者通过Dimensions数据库按照PRISMA声明进行系统的文献搜索和分析,关键词包括COVID19、SARS-CoV-2、药物再利用、人工智能、机器学习、深度学习和“神经网络”,研究时间限定为2020年1月1日至2021年3月31日

  有人说,新冠肺炎在很多方面都是一个代际挑战。但同时,它也成为人类团结、创新和发展的“催化剂”。比如,实现人工智能(AI)和机器学习(ML)在药物发现方面的潜力,利用算法寻找能够抑制SARS-CoV-2的抗病毒药物。

  今天给大家分享的是Current Research in Pharmacology and Drug Discovery杂志7月26日发表的文章《Artificial intelligence-driven drug repurposing and structural biology for SARS-CoV-2》。该文介绍了人工智能和机器学习在抗击致命的新冠肺炎大流行中的应用概况。作者通过Dimensions数据库按照PRISMA声明进行系统的文献搜索和分析,关键词包括COVID19、SARS-CoV-2、药物再利用、人工智能、机器学习、深度学习和“神经网络”,研究时间限定为2020年1月1日至2021年3月31日。最终有26项研究符合最终标准并纳入研究。


  引言

  新型冠状病毒病(新冠肺炎)已成为影响人们生活、造成大量死亡的前所未有的公共卫生危机。截至2021年6月,全球报告的确诊病例超过1.78亿例,报告的死亡人数超过388万人。感染和死亡人数仍在增加。随着新冠肺炎大流行的持续蔓延,世界各地的科学家和医疗保健提供者正在努力以更好地理解、缓解和抑制其传播。SARS-CoV-2是一种正向单链RNA病毒,由约30kb的基因组组成,除16个非结构蛋白(NSP)外,还编码4种主要结构蛋白,包括刺突蛋白(S)、小膜蛋白(E)、膜蛋白(M)和核衣壳蛋白(N)。

  人工智能(AI)方法被广泛用于公共卫生、疾病预测和药物开发。机器学习(ML)是人工智能的一个子集,通过模型学习和研究数据并做出推断。随着深度学习(DL)的出现,与其他计算机辅助模型相比,从原始数据中自动提取特征导致了性能的提高。不同的DL算法被用于抗击新冠肺炎,包括人工神经网络(ANN)、卷积神经网络(CNN)和长短期记忆(LSTM)。

  如图1所示,人工智能最近在新冠肺炎中的应用包括药物再利用以及新化合物的虚拟筛选,基于ML的分子对接已被广泛使用,此外,DL的应用为新药设计提供了新的思路,如生成性自动编码器(GAE)和生成性对抗网络(GAN)来生成基于数据的分子,或使用诸如变分自动编码器(VAE)等生成模型来生成原子序列。DL的自动特征提取能力能够以更好的精度和更可靠的结果支持模型,模型展示的生成能力可以在很大程度上被利用来创造小分子药物和更好的表位预测,将试验中失败的概率降至最低。

  图1 新冠肺炎中基于AI和ML的药物发现和药物再利用平台


  人工智能在抗击新冠肺炎中的应用

  2.1 基于AI/ML的新冠肺炎药物再利用和药物发现方法

  基于人工智能的药物发现和药物再利用被认为是加速药物发现进程的有效方法。总的来说,人工智能对药物发现的早期阶段非常有用,主要有两种方式:一种是筛选不同数据库中的数百万种化合物来寻找潜在的药物,另一种是识别可以结合靶点的新药;而药物再利用成为抗击新冠肺炎的有力解决方案。

  在中国发布第一份新冠肺炎报告后的一个月内,各国研究小组就开始以不同的方式使用人工智能来寻找治疗SARS-CoV-2的可能方法。来自人工智能药物发现公司BenevolentAI和伦敦帝国理工学院的科学家[2]利用他们内部开发的算法来挖掘数据,找到了接头相关蛋白激酶1(AAK1)作为新冠病毒的可能靶点。该项目随后报告巴瑞克替尼(Baricitinib)是已知的378种AAK1抑制剂中最好的,它原本是一种被批准的治疗类风湿性关节炎的药物。Beck等人[3]利用基于深度学习的分子转换器-药物靶向相互作用模型(MT-DTI)来识别FDA批准的针对SARS-CoV-2蛋白的抗病毒药物。该模型利用一维的SMILES字符串和氨基酸序列作为输入,因此可以很容易地应用于没有任何三维结构的靶蛋白。其中,冠状病毒的主要蛋白酶(Mpro,又称为3CLpro)是一个重要的潜在药物靶标,对抑制病毒的复制至关重要,后续有多项研究都是围绕这个靶点展开的。比如GAO等人[4]利用基于结构的药物再利用(SBDR)ML模型评价药物与SARS-CoV-2 3CLpro的结合亲和力,对314个SARS-CoV-2/SARS-CoV-3CL抑制剂进行了基于二维指纹的DL梯度增强决策树(GBDT)模型的训练,对来自DrugBank的8565种药物(包括1553种FDA批准的药物)进行了评估打分,最终FDA批准的前20种药物和研究中的前20种非上市药物被选为SARS-CoV-2 3CL蛋白酶的有效抑制剂。

  药物再利用方面,另一个研究小组在新冠肺炎中使用了一种基于知识图谱(KG)的深度学习方法来进行药物再利用,称为CoV-KGE[5]。作者利用亚马逊超级计算资源AWS-AI开发的DL方法RotatE,从2400万份PubMed出版物和DrugBank构建了一个KG。这一全面的KG包括跨越39种关系的1500万条边,这些关系连接着药物、疾病、基因/蛋白质、途径和表达模式。随后,利用RotatE选择出用于药物再利用的高置信度候选药物。然后,作者通过对药物基因特征和SARS-CoV-2诱导的转录组和蛋白质组学数据以及正在进行的临床数据的富集分析,确定了41种候选药物。Artigas等人[6]利用系统生物学和基于人工智能的方法研发了治疗表现绘图系统(TPMS),TPMS随后被用于评估DrugBank中现有的6605种药物和通过冠状病毒-人类相互作用的文献搜索检索到的122种人类蛋白的效果。总共确定了12种获批药物,其中4种目前正在进行新冠肺炎临床试验。此外,他们还利用TPMS技术中的人工神经网络(ANN)对药物组合进行了识别,并提出吡非尼酮和褪黑素的联合用药可能是对抗新冠肺炎的良好候选药物,并通过使用TPMS抽样模型在分子水平上确定了它们的联合作用机制。最近,Mahapatra等人[7]报道了基于朴素贝叶斯算法的ML模型,该模型对新冠肺炎药品的预测准确率超过70%。这一方法提出了10种FDA批准的药物,可以重新用于针对新冠肺炎的治疗。

  许多药物发现公司都在利用人工智能来加快药物开发和药物再利用,对抗SARS-CoV-2,以应对新冠肺炎大流行。总体而言,人工智能平台成功与否取决于被用来“训练”算法的数据,SARS-CoV-2有限的数据可能是一个挑战。表1中列出了一些使用这些智能方法来寻找针对新冠肺炎的新药的人工智能公司。这些人工智能药物发现公司或基于人工智能的初创公司正在努力加快合理的药物再利用或发现针对新型冠状病毒的新药。

 

  2.2 AI/ML在疫苗研发中的应用

  在过去的二十年里,机器学习还通过创建“反向疫苗学(RV)”的虚拟策略,改进了疫苗设计领域。VaxiJen和Vaxign-ML是基于ML的RV方法的一些例子。各种ML方法,如RF、SVM、RFE和Deep CNN(DCNN)已经被用于从给定的蛋白质序列中识别抗原。

  自从新冠肺炎大流行爆发以来,人们使用了不同的基于ML的方法来预测潜在的表位,以设计疫苗。Ong等人使用Vaxign和基于Vaxign-ML的RV优先选择NSPs作为SARS-CoV-2的候选疫苗,他们确定NSP3是继Spike蛋白之后最有希望用于疫苗开发的潜在靶点[8]。Rahman等人[9]应用免疫信息学方法生产了S、E和M蛋白的SARS-CoV-2抗肽疫苗,他们使用基于ML的Ellipro抗体表位预测方法来预测S蛋白中的B特异性表位。Prachar等人[10]应用19种联合表位-HLA工具,包括免疫表位数据库(IEDB)、人工神经网络(PyTorch)和位置特定权重矩阵(PSSM)算法,识别和验证了SARS-CoV-2与11个HLA等位基因强结合的174个表位。

  我们有理由相信,基于人工智能的模型可以加快和改进疫苗配方的设计和开发,从而增强免疫应答,改善预防性疫苗的保护。

  2.3 ML在SARS-CoV-2蛋白结构测定中的应用

  SARS-CoV-2和其他冠状病毒一样,有4个保守的结构蛋白和16个非结构蛋白,如蛋白酶(NSP3和NSP5)和RdRp(NSP12)。计算模型已被用于预测蛋白质结构。预测未知蛋白质结构主要有两种基于建模的方法:第一种是基于模板的建模,它使用相似的蛋白质作为模板来预测结构;第二种是无模板建模,其中没有已知的相关结构。许多SARS-CoV-2蛋白与已知结构的相关生物中的蛋白具有密切的同源性。然而,对于一些蛋白质,由于缺乏实验确定的模板结构,基于模板的建模是不可能的。最近,通过新的ML方法,在没有模板结构的情况下预测蛋白质的结构已经有了很大的进步。

  英国DeepMind公司开发了一种名为AlphaFold的系统,可以预测与新冠肺炎相关的各种蛋白质结构。AlphaFold最近赢得了CASP13竞赛(蛋白质结构预测技术的关键评估)的Ab initio类别,它基于深度神经网络ResNet架构。它通常是一个没有偏见的模型预测者,在进行预测时会忽略相似的结构,这对新冠肺炎确实很有帮助,因为几乎没有相似的蛋白质结构可用。DeepMind的研究人员交叉验证了他们的AlphaFold生成的SARS-CoV-2刺突蛋白结构与弗朗西斯·克里克研究所(Francis Crick Institute)实验确定的刺突结构。在积极结果的推动下,DeepMind应用AlphaFold预测了SARS-CoV-2蛋白的其他结构,包括膜蛋白、蛋白3a、NSP2、NSP4、NSP6和木瓜蛋白酶样蛋白酶[11]。这些蛋白质结构可能包含可药物的位点,因此将有助于药物开发努力遏制新冠肺炎。

  为了更深入地了解不同人类冠状病毒S蛋白的分子结构,Chen等人[12]对SARS-CoV-2、SARS-CoV-1、中东呼吸综合征冠状病毒(MERS-CoV)和人类冠状病毒HKU1的S蛋白进行了和深度学习相结合的MD模拟。他们使用基于卷积变分自动编码器的无监督深度学习架构来系统地比较来自MD模拟的S蛋白集合。作者展示了S蛋白亚基之间的巨大灵活性,并揭示了S蛋白寡聚的重要区域,这些区域可以被认为是治疗干预的潜在靶点。

  2.4 将冠状病毒蛋白结构转化为音乐

  基于对不同尺度上原子和分子的结构和运动的纳米机械分析,麻省理工学院的科学家们使用基于ML的深度神经网络模型创作了音乐来代表SARS-CoV-2刺突蛋白的结构[13]。在这项研究中,他们使用了一种被称为“物质音乐(materiomusic)”的独特发声方法,其中氨基酸的一级序列定义音符,二级结构定义节奏和音高(图2)。此外,分子的整体振动运动由各向异性网络模型方法定义,并合并到音频信号中,然后将信号导入MAX设备,并使用Ableton Live生成声音,来自蛋白质结构和振动的信号叠加在一起播放,生成蛋白质结构的多维图像。在十二音等音调调谐中进一步发音SARS-CoV-2S蛋白,在原始音乐编码中产生了总共3647,770个音符(图3)。这项工作总体上产生了一段近2小时的古典音乐,并被上传到音乐分享网站SoundCloud,供公众聆听[14]。

  图2

  图3

  作者还报道了五种不同蛋白质结构的ML使能纳米机械振动光谱,这提供了对基因突变和SARS-CoV-2S蛋白与人类ACE2细胞受体的结合如何直接影响音频的理解。作者进一步认为,蛋白质的音乐表现也可以作为一种工具,用于设计有效的药物疗法,开发新抗体,识别冠状病毒结构中的可用药部位,检测突变,以及通过操纵声音进行材料设计。

  4 总结与展望

  人工智能和ML正被应用于许多与新冠肺炎相关的领域。然而,在大多数研究中,基于AI/ML的药物再利用或药物发现,无论是实验方法还是后续的临床研究都没有得到证实。这说明了针对新冠肺炎的药物再利用研究的可重复性和强有力证据的不确定性。然而,在药物开发研究中利用的AI/ML技术已经有了很大的改进,不久就可以成为政策制定者、医疗保健提供者和整个社会的决策支持系统。在临床前研究和临床试验中,建立有效和可靠的体外和体内模型可以降低再利用药物的失败率。然而,在开发这些技术方面仍然存在挑战,如数据和模型协调、数据异构性和质量、数据共享和安全性以及模型的可解释性。

  这是实现科学家远见卓识的机会,以每一个新冠肺炎患者都会欣赏的速度和价格,提供基于人工智能的高效、灵活的药物发现过程。

  责任编辑:张华

机房360微信公众号订阅
扫一扫,订阅更多数据中心资讯

本文地址:http://www.jifang360.com/news/2021827/n5413139741.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
推荐图片