早在2020年11月,DeepMind的AlphaFold就成功地预测出蛋白质的三维结构,迈出了解决生物领域重大基础问题的第一步。如今,距离这一成就仅仅过去不到两年,华盛顿大学David Baker教授团队在《细胞》杂志上发表论文,利用AI精准地从头设计出了能够穿过细胞膜的大环多肽分子,开辟了设计全新口服药物的新途径。
AlphaFold预测的蛋白质结构(蓝色)与实际结构(绿色)对比(图片来源:AlphaFold)
目前,不但几乎所有蛋白质的结构都可以通过AI智能平台来进行预测,根据所需结构让AI推算分子序列的逆向过程也获得了实质性进展。不知不觉间,传统的药物开发方式将可能因此而被颠覆,利用AI直接计算出药物分子结构将不是遥远的梦想。
在这篇文章中,我们来看看AI制药是如何实现的!
绝大多数疾病的病因都与蛋白质的功能异常密切相关。例如肿瘤发生的原因,往往可以归结到蛋白质的异常合成。具体来说,体内负责调控蛋白质合成的机制失效(往往由基因突变造成),导致蛋白质合成发生“暴走”,产生出一系列无用乃至有害的蛋白质,最终形成肿瘤。
而阿尔茨海默症、帕金森综合征、亨廷顿综合征等神经系统病变则与蛋白质的结构异常有关。这些疾病会导致人体内合成的某些蛋白质出现错误的折叠,令它们失去本该拥有的功能。此外,很多过敏原都是蛋白质,比如螨虫和花生等等。
蛋白质的四级结构(左)及蛋白质数据库中多样化的蛋白质(右),(图片来源:维基百科)
既然如此多的疾病都因蛋白质而起,那么只要我们能够阻止蛋白质发生变性或者异常合成,不就可以解决问题了吗?这个思路当然没错,但是蛋白质异常往往来自基因突变等更加深层的原因,从根源解决问题并不简单。不过,假如可以利用药物持续地中和出现问题的蛋白质,就可以通过坚持服药的方法,让很多目前的不治之症变成像高血压或者糖尿病一样可控的慢性疾病。
事实上,这样的思路已经诞生了若干成功案例。例如,丙肝是一种由病毒引起的传染性肝炎,根据世界卫生组织的说法,2019年,全球共有29万人死于丙肝,其中大部分是肝癌和肝硬化所导致。
但近年来,最新开发的抗病毒药物可使接近100%的丙肝感染者得到治愈,从而降低肝癌和肝硬化的死亡危险。这类药物直接作用于丙肝病毒的三个靶点,这三个靶点本质上均为蛋白质,它们是病毒生存不可或缺的关键。丙肝药物进入病毒体内后,和相应的靶点蛋白质结合,让它们失去原本具有的功能,从而达到杀灭并彻底从体内肃清丙肝病毒的效果。
看完了上面的案例,相信大家对于作用于蛋白质的药物开发已经有了一定的感性认识。原则上来说,只要能够找到一些物质去修正致病因子中蛋白质的功能,就有希望缓解乃至彻底治愈相应疾病。不过,问题在于这类物质需要至少满足有效性和精准性两个基本要求。有效性是指其和相应蛋白质的结合应该是高效的,否则即便摄入量非常大,也可能起不到治疗效果。而精准性则是指这类物质应该能够与相应蛋白质实现“特异的”结合,如果它们和无关蛋白质同样发生反应,则反而可能导致严重副作用的发生。
想要确保高效而精准的结合,首先要弄清蛋白质的结构。这就好比只有了解了锁的构造,才能制造出相应的钥匙,进而实现开锁过程的高效性和精确性。之前,我们已经在蛋白质结构解析方面取得了突破性进展,可以在较短时间内有效地破解各种“锁”的结构。目前,我们也把一部分关注的重点转移到了高效地制造“钥匙”,这便是文章开头提到的新药开发模式的转变。
以上突破的背后,正是AI带来的技术变革。我们来看看AI到底如何快速确定蛋白质或者潜在的药物结构。
蛋白质结构的多样化以及他们对人类生产乃至生存的重要性,都让人们对揭开各种蛋白质的结构充满迫切希望。我们恨不得马上就了解所有蛋白质的结构和功能,根本等不及研究人员花上几个月甚至几年时间才能得到的结果。在这样的背景下,利用计算机乃至AI来预测蛋白质结构的策略就应运而生了。
早期的蛋白质结构计算软件并非是按照人工智能的算法和思路去进行构建的,预测的结果正确率很低,远远达不到实用化的程度。当人工智能介入这个领域后,形势很快就有了转机。
所谓的人工智能,本质上是一种算法。以时下最流行的机器学习(可以认为是人工智能的一种实现手段)来说,它大致的思路和原理就是先把一系列已有的数据(比如围棋棋谱)输入计算机,然后通过专门的算法模型(比如神经网络)让计算机对这些数据进行分析整合。之后计算机就会像人类进行学习一样,从这些数据中寻找规律,利用自己的算力进行海量的试错(比如围棋AI),从中选择出最优的结果。当这个学习训练的过程完成,整个AI就会发生进化,从而具备解决全新问题的能力。
利用AI解决蛋白质折叠问题的本质其实可以理解为让AI在仅仅知道氨基酸序列的前提下预测蛋白质结构。这里有一个至关重要的问题,就是蛋白质折叠的可解性,即蛋白质的具体折叠方式到底能不能由氨基酸序列来确定。假如同样的序列能够随机折叠出无数种可能的蛋白质,那么这个问题别说是AI,谁来都解决不了。
幸好蛋白质折叠在原理上属于可解的问题,就算蛋白质本身的结构再复杂,肽链的折叠再多变,其实这种结构在氨基酸序列确定后就已经固定下来了,并非存在无限可能。目前DNA测序技术已经发展到非常成熟的地步了,我们可以相对容易地解读控制合成某个蛋白质的DNA片段,继而可以在不清楚蛋白质具体结构的前提下获得组成它的氨基酸序列。接下来就可以利用AI来分析蛋白质的空间结构,从而在很短时间内掌握蛋白质的各种结构特征。
如果计算出的蛋白质结构可能具有某些我们感兴趣的特征,则可以用传统方法,即X射线衍射、核磁共振以及冷冻电镜等,对该蛋白质进行实地研究,从而确认AI的解析结果是否正确。而这种实地确认的结果又可以反馈给AI开发厂商,他们可以据此修改模型,提高预测精度。
各种确定蛋白质结构的技术中,X射线衍射法占绝对比例(注意纵坐标是对数)(图片来源:维基百科)
利用AI进行药物开发延续的思路和解析蛋白质并没有太大差异。当我们确定了希望药物化合物结合的蛋白质(靶点)后,就可以以其结构和现有的已知化合物作为参数,让AI去设计全新的化合物。我们结合文章开头提到的最新研究,看看这一过程是如何进行的。
大环多肽类化合物,是一种潜在的大分子药物结构。与小分子药物相比,它们具有更大的表面积与靶点蛋白结合,从而能够与很多小分子不能影响的蛋白相互作用。而与抗体(本质也是蛋白质)相比,它们的分子量更小,有望穿过细胞膜来直接靶向细胞内的靶点。同时,它们还具有口服吸收,并穿越血脑屏障的潜力。
下图是两种抗癌药物赫赛汀(左,大分子单克隆抗体)和舒尼替尼(中,小分子)的结构示意图,注意分子大小的差异,大环多肽类化合物的尺寸介于上两者之间(下图右)。
抗体药物(左)、小分子药物(中)与大环多肽化合物(右)示例,(图片来源:维基百科、参考文献1)
不过,找到能够穿越细胞膜的大环多肽并不是一件容易的事。此前发现功能性大环多肽的主要方式是通过建立包含上百万分子的化合物库,然后用药物实验的方式进行层层筛选。这也是传统药物开发过程耗时低效的一个缩影,虽然我们并非是毫无目的地胡乱尝试,但成千上万的候选物质中,最终可能只有数十种乃至几种真正有效的潜在药用化合物。
AI能力的突飞猛进,让我们可以转变思路,假如已经知道满足我们要求的大环多肽可能具有的特征,我们是否可以让AI直接依据这些特征去进行设计呢?答案是肯定的。在这项研究中,科学家们利用AI设计出184种大环多肽,它们由6-12个氨基酸组成。而且在设计阶段,AI平台就已经预测出了它们最后的折叠形状。
利用人工智能进行大环多肽类化合物设计的示意图(图片来源:参考文献1)
研究人员通过实验进一步检测了其中35个分子的结构,发现其中29个分子的实测结构与AI平台的预测相差无几。利用这种设计策略,研究人员能够精准地设计出让大环多肽穿过细胞膜的结构特征。在184个设计中,84种设计在实验检验中可以穿过细胞膜。这证明了AI有望依据人类的意图设计出符合预期功能的大环多肽类化合物,药物开发的进程也将随之获得极大加速。
主导本次研究的Baker教授在访谈中表示:“我相信最近这一领域达到了一个转折点,计算生物学将在药物发现过程中占据越来越中心的位置!”人工智能在药物设计方面的突破,意义无疑是划时代的,或许在将来的某一天,AI的进步会给我们带来更多的新产业革命!
出品:科普中国
作者:陆修远(生物医学博士)
监制:中国科普博览
参考文献:
1. Accurate de novo design of membrane-traversing macrocycles
https://www.sciencedirect.com/science/article/pii/S0092867422009229
2. 变革新药发现模式!人工智能从头设计出全新药物类型
https://www.linkresearcher.com/theses/d7bb56fb-2ad4-4593-b0ca-1e8046dce312
3. 我听见赞誉来自人海,我排着队拿着诺奖的号码牌
https://www.kepuchina.cn/more/202009/t20200929_2731193.shtml
4. 吉利德第四代丙肝药物上市 补齐丙肝治愈最后的5%缺口
http://m.eeo.com.cn/2020/0702/388530.shtml
5. 除了下围棋,AI还能预测“难缠”的蛋白质结构,它是怎么做到的?
https://news.bjd.com.cn/tech/2021/01/06/40716t133.html
中国科普博览是中科院科普云平台,由中科院计算机网络信息中心主办,依托中科院高端科学资源,致力于传播前沿科学知识,提供趣味科教服务