当前位置:首页 期刊杂志

阿尔法折叠:用人工智能理解生命

时间:2024-04-23

张田勘

7月15日,《自然》和《科学》两本国际顶尖学术杂志同时刊发研究结果证明:人工智能软件对蛋白质结构进行测序既快又精确。其中,英国“深度思维”公司研发的阿尔法折叠(Alpha Fold)在2020年就有惊人成就,现在又升级到阿尔法折叠2,按理说应当足以让人类为之欢呼鼓舞,然而,遗憾的是,绝大多数人并不知道阿尔法折叠为何物。

简单地说,把阿尔法折叠看成阿尔法狗(Alpha Go)的升级版,及其在生命科学中的应用,或者称其为阿尔法狗的“后浪”,也许让人更容易理解。阿尔法狗暴得大名是因为2016年战胜了韩国顶尖职业围棋手李世石,以及在2017年战胜了世界第一围棋手中国的柯洁。但是,阿尔法折叠的成就可能要假以时日才能为世人所知。

测定蛋白质结构为何重要

阿尔法折叠也是一个人工智能(AI)软件,其最大的作用是,既快又准确地测定蛋白质的形状,尤其是3D形状。

生命的本质是蛋白质,蛋白质又是由氨基酸按一定顺序结合而成的多肽链组成,而且,它们的结构从一维(氨基酸序列)、二维(距离),再到三维(坐标),以无数方式,折叠成各种精致的形状,才能完成各种功能和发挥重要作用。

大量的疾病与蛋白质的折叠形状有千丝万屡的联系。例如,新冠病毒的棘突蛋白(S蛋白)的折叠形式,决定了它入侵人体细胞的速度和致病能力。类似地,普里昂蛋白的折叠形式,也决定了对包括人在内的哺乳动物的传染性海绵状脑病的致病力和致命性。

从理论上看,一个蛋白质从一维到三维,有无数的折叠方式。早在1969年,美國分子生物学家利文索尔就指出,由于蛋白质在未折叠的多肽链中有极大的自由度,任何蛋白分子都具有天文数量的可能构象,其数量是3的300次方到10的143次方个构型。再加上变异,一些蛋白的构型就更多,如新冠病毒S蛋白的变异。

认识和精确测定蛋白质的构型,既要耗费大量的时间和精力,同时也不一定能测得准,这也造成了药物、疫苗的研发和疾病治疗总要付出艰苦的努力。例如,现在新冠肺炎尽管有了疫苗,但病毒蛋白质变异频繁,如果不能准确认知蛋白的变异结构,就难以再研发新的疫苗,也很难获得有效的药物。迄今,还没有有效治疗新冠肺炎的药物,原因也在于对病毒蛋白结构认知不清。

既然如此,让AI来帮助人们认识和精确测定蛋白质的结构,就具有重大意义,而且非常实用。虽然人类已经测算出人和其他物种的数10亿计的蛋白质的氨基酸序列,但截至目前,仅有其中的约10万个蛋白质的结构已经用实验方法得到了解析。

在2020年的5月至7月举行的第14届“蛋白质结构预测关键评估”(CASP14)大赛上,阿尔法折叠2就大放异彩。该比赛要求参赛团队根据蛋白质的氨基酸序列解析其结构。比赛用的蛋白质会先用实验方法解析出来,具体结果不公开——这听起来有点儿像阿尔法狗与李世石或柯洁的比赛。

结果,阿尔法折叠2测定的大部分蛋白质的结构非常准确,不仅与实验方法测得的蛋白质结构的精确度相同,而且远超解析新蛋白质结构的其他方法。阿尔法折叠2测定的组成蛋白质主链骨架的叠加原子之间的距离中位数(95%的覆盖率)为0.96埃(0.096纳米),而成绩排第二的方法只能达到2.8埃的准确度。

这意味着,阿尔法折叠2战胜了所有其他的测定蛋白质结构的方式。而且,阿尔法折叠2的神经网络,能在几分钟内预测出一个典型蛋白质的结构,并能够在几天内生成高精度的结构。

从阿尔法折叠到玫瑰折叠

阿尔法折叠2准确测定蛋白质结构当然来源于训练和深度学习。训练数据来自大约17万个蛋白质结构,以及包含未知结构的蛋白质序列的大型数据库和神经网络模型结构。其中,模型对蛋白质序列以及氨基酸残基对进行操作,在两种表征之间迭代传递信息以生成结构。因此,阿尔法折叠2如同阿尔法狗一样,需要深度学习,才能准确测定蛋白质结构。

不过,阿尔法折叠2比阿尔法狗更有优势的是,这类AI软件已经形成了集团作战,有更多新技术品种。例如,美国华盛顿大学医学院研发的玫瑰折叠。正如本文开头所提到的,阿尔法折叠2近期首先在《自然》杂志发表其成果;同时,玫瑰折叠则在《科学》杂志上发表。

玫瑰折叠利用深度学习,仅凭有限的信息就能在普通游戏软件上快速而准确地预测蛋白质结构,在短时间内就能构建出复杂的生物组建模型。玫瑰折叠是一个“三轨”神经网络,能够兼顾蛋白质序列模式、氨基酸如何相互作用以及蛋白质三维结构的可能性。在这种模板中,蛋白质的信息在一维、二维和三维之间来回流动,从而推断蛋白质化学部分与折叠结构之间的关系。

比较起来,玫瑰折叠预测蛋白质3D结构与阿尔法折叠2的水平几乎相当,而且速度更快、所需计算机处理能力更低,因此可能更实用。华盛顿大学的研究团队已经用玫瑰折叠计算出了数百种新的蛋白质结构,其中包括许多鲜为人知的人类基因组蛋白,如与脂质代谢问题、炎症紊乱和癌细胞生长相关的蛋白质结构。

人体蛋白质有成千上万种,其他物种的蛋白质更是多达几十亿种,包括细菌和病毒的蛋白质。过去,人类只能用冷冻电镜(CryoEM)、磁共振(MR)和X射线晶体学等手段,来测定蛋白质结构,而且要经过大量试错,才能最终确定蛋白质的结构。有些蛋白质结构还测不出来,如在蛋白质数据库(PDB)中,有4种蛋白质无法用磁共振测定结构,包括牛属甘氨酸N-酰基转移酶、细菌氧化还原酶、细菌表面层蛋白(SLP)和来自真菌平革菌属金孢子菌属的分泌蛋白。

现在,有了阿尔法折叠2和玫瑰折叠,测定蛋白质结构就轻松多了。这也为揭开生命现象和本质,以及研发无数战胜疾病的药物、疫苗和疗法,提供了尖端武器。随着时间的推移,阿尔法折叠2和玫瑰折叠将比阿尔法狗对人类有更大的贡献,让我们有更强大的手段去了解生命的本质。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!