据《金融时报》报道,谷歌旗下集团的一个突破性进展将推动药物开发和对疾病的理解。
人工智能通过预测人体内表达的每种蛋白质的形状,解决了生物学中最大的难题之一。该研究由伦敦人工智能公司DeepMind进行,该公司使用其AlphaFold算法构建了迄今为止最完整、最准确的人类蛋白质组数据库,该数据库支持人类健康和疾病。
上周,DeepMind在《自然》杂志上发表了其模型AlphaFold2的方法和代码,表明它能够以几乎完美的精度预测已知蛋白质的结构。
紧随其后的第二篇《自然》杂志论文于周四(当地时间7月22日)发表,表明该模型可以自信地预测人体中近60%的氨基酸的结构位置,这些氨基酸是蛋白质的组成部分,在人体以及其他许多生物体(如果蝇、小鼠和大肠杆菌)中也有。此前已知的氨基酸结构位置仅约30%。了解氨基酸的位置可以让研究人员预测蛋白质的三维结构。
这套35万个蛋白质结构预测现在可以通过欧洲生物信息研究所(EMBL-EBI)托管的一个公共数据库获得。欧洲生物信息研究所实验室总干事伊迪丝·赫德说:“准确地预测它们的结构具有广泛的科学应用范围,从开发新的药物和疾病治疗方法,到设计能够抵御气候变化的未来作物,或能够降解塑料的酶。应用范围只受到我们想象力的限制。”
蛋白质结构很重要,因为它们决定了蛋白质如何发挥作用。了解蛋白质的形状,比如Y形抗体,可以让科学家更多地了解该蛋白质的作用。畸形蛋白质会导致阿尔茨海默氏症、帕金森氏症和囊性纤维化等疾病。能够轻松预测蛋白质的形状可以让科学家们控制和修改它,因此他们可以通过改变其DNA序列或可以附着在其靶向上的药物来改善其功能。从DNA序列准确预测蛋白质的结构一直是生物学最大的挑战之一。
当前确定单个蛋白质形状的实验方法需要在实验室中花费数月或数年时间,这就是为什么在生物中超过2亿种已知蛋白质中,仅解决了大约18万种蛋白质结构的原因。 DeepMind的首席执行官杰米斯·哈萨比斯表示:“我们相信,这将代表人工智能迄今为止为推进科学知识水平所做的最重大的贡献。我们的目标是在未来几个月内将数据库扩展到超过2亿种蛋白质的整个蛋白质世界。”
未参与DeepMind 研究的科学家使用“刺痛”和“变革性”等短语来描述这一进展的影响,他们将这套数据比作人类基因组。
朴茨茅斯大学酶创新中心主任、结构生物学家约翰·麦基恩过去几个月里一直在测试AlphaFold算法,他说:“这是那种我的头发在脖子后面竖起来的时刻,我们能够直接使用这些信息来开发更快的分解塑料的酶。这些实验应该立即进行,该项目的加速需要数年时间。”
AlphaFold并非没有局限性。华盛顿大学蛋白质设计研究所的研究员Minkyung Baek说,蛋白质是动态分子,根据它们与什么结合而不断改变形状,但DeepMind的算法只能预测蛋白质的静态结构。
她说:“然而,它对科学家最大的贡献是它是开源的,去年他们展示了这都是可能的,但没有提供任何代码,所以人们知道它在那里,但无法使用它。” 在DeepMind宣布这一消息后的七个月内,Baek和她的同事利用DeepMind的想法构建了自己的开源版本的算法,他们称之为RosettaFold,并于上周发表在《科学》杂志上。
她说:“我真的很高兴他们把这一切都公开了,这对生物研究和商业制药都是一个巨大的贡献。现在更多的人可以从他们的方法中受益,而且它更快地推动了这个领域的发展。”