DeepMind创建了由人工智能绘制的人类蛋白质的变革性地图

导读 人工智能研究实验室 DeepMind 使用人工智能创建了迄今为止最全面的人类蛋白质图谱。该公司是谷歌母公司 Alphabet 的子公司,正在免费发

人工智能研究实验室 DeepMind 使用人工智能创建了迄今为止最全面的人类蛋白质图谱。该公司是谷歌母公司 Alphabet 的子公司,正在免费发布数据,一些科学家将这项工作的潜在影响与人类基因组计划的潜在影响进行了比较,人类基因组计划是一项绘制每个人类基因的国际努力。

蛋白质是长而复杂的分子,在体内执行许多任务,从构建组织到对抗疾病。它们的目的是由它们的结构决定的,它们像折纸一样折叠成复杂和不规则的形状。了解蛋白质如何折叠有助于解释其功能,这反过来又有助于科学家完成一系列任务——从对身体如何运作的基础研究,到设计新的药物和治疗方法。

“DEEPMIND 整个 10 年多生命周期的顶峰”

以前,确定蛋白质的结构依赖于昂贵且耗时的实验。但去年 DeepMind 表明它可以使用名为 AlphaFold 的人工智能软件对蛋白质的结构进行准确预测。现在,该公司正在向公众发布该程序做出的数十万个预测。

“我认为这是 DeepMind 整个 10 年多生命周期的顶峰,”公司首席执行官兼联合创始人 Demis Hassabis 告诉The Verge。“从一开始,我们就打算这样做:在人工智能方面取得突破,在围棋和雅达利等游戏上进行测试,[并]将其应用于现实世界的问题,看看我们是否可以加速科学突破并使用那些造福人类的。”

目前在公共领域有大约 180,000 种蛋白质结构可用,每一种都通过实验方法产生,并可通过蛋白质数据库访问。DeepMind 正在发布对 20 种不同生物体中约 350,000 种蛋白质结构的预测,包括小鼠和果蝇等动物以及大肠杆菌等细菌。(DeepMind 的数据与预先存在的蛋白质结构之间存在一些重叠,但由于模型的性质,究竟有多少难以量化。)最重要的是,该版本包括对 98% 的人类蛋白质的预测,大约有 20,000 种不同结构,统称为人类蛋白质组。它不是人类蛋白质的第一个公共数据集,但它是最全面和准确的。

AlphaFold 的技术主管 John Jumper 说,如果他们愿意,科学家们可以为自己下载整个人类蛋白质组。“有一个有效的 HumanProteome.zip,我认为它的大小约为 50 GB,”Jumper 告诉The Verge。“如果你愿意,你可以把它放在闪存驱动器上,但如果没有计算机进行分析,它对你没有多大好处!”

“任何人都可以用它做任何事”

在发布第一批数据后,DeepMind 计划继续增加蛋白质库,该库将由欧洲旗舰生命科学实验室欧洲分子生物学实验室 (EMBL) 维护。EMBL 总干事伊迪丝·赫德 (Edith Heard) 表示,到今年年底,DeepMind 希望发布对 1 亿种蛋白质结构的预测,该数据集将“改变我们对生命运作方式的理解”。

哈萨比斯说,这些数据对科学和商业研究人员来说都是永久免费的。“任何人都可以将它用于任何事情,”DeepMind 首席执行官在新闻发布会上指出。“他们只需要归功于参与引用的人。”

了解蛋白质的结构对各个领域的科学家都很有用。这些信息可以帮助设计新药,合成分解废物的新型酶,并创造对病毒或极端天气有抵抗力的作物。DeepMind 的蛋白质预测已经被用于医学研究,包括研究SARS-CoV-2(导致 的病毒)的工作原理。

新数据将加速这些努力,但科学家们指出,将这些信息转化为现实世界的结果仍需要大量时间。“我认为这不会在一年内改变患者的治疗方式,但它肯定会对科学界产生巨大影响,”科罗拉多大学生物化学系教授 Marcelo C. Sousa ,告诉The Verge。

DeepMind 高级研究科学家 Kathryn Tunyasuvunakool 表示,科学家们将不得不习惯于掌握这些信息。“作为一名生物学家,我可以确认,我们甚至没有观察 20,000 个结构的手册,所以这个 [数据量] 是非常出乎意料的,”Tunyasuvunakool 告诉The Verge。“要分析数十万个结构——这太疯狂了。”

但值得注意的是,DeepMind 的软件生成蛋白质结构的预测,而不是实验确定的模型,这意味着在某些情况下需要进一步的工作来验证结构。DeepMind 表示,它花了很多时间在其 AlphaFold 软件中构建准确度指标,该软件对每个预测的可信度进行排名。

不过,蛋白质结构的预测仍然非常有用。通过实验方法确定蛋白质的结构既昂贵又耗时,并且依赖于大量的反复试验。这意味着即使是低置信度的预测也可以为科学家指明正确的研究方向,从而节省他们多年的工作。

格拉斯哥大学结构生物学教授海伦瓦尔登告诉The Verge,DeepMind 的数据将“显着缓解”研究瓶颈,但“进行生物化学和生物学评估的费力、资源消耗工作,例如,药物功能”将保留。

Sousa 之前曾在他的工作中使用过 AlphaFold 的数据,他说科学家们会立即感受到这种影响。“在我们与 DeepMind 的合作中,我们有一个包含蛋白质样本的数据集,我们已经拥有了 10 年,但我们从未达到开发适合模型的地步,”他说。“DeepMind 同意为我们提供一个结构,在我们坐了 10 年后,他们能够在 15 分钟内解决问题。”

蛋白质由氨基酸链构成,人体中有 20 种不同的氨基酸。由于任何单独的蛋白质都可以由数百个单独的氨基酸组成,每个氨基酸都可以向不同的方向折叠和扭曲,这意味着分子的最终结构具有数量惊人的可能构型。一种估计是典型的蛋白质可以以 10^300 种方式折叠——即 1 后跟 300 个零。

由于蛋白质太小而无法用显微镜检查,科学家不得不使用昂贵且复杂的方法(如核磁共振和 X 射线晶体学)间接确定其结构。简单地通过阅读其组成氨基酸列表来确定蛋白质结构的想法长期以来一直在理论上但难以实现,因此许多人将其描述为生物学的“巨大挑战”。

然而,近年来,计算方法——尤其是那些使用人工智能的方法——表明这种分析是可能的。借助这些技术,人工智能系统可以在已知蛋白质结构的数据集上进行训练,并使用这些信息来创建自己的预测。

免责声明:本文由用户上传,如有侵权请联系删除!