巡山报告 | 人工智能进军生命科学

你好,这里是《邵恒头条》,我是邵恒。

上周,有一条人工智能的新闻在我朋友圈里刷屏了:谷歌旗下的Deepmind公司,开发的一个人工智能程序AlphaFold2,成功解决了一个生物学领域的难题,叫做“蛋白质折叠问题”。

我们大多数人可能对这个问题无感,甚至压根儿没听说过,但是生物学圈已经炸锅了,

在昨天刚发布的《巡山报告》里,王立铭老师就用了将近一万字来专门解读这条新闻。

看了他的解读我才知道,AlphaFold2这回解决的问题,堪称生命科学的三大难题之一。从难度上来说,它能跟生命的起源问题以及人类大脑的工作原理问题相比肩。王立铭老师认为AlphaFold2的这项成就,甚至有可能将会是这10年中最重要的生命科学突破。

今天的《邵恒头条》,我从这一期的《巡山报告》精选出了一段王立铭老师的解读,跟你分享。

————————————

你好,我是王立铭。2020年12月6日,第二十二期《巡山报告》又和你见面了。

说起来有点惭愧,刚过去的这个月,生命科学领域值得专门拿出来讲的重大新闻似乎不多,我本来以为这期巡山能偷个小懒。结果在11月的最后一天,居然从天而降了一个可能是本年度、甚至是这十年里最重要的生命科学突破。

简单来说,2020年11月30日,谷歌旗下的人工智能公司DeepMind开发的程序AlphaFold2,在2020年度的蛋白质结构预测大赛 CASP 14 中,取得了惊人的好成绩。不仅力压世界范围内参赛的100多个团队,获得冠军,还有史以来第一次把蛋白质结构预测这个功能做到了基本接近实用的水平。

说起DeepMind,你应该不陌生。你大概还记得曾经横扫棋坛、并且战胜人类排名第一的棋手柯洁的围棋程序——AlphaGo。AlphaGo也是这家叫DeepMind的公司开发的。

和AlphaGo名字类似的AlphaFold2又是何方神圣呢?我猜,这几天你从新闻上已经看到不少介绍了,不过我的感觉是,大部分介绍都没说到点子上,光顾着激动了。这期巡山,你不妨先把最近看到的那些信息都忘了,我们从头开始把这件事的来龙去脉和价值说清楚。

首先,我们看看AlphaFold2解决的到底是什么问题。

刚才说了,它的目标是蛋白质结构预测。在我看来,这可能是整个生命科学领域最重要的三个问题之一。其他两个,在我看来分别是生命的起源问题和人类大脑的工作原理问题。

“蛋白质结构预测”,听起来有点专业,外人不那么容易理解它的意义。如果说得大一点儿,这个问题关系到遗传信息的本质是什么、遗传信息如何流动,以及遗传信息如何影响地球生命的各种特性。

你大概听说过生物学里所谓的“中心法则”。在充满例外的生命科学领域,中心法则几乎是唯一一个被冠以“法则”之名的规律,重要性可想而知。

中心法则说的是,在地球生物世代繁衍的过程中,上一代生物会把自身携带的遗传物质,也就是DNA分子,照原样复制一份,传递到后代体内,一代代传递下去,永无止境。而在每一代生物从生到死的过程中,这套DNA分子能以自身为设计蓝图,指导生产大量的微型分子机器,也就是各种蛋白质分子,执行各种各样的生物学功能,共同支持每一代生物的生存和活动。

从上个世纪五六十年代至今,中心法则的很多技术细节都得到了深入研究。我大概数了一下,在半个多世纪中,至少有二三十个诺贝尔奖和中心法则相关。比如,DNA分子如何实现自我复制和自我修复,DNA如何指导RNA的生产,RNA如何被剪切和拼接,RNA如何指导蛋白质的组装,蛋白质分子如何被降解……有意思的是,搞清楚中心法则的技术细节能得奖,找到中心法则的反例也能得奖。这样的例子也挺不少。

但是,在中心法则的完整图景里,有一个最大的空白、一个最关键的遗留问题,就是蛋白质分子机器到底是怎么组装完成、开展工作的。

我们现在知道,DNA分子指导蛋白质分子生产的原则很简单,DNA链条上三个相邻的碱基分子对应蛋白质分子中一个特定的氨基酸分子。比如,ATG三个碱基对应的就是甲硫氨酸,GAG对应的就是谷氨酸……忽略掉所有技术细节,你可以这么想象:在细胞内部,一条300个碱基长度的DNA链条能指导生产一个蛋白质分子,也就是由100个氨基酸首尾相连组成的链条。

DNA分子作为遗传信息的载体,它的物理结构可以认为是无关紧要的,是拉成一条直线、团成一团毛线球,还是干脆抄写下来存在笔记本里,只要这300个碱基的名称和先后顺序不乱,它记载的信息就始终是完整的、不变的。但是,蛋白质分子则不然。这个由100个氨基酸组成的链条,一定要在细胞中折叠、扭曲、缠绕成某个特殊的三维结构,才能开始工作。

我类比一下你就明白了。比如你要生产小轿车,设计图纸是打印出来还是存在电脑里,是摊平放还是卷成卷,是红色墨水写还是蓝色墨水写,其实都无关紧要。但是在生产过程中,每一个零件,从发动机到雨刷器,都必须被严格的放置在特定的位置,按照特定的方式组装起来,小轿车才能正常工作。

真正的问题就变成了,蛋白质分子怎么知道如何形成某个特定的三维结构呢?我们还是说那个由100个氨基酸组成的链条,在形成三维结构的过程里,它怎么知道每个氨基酸应该出现在什么位置,需要和哪几个氨基酸靠近呢?

早在上个世纪,人们就做出了正确的猜测。简单来说,这些空间位置信息就蕴含在蛋白质分子自身当中。说得更具体一点,组成蛋白质的氨基酸分子一共有20种,它们有的带正电荷,有的带负电荷,有的大一点,有的小一点,有的喜欢结合水分子,有的讨厌水分子。因此,蛋白质一旦被生产出来,组成它的氨基酸就会根据上面这些不同属性,开始移动和相互组合。

这个猜测在1950年代被美国科学家Christian Anfinsen用实验手段证明。Anfinsen发现,即便用化学方法人为破坏蛋白质分子的三维结构,但只要洗掉这些干扰,蛋白质分子就能自己重新扭曲折叠成完全一样的三维结构。

因此,DNA分子的碱基顺序决定了蛋白质分子的氨基酸顺序,也决定了蛋白质分子的三维结构和生物学功能,这一点就成为了共识。

但是,这么说并没有解决全部的问题。理论上我们确实已经知道,蛋白质分子能自己决定扭曲折叠成什么样子,但是我们实际上并不知道蛋白质分子是如何做到这一点的。要知道,一个由100个氨基酸组成的蛋白质分子,这100个氨基酸在三维空间里的排列组合方式几乎是无穷无尽的,如果一种一种尝试的话,可能试到宇宙尽头也找不到正确的那一种。真实世界里的蛋白质怎么做到几乎是瞬间就能扭曲折叠到最合适的位置的呢?

说到这里,我想你应该能明白为什么我说蛋白质折叠是生物学最大的三个未知问题之一了。

如此重要的问题当然吸引了大量科学家的注意,在过去几十年时间里,也取得了一些不错的进展。半个多世纪以来,研究蛋白质结构的相关工作也已经拿了20多个诺贝尔奖。

但是截至目前,这个难题最主要的解法仍然费时费力。

目前科学家们最主要的思路,是试图通过显微镜等等技术,直接看到蛋白质的三维结构。眼见为实,总不会错吧。但是这个思路,技术上实现起来却太麻烦。历史上,动辄有科学家耗费几年、几十年时间才能得到一个清晰的蛋白质三维结构,这就导致蛋白质三维结成了生物学领域非常要命的瓶颈。

另外一个思路,是直接通过计算来推测蛋白质的结构,代表人物是华盛顿大学的David Baker教授,他开发了一套名为 Rosetta(罗塞塔石碑)的计算机程序来预测蛋白质结构。但这个思路落实起来,也非常困难。比如其中一个问题是,由于计算能力的局限,我们不可能对蛋白质结构的所有可能性都穷举一遍。

如果是氨基酸数量很小、排列比较规则的蛋白质,这种思路还算可行。但稍微复杂一点的蛋白质,预测能力就不怎么值得相信了,大概只能说是聊胜于无。

有了这些铺垫,我们终于要说到这次的主角了——AlphaFold。

如果你熟悉AlphaGo的故事,你可能大概明白人工智能,特别是深度学习方法解决问题的基本逻辑是什么。简单来说,这是个指望大力出奇迹的思路。

传统上,人类学围棋讲究的是学习棋谱,是反复练习,是各种只能意会不能言传的“悟性”。而AlphaGo根本不管那么多,它要做的是尽可能穷举所有可能的下法,再看这些下法分别可能产生什么后果,接下来自己还有哪些可能的下法,又会带来什么后果……通过这样的反复训练,AlphaGo能积累足够的“经验”,知道在某个场合里哪个下法最终获胜的概率更大。

通过这样的暴力训练,后期的AlphaGo Zero甚至可以做到,只需要知道围棋的基本规则,比如怎么吃子、怎么判断胜负,就可以在完全无视人类所有围棋经验的条件下学成绝技,笑傲棋坛。

2018年,DeepMind的第一代蛋白质折叠算法AlphaFold1参加了第13届CASP比赛,就已经拿了第一名的成绩,在业界震动不小。

但是,今年的AlphaFold2就完全不同了。它并不是1代的升级版,可以说是一个全新的蛋白质折叠算法。

尽管目前DeepMind还没有公布AlphaFold2的技术细节,但是大致原理已经公开。AlphaFold2的工作原理非常接近刚刚讨论过的大力出奇迹的AlphaGo。我粗糙的解释一下这套算法的训练过程:

从17万个已经知道三维结构的蛋白质分子中,科学家随便挑一个,把它的氨基酸序列信息“喂”给算法,算法大致“猜测”一个三维结构。然后,算法把它的猜测和已知的三维结构进行对比,并且根据猜测的结果是不是靠谱,继续调整猜测的策略。反复用17万个三维结构训练,算法逐渐就获得了直接从氨基酸序列预测蛋白质三维结构的能力。

当然,我这个说法肯定过度简化了。要是没有任何抓手,算法压根不知道从何猜起,那也是不行的。比如,我们从DeepMind的介绍里也能看到,算法需要一种所谓“多序列比对”的信息。顺便强调一句,这个思路并不是DeepMind首创的,它是1993年由德国科学家Chris Sander提出的技术路线。

最后的结果怎么样呢?

我们可以从两个维度看看AlphaFold2的表现。

首先横向比较一下。

在2020年的第十四届CASP大赛中,AlphaFold2高居第一。第一名和第二名之间的差距,甚至比第二名到最后一名的差距还大。

接着再纵向比较一下。

从1994年CASP大赛开始,人类预测蛋白质结构的能力一直在缓慢但持续地提高。对于很小、结构简单的蛋白质,利用刚才讲的传统方法,准确率已经非常高了。但是对于尺寸比较大、结构复杂,也没有太多已知结构可以参照的蛋白质,一直到2018年AlphaFold1参赛的时候,表现还乏善可陈。

但是,AlphaFold2改变了一切!对于所有参赛的蛋白质来说,它预测的结构得到了92.4的中位数得分,即便对于最难的那一部分蛋白质,它也得到了87分。

这个分数怎么理解呢?首先,90分的得分被认为是个门槛,得分到了90,就说明预测结果已经和真实结构基本一致。

也就是说,AlphaFold2实现了人类在蛋白质结构预测领域史无前例的巨大进步。有史以来第一次,人类可以说,我们不用做实验,也能从氨基酸序列直接推测出蛋白质的三维结构。中心法则的最后缺环,眼看着就要被填补了。

当然,和所有科技进步一样,AlphaFold2也不是十全十美的。

比如,它的表现并不是非常稳定。我们刚说了,得分超过90就意味着基本正确,AlphaFold2的得分中位数已经是92.4,但是在其中几个蛋白质的结构预测里,它的得分并不高。关于具体原因,人们也有一些猜测,但是还需要更多研究看看它是不是可以避免的技术问题。

这样一来,它的实用性在当前就会受到影响。毕竟要是放一个全新的蛋白质进去预测,你也不知道这一次AlphaFold2到底是做对了还是抽风了。

还有,AlphaFold2对于那种超级巨型的蛋白质复合体,对于蛋白质和DNA/RNA/小分子结合形成的复合物,预测能力还有待检验。

但我倒是觉得,这些技术方面的优化肯定很快就能得到解决。打个比方,人类想飞的历史足有上千年,但从1903年莱特兄弟的飞机跌跌撞撞飞了36.5米之后,人类只用了十几年就造出了能够飞跃大西洋的飞机。

从0到1的原始突破完成之后,在从1到100,到10000的道路上,人类往往能迸发出惊人的战斗力。

这就是本期的巡山报告。本期报告特别感谢西湖大学卢培龙老师和南开大学杨建益老师两位蛋白质结构预测专家的建议和指正。下个月6号,我继续为你巡山。

———————————

刚才你听到的是这期《巡山报告》的迷你版本。在完整的报告里,王立铭老师还讲解了这项进展可能在未来开启哪些可能性,比如,癌症的治疗是不是能更快、更个性化。如果你感兴趣,我把原文链接放在文稿里了,推荐你去看看。

好了,这就是今天的《邵恒头条》,我是邵恒,我们明天见。

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top