2024年的诺贝尔化学奖授予了华盛顿蛋白质研究所所长、计算生物学家David Baker,表彰他在计算蛋白质设计的突出贡献。
几十年来,David Baker实验室一直在突破蛋白质设计的极限,由于能够设计自然界中不存在的蛋白质,他被称赞为“上帝之手”。
如今,由于计算生物学浪潮兴起,David Baker实验室成果不仅是享誉全球,同时转化出了 21 家公司。
其中最著名的是 Xaira Therapeutics,该公司获得了超过 10 亿美元的支持,目标是再造一个基因泰克。
近日, Endpoints News 专访David Baker,他不仅谈到了实验室如何进行创新,还谈到了他对于AlphaFold3闭源的看法,以及如今AI生物医药的炒作问题。
他称,在生物医药大语言模型领域,那些不太清楚自己在说什么的人可能有点炒作太多了。
实验室如何创新
Q: 获得诺贝尔奖的感觉如何?
Baker: 这有点疯狂。我认为我这辈子从来没有这么紧张过,期待事情能平静下来。
Q:您是因为蛋白质设计而获得诺贝尔化学奖,为什么从头设计蛋白质非常重要?
Baker:我们知道蛋白质能执行一系列惊人的功能,我们体内有无数蛋白质,这些都经过数百万年或数十亿年的进化。例如光合作用或大脑中介导认知的离子通道。
现在,人类出现了新的非常急迫的问题。在医学领域,由于人们寿命更长,因此出现了新的疾病。新的病毒也有可能出现造成全球疫情。除此之外,地球也被污染,人类环境正在恶化。
如果存在进化压力,我们还有 1 亿年可以等待,其中一些问题可能会得到解决。但是蛋白质设计的能够设计出解决当前问题的新蛋白质,以及解决自然界中自然选择过程中的相关问题。
Q:您最初是如何对蛋白质设计产生兴趣的,尤其是以计算为重点的?
Baker:实际上我不是第一个从事这方面研究的人。
在这之前,加州大学旧金山分校药剂化学系教授Bill DeGrado 证明了可以做从头设计,加州理工大学的Steve Mayo教授展示了可以使用计算机来重新设计蛋白质序列。当 Brian Kuhlman 作为博士后来到我的实验室时,他萌生了做灵活骨架的蛋白设计的想法。
而当我来到华盛顿大学时,我们一直在做实验以了解蛋白质如何折叠,并且开始搭建Rosetta,这是第一款专注于结构预测的软件。Brian 的想法是将其与序列设计相结合,有点像 Steve Mayo 所做的那样,进行灵活的骨架蛋白设计。
2003 年,他和 Gautam Dantas 开发了 Top7,首次对自然界中未发现的蛋白质结构进行计算设计,与自然界中的任何蛋白质都不同。这打开了蛋白质设计的大门。Top7 基于特定结构设计没有任何功能,但现在我们可以设计具体各种新功能的蛋白质。
Q:将蛋白质序列与功能连接起来的领域在哪里?
Baker: 回到 Binder(蛋白质配体结合剂) 设计问题,我们正在做的很多事情都是从靶点结构开始。现在使用AlphaFold,可以非常准确地生成许多蛋白质的结构。
功能也很重要,因为我们想生成能够治疗疾病的蛋白质,不过现在生物学问题仍然非常困难。真正的问题是你应该用什么设计蛋白质结合剂,这个问题有很多不同的答案。
我们还在设计有条件的疗法,这些疗法只有在体内合适的时间和地点发挥作用。我们有所有这些疗法设计真正的问题是,什么是正确抑制和激动靶点?生物学仍然是其中非常重要的部分,它超越了蛋白质设计。
Q:这些蛋白质设计技术的进步究竟是怎么产生的?
Baker: 这一切都发生在过去五年中。
如果你关注一下我们最近的论文,我们正要上传发表一篇通过汇集不同受体对和新颖组合来制造大量细胞因子的论文。我们有大约25种结合剂,其中11种是为这篇论文设计的。现在我们要做的是设计一整套结合剂解决某个具体问题。
我们一直在研究这些基于物理的方法来设计结合剂。Longxing Cao 和 Brian Coventry 取得了这一重大突破,我们展示了我们可以为 13 个不同的靶点设计结合剂。
几年后,在我们开发出 RFdiffusion 后,我们发现我们可以比以前更好、更快地制造结合剂。我们以两种不同的方式解决了这个问题。
Q:过去几年的进步速度令人瞩目,其主要驱动因素是什么?
Baker:随着技术的进步,它们相互促进。我的实验室有点爆炸了,有很多聪明人试图开发东西。有人会抢先做出成果,另一个人会在此基础上再接再厉。
另一部分是深度学习在蛋白质设计中的应用。RFdiffusion 和 ProteinMPNN 的 API 和 ProteinMPNN 中,这些工具现在正在全球范围内使用。我经常收到电子邮件,说我们用你们的软件制作了一个很棒的结合剂。
另一点是蛋白质数据库是一个巨大的未开发资源。过去60 年里,全球总计为这些成果投入了数百亿美元。现在 AI 方法正在利用其中的数据和成果。
Q:当对潜在的药物进行优化,让它们更具有成药性,您对 AI 优先方法可以解决这个问题是乐观还是怀疑?
Baker:假设你想预测某个化合物是否会通过临床试验。如果我们有成百上千次的试验,我们有具体的化合物,并且确切地知道每个试验中发生的情况,我想你可以训练一个非常有效的模型,但我们显然没有这些数据。
我认为有两条前进的道路:第一种是识别与长期研发成功相关的指标。然后,你可以优化这些结构改善指标,比如需要一定的表面疏水性等作为优化目标。
第二种是生成相关的数据集。地球上没有任何个人或组织可以进行 100,000 次临床试验并收集数据。大型制药公司有很多关于不同化合物在药物开发流程中失败的内部数据。现在一件非常有趣的事情是利用这些数据进行训练。
这是否成功将取决于数据集的广泛程度。像 Xaira 这样的公司正在努力生成大型内部数据集,看看这些数据集在开发更好的药物方面如何,将会很有趣。
Q:这可能是 AI+药物研发的圣杯。从长远来看,Baker实验室的圣杯是什么?
Baker:能够设计分子机器,如分子伴侣或分子电机。这有点未来主义,但我认为它是可以实现的。我们可以设计催化剂,可以设计结合剂,现在我们正在尝试耦合结合和催化,例如设计位点特异性蛋白酶。
我们现在正在努力实现这些目标,同时进行真正的精准医疗,制造仅在非常明确的地方起作用的极端条件激动剂药物,以及在特定细胞类型上产生生物活性的新型激动剂。
Q:为什么您的实验室能够在这么长时间内保持如此高效的成果?
Baker:我对如何运营实验室和研究所有一些自己的意见。我的实验室基于公共大脑的概念。
海蛞蝓有一两个神经元,它们可以做非常简单的事情。同样,人脑可以在所有神经元都连接的情况下做一些惊人的事情。
在我的实验室中,重点是头脑风暴和不断的讨论。我们每周甚至每天都提供不同类型的免费食物,有意让人们聚在一起。如果你把每个研究人员都看作一个神经元,只是试图最大限度地建立连接。
第二个是招聘人员,有很多人想来实验室和研究所。这是主要的选择标准:你来,你和每个人交谈两天,每个人都投票。
另一件事是我哪儿也不去。我每天都在实验室,四处走动并与人交谈。我只是想确保每个人都能最大限度地建立联系。
AlphaFold、开源与商业
Q:在初创公司中,投资机构们对 AI 都抱有一种淘金的心态,这对你的研究有帮助还是有害?
Baker:这是非常有益的。
Q:您如何看待实验室结果开源和闭源的问题?
Baker:在学术环境中一切成果都是完全开放的。但在某些时候,如果你要开发一个新产品,你真的不能在学术环境中这样做。
对于像 DeepMind 这样组织而言,情况会变得有点复杂,它已经研发出来 AlphaFold 这样的软件。但他们也是一家公司,他们发表软件但不开源软件,但闭源会让人感到困惑。所以拥有一个完全开源的成果,吸引人们创办公司是一个不错的方法。
Q:在开源方面,您的实验室一直处于领先地位,这与科技界形成鲜明对比。OpenAI 已经基本封闭了他们的工作。DeepMind 的 AlphaFold 3 具体开源情况如何也不得而知。AI 生物是否有变得过于封闭的风险?
Baker:值得称赞的是,他们没有发布 AlphaFold 3 代码,但他们发表了论文。
现在生态系统非常健康。我记得 CASP14中 DeepMind 的第一批结果公布后,人们担心科技公司将从此主导结构生物学。事实并非如此。没有谁占据主导地位,我认为这是一件好事。
蛋白质设计在开放环境中确实效果很好。但初创公司或制药公司的封闭环境非常适合将稍微成熟的想法发展到真正可以挽救生命的程度。
Q:不仅看到 DeepMind,而且看到 Salesforce、Meta 和其他公司在蛋白质研究方面的工作,对于这些公司而言值得吗?
Baker:对于科技公司来说,大型语言模型确实是最重要的。如果一家大型科技公司在蛋白质折叠或蛋白质设计上投资,那么表明可能在语言模型上有点落后。
但现在,这些公司都在裁员,将资源投向能快速产生收益的领域。尽管AI蛋白质非常有趣,但仍然有点边缘化。
Q:在大型语言模型上,您认为它们在生物学中是否被高估了?
Baker:那些不太清楚自己在说什么的人可能有点炒作太多了。
Q:谈到数据生成,最大的数据差距是什么?
Baker:在制药方面,更多来自药物开发管道后期的数据。如果我们深入挖掘,大型结合亲和数据集能准确反映化合物与蛋白质的结合情况。药物开发流程中每个步骤的数据,化合物在哪些方面失败了?
生成真正好的数据集对于在其上训练AI模型至关重要,并且需要大量的创造力来考虑如何生成它们。
Q:现在贝克实验室的人才们正在研究项目是什么?
Baker:他们看起来都有点疯狂,我们正在努力做尚未解决的事情。
我的基本要求是,这应该是一个非常重要的、未解决的项目。一个真正聪明、有创造力、敬业的人很有可能在未来两三年内解决它。