图片

2020年AlphaFold2横扫冠军时,让CASP(国际蛋白质结构预测大赛)这项小众赛事得到前所未有的关注。

 

人们不仅关心比赛的结果,还有CASP背后为行业带来的更多可能。

 

实际上,除开DeepMind外,近年来中国团队也在这项比赛中发力,取得了非常不错的成绩。

 

例如CASP15中,江苏理工学院生物信息与医药工程研究所常珊教授团队开发的CoDock打败海内外众多参赛组,成为CASP15比赛中Ligand预测赛道第一名。

 

体验了一把站在风口上的感觉,让深耕生物计算20年的常珊也没想到,AI+生命科学能从很小众的科研方向,逐渐变成一个热门赛道。

 

尽管火了,但这绝对不是简单的赛道,对多学科知识的掌握曾经劝退了很多学子和从业人员。也让常珊等人注意到该领域在基础教育上的不足。

 

于是江苏理工学院生物信息与医药工程研究所常珊教授和谢良旭副研究员将近20年的科研与教学经验汇集成册,整理发表为《人工智能辅助药物设计》一书。

 

趁着新书上市的机会,智药局专访了本书的两位作者常珊、谢良旭,与他们深度探讨了当前AI+生命科学的现状以及未来,以及近期引发热议的AlphaFold3和大模型等问题。

 

图片

本期专访嘉宾:常珊(左),谢良旭(右)

 

AlphaFold2摘得CASP14的桂冠后,两位科学家都明显感觉到其对于学术研究的影响深远。

 

访谈时正值CASP16比赛期间,两位每天都忙得不可开交,同时也感到压力倍增。

 

常珊透露,现在的比赛题目不仅大幅增加,而且挑战难度更大,还添加了不少制药企业实际场景的问题,可以说已经超越了结构预测的范畴。

 

毕竟,AlphaFold2冲击了不少从事该方向研究的课题组,大厂们的入局加剧了工业界与学界的资源不平等,都对科学家的科研方向和实力提出了更艰难的挑战。

 

进入人工智能+生物医药

 

常珊:我在这个领域的时间比较长,研究生和博士师从北京工业大学的王存新教授,从那时候起我就一直参加国际上的结构预测比赛,包括CAPRI、CASP等。

 

很多年以来这个领域都是不温不火的,因为技术上的突破不大,所以不太能吸引产业界注意力,但是从AlphaFold2出来后,2018年到2020年这一段时间变得特别的火热。

 

从此大家都知道,原来国际上还有这样的一个比赛,这个比赛已经举行了很多年,对于生物制药、抗体的设计都非常重要。

 

智药局:您刚刚提到这些年您一直在参加国际蛋白质结构预测比赛,对于现在华人团队取得的进展,您有什么感受?

 

常珊:我明显感觉到我们与国际上的差距在缩小。当初我读硕士和博士期间的差距非常大,那时候国内只有几个组在参赛,也没有海外知名课题组回来的博士。

 

当时我们预测了很多题目几乎都是错的,只有个别能够做对,而且那时国内课题组几乎没有自己开发的工具,大部分都是用国外的工具进行预测。

 

这几年明显感觉到进步非常大,上一届华人团队拿了好几个冠军,国际上也有一些知名的算法,例如山东大学杨建益教授的trRosetta。

 

但另一边,当学术界站在同一起跑线的同时,我也感觉其他差距在拉大。因为像DeepMind、Meta这些大厂也在参赛,国内的产业界如腾讯等也在积极参赛。

 

智药局:江苏理工学院生物信息与医药工程研究所成立于2015年,是什么样的契机建立起来的?

 

常珊:博士毕业后,我到美国从事博士后研究,后来回国寻找教职。

 

当时江苏理工学院的领导很有前瞻性,愿意为我们提供一个实验和计算设备都具备的平台,这样的平台前期投入很大,尤其是实验设备,不是所有团队都能够得到学校的大力支持。

 

而我认为如果计算真的能对生命科学产生重大意义的话,肯定要和实验紧密集合。比如现在国际领先的David Baker课题组,它最强的点在于有一个非常强的计算和实验交叉团队,当AI从头设计蛋白质后,课题组还能拿到实验结果,验证实验和设计的一致性。

 

所以尽管我还有其他高校可以选择,最终还是决定落户江苏理工学院。我帮助学校把平台搭建起来以后,引进像谢博士这样优秀的博士。他们对这个平台的认可度也很高,我觉得这是很吸引到大家的很重要的原因。

 

研究所设立至今,我们在学术领域的影响力还是不错的,经常被邀请去重要场合做学术报告,例如在CASP的评估会上做口头报告。毕竟学术领域大家关注的是最后测试成绩,还有是否开发出来有影响力的工具。

 

智药局:《人工智能辅助药物设计》这本书的实操性很强,两位写这本书的初衷是什么?读者需要怎样的准备?

 

谢良旭:我和常老师都是生物计算学出身,然后又拓展到人工智能+生物医药。当我们回顾曾经作为初学者一路以来的经历,发现整个学习的过程其实非常困难。

 

现在大家招生或者招员工的时候,他们的背景知识非常分散,有的可能来自生物专业、有的来自计算专业,而人工智能辅助药物研发已经不是单纯一门学科所能完成的,大家都学得很痛苦。

 

既要学习生物知识,又要学药学知识,还要学计算机知识。所以我们想是不是可以写一本书,把这些知识融合在一起?

 

我们希望有这样一本书兼顾到多种知识。这样不仅方便我们的教学,让研究生一开始入门的时候能更快地了解行业知识,也更方便医药从业者进入这个领域。

 

针对刚入门的读者,无论是研究生还是从业人员,前期可能需要一些基本的生物化学以及编程知识,我们希望读者一边学习知识的同时,一边能够上手实践,复现我们书中的代码,这样才能让读者能更快地学到这种融合多种学科的技能。

 

AlphaFold3的难点不是代码

 

智药局:最近AlphaFold3已经发布,主要填补了分子相互作用方面的预测,和两位的研究方向都有契合,两位怎么看AlphaFold3表现?

 

常珊:相较于AlphaFold2,我们这次明显感觉到AlphaFold3做了广度的扩展,除了预测蛋白质结构外,还预测RNA结构以及小分子的相互作用。

 

这也意味着AlphaFold3能完成这些任务的同时,也要放弃一些事情。简单说,AlphaFold3希望能够在一个模型框架底下去解决所有生物分子的相互作用问题。

 

因为不同生物分子数据是不平衡的,蛋白质数据比较多,尤其是共进化数据,这些都是可以为蛋白质所用的。但是相对于 RNA 或者小分子而言,这一块的信息可能是缺失的,结构模板可能是有的,然而会缺失一部分共进化信息提升结构预测结构。

 

我们使用下来有一种感觉,AlphaFold3它似乎还只是学到了数据本身,它没有从数据更上层提取出具有推理性和规律性的东西,以至于当它没有特别好的模板的时候,能明显感觉到预测质量的下降。

 

智药局:之前AlphaFold3不开源引发了学界的热议,您怎么看待现在的开源和闭源之争?

 

常珊:我觉得AlphaFold3闭源的很重要原因是它的商业价值的确很明显

 

虽然我们希望AlphaFold3能够从数据中学习规律对新问题进行预测,但实际药物研发中,分子都不是凭空而来的,大多数公司都希望通过Fast follow找到一个相似但是骨架有调整的分子。

 

这样的需求其实特别符合AlphaFold3的技术,它能够学习所有的数据,帮助快速找到相似的分子。当然学术界没有放过DeepMind,一方面因为AlphaFold3的开源对整个学术界的发展非常重要,另外是因为训练过程也用到了很多公共的学术资源和数据,也应该反哺学术界。

 

智药局:现在有团队想要复现AlphaFold3的成果,有没有可能复现成功呢?

 

常珊:从算法本身来说复现门槛不是特别高,网上一些团队据称根据论文也能复现个八九不离十。

 

但是复现AlphaFold3的难点主要是训练数据怎么做到让它能够在算法训练下,把多模态的数据都能利用起来?所以复现的最大难度,我个人觉得还是对数据的对齐与整理。

 

这也意味着,就算AlphaFold3公开了算法但不公开数据的话,可能怎么用它训练都达不到DeepMind的效果,因为DeepMind可能对数据做了大量收集和整理。

 

智药局:ChatGPT出来后,整个行业都在讨论大模型,两位如何看待大模型在生物领域的应用?

 

谢良旭:现在的大模型都是基于通用知识的,基本只能回答一些大家日常聊天中或者是书本上的知识。

 

当涉及到生物领域的时候,大模型可能缺少相应专业领域的知识,需要对现有在垂直领域进行更好的优化,使它学习更专业的知识。

 

不过目前生物数据比较复杂,数据的质量也没有对齐,需要更多专业人士对数据进行进一步的清洗整理。

 

所以我感觉大模型生物医药领域的落地还是有比较大的挑战的。可能当我们有更高质量的数据,或者有更好模型的时候,才能使得大模型在医药领域更好地发挥作用吧。

 

智药局:我们注意到不少公司都希望打造生物医药基础大模型,例如ESM3称已经达到了980亿参数,您觉得大模型的 scaling law是否适用于生物领域呢?

 

谢良旭:的确,刚刚提到的ESM3已经达到980亿的参数规模,和GPT3的参数量相当。但实际上它本身的数据量肯定得高于980亿,否则会训练出来一个过拟合的模型,泛化能力会受到限制。而根据当前的生物医药的数据规模,想要符合scaling law目前比较困难。

 

还有一点,数据量也不是越多越好。我们以 AlphaFold 为例,AlphaFold 第一代出来的时候,并没有给人类带来更多的惊喜,只有到了AlphaFold2能力才得到飞速提升。

 

我想主要原因是John Jumper这样的人才加入,他本人是做生物物理计算的,正是因为将生物物理背景知识融入到数据当中,才使得 Alphafold 2取得了如此可怕的进步。AlphaFold2融入了二面角的信息,共进化的信息,这些其实都是人类归结归纳出来的信息给它的。

 

生物大模型也需要专家知识,不能只依靠数据的堆叠提高模型的预测能力单纯靠数据的挖掘去发现规律还很艰难,需要生物学家或者医药学家给它一些特定的规则约束。

 

科研范式已经转变为产业界主导

 

智药局:AI+生命科学这个领域,中国与欧美国家之间在学界的资源投入差距大吗?

 

常珊:这个差距还蛮大的。举个例子,我们去申报一些项目的话,其实整体申请的难度不是很大。但是我们往往申请到一个项目,等3-4年项目结束以后,可能又要再想一个课题申请新项目。

 

对比美国有很多知名软件,比如用于分子动力学或者分子对接,都能够得到长期稳定的资金支持,能够在十几年、二十几年间迭代很多次版本。

 

毕竟很多软件三四年的开发还不够成熟,科研人员其实很希望能够安下心来坐冷板凳。现实情况是,国内科研很难长期给一个项目特别稳定的支持

 

当然现在国家基金委也在探索杰出青年基金项目的持续资助,不过毕竟才刚刚开始,其他项目大家仍然得更换不同的题目拿基金,这也是精力容易分散的地方。

 

智药局:请问常珊博士,您2004年就开始从事该领域的研究,20年来行业在研究上有没有什么范式的转变?

 

常珊:我觉得一个比较大的转变是从学术界主导到产业界主导。

 

越来越多互联网大厂注意到AI+生命科学这个方向,愿意投入更多的资金和人才去搭建平台,包括很多初创公司也获得了资金。这样的情况下,他们的研究比科研实验室更高效,因为高校老师还有很多教学和行政任务。

 

这也造成学术界和产业界的资源不太对等,产业界有很多技术可能都会处于更领先的水平。像AlphaFold、 ESMFold都是产业界非常知名的模型,未来学术界的模型可能慢慢处于弱势。

 

智药局:既然学界已经很难再做出超越AlphaFold2的模型,未来科研人员的机会在哪儿?

 

常珊:我觉得要注意研究方向,例如现在肯定不能跟AlphaFold做一样的事情,因为无论从学术成果还是行业价值,重复的事情都不会被看好,所以必须错位发展。

 

现在我们更想向David Baker课题组学习,站在学界的角度做一些前沿的探索,将计算与实验相结合,其实这本身也是学术界应该承担的角色。科学家去探索新的领域,工业界去把已经探索出来的成果工程化。

 

当然科学家也不能埋头苦干,最好能多和企业坐下来交流讨论,走出自己的舒适圈,多研究更加贴近企业需求的项目,闭门造车的话会导致学界和现实脱钩。

 

智药局:AlphaFold2出现后,两位的研究方向主要有什么变化吗?

 

常珊:我一直从事蛋白结构预测的研究,AlphaFold出现后受到了不少冲击,按照原来的模型都不太可能做到AlphaFold的准确度。

 

所以我现在更倾向于将实验和计算密切结合的方向,包括蛋白质设计,多肽设计、还有复杂的药物设计。这样既能够利用到AlphaFold这样更好的工具,同时又能发挥研究所在实验方面的优势。

 

谢良旭:我的团队主要是用AI模型预测药物分子的性质,或者开发药物分子筛选的方法。我们的重点可能更多的偏向于探索性,将现有的模型进行适用性修改,使得能更好地应用到药物性质预测的领域。

 

比如我们正在研究对蛋白质动态结构的预测,当前AlphaFold2和 AlphaFold 3 基本上都只提供了一些静态结构预测,我们利用这些静态结构作为初始采样结构来更好地捕捉蛋白质的动态结构信息,然后辅助药物分子性质的筛选。

 

智药局:前几年AI+生物制药赛道里面教授创业很火,这两年新成立的公司少了,从学界的角度看,您觉得是什么原因?

 

常珊:现在的确没有前几年那样疯狂了。那个时候给我的感觉是很多投资人都去高校里面找教授,很多时候有个PPT就能拿到钱,现在要理性很多。

 

我觉得还是取决于两点,第一是大家手里的钱多不多。美国一直在加息的情况下,大家手里的热钱都不会很多,第二是科研上有没有特别大的突破也很重要。

 

例如如果是室温超导这样的技术突破肯定不缺钱,但是现在AI制药公司没能拿出相比传统制药公司颠覆性的成绩,这也让很多人开始质疑AI制药的点。

 

所以我认为要好好去思考的一个问题,AI能够参与到制药的哪些环节更多一些,然后帮助制药公司真正地更好地开发药物。

 

智药局:最后一个问题,对于现在想要进入人工智能辅助药物设计的年轻人,您有什么建议?

 

谢良旭:现在人工智能辅助药物设计不是单一学科的知识,我觉得现在入门的学生或者从业人员需要夯实自己的基础,学会生物学、医学、药学、计算机科学等这些基础的知识。

 

更为重要的是,很多团队都是来自各个领域,要学会团队合作的能力。要善于去与其他人沟通,然后把与他人沟通得到的知识转化为自己的知识。因为现在学习不是阶段性的学习,而是终身学习,一定要在每个领域有自己的见解,然后能够从其他人那里获取知识。

 

常珊:我觉得最需要克服的是心理障碍。当你去接触非本专业的学科知识的时候,你只要放下排斥的心理就行。哪怕我看不懂,但是第一遍看不懂就再看一遍,每次看的时候都是有好奇心的。不要害怕,慢慢来,总有一天会懂的。

 

以下是关于《人工智能辅助药物设计》的书籍介绍:

 

本书由江苏理工学院生物信息与医药工程研究所常珊、谢良旭所著,并且获得国家自然科学基金、江苏省自然科学基金、常州市应用基础研究项目等项目资助。

 

相较于市面上相关书籍,本书力求以浅显易懂的方式,帮助读者快速了解人工智能在药物设计领域的应用场景。

 

此外,该书不仅涵盖最新行业技术应用,还结合了药物筛选等实际应用案例,是一本非常适合初步涉及该领域的从业人员、学生的参考指导资料。

 

图片

 

—The End—