专访镁伽科技:AI for Science 时代来临,需要下一代数据基建 2024年11月1日
如果要投出2024年度科技热词, AI for Science 绝对能当选。 连续包揽诺贝尔物理学奖和化学奖,证明了AI 在各个领域的巨大潜力。 这昭示着科学研究方法的一次革命,数据驱动的科研越来越受到重视。但在生命科学领域,由于缺乏高质量的数据,AI for Science有明显的局限性。 “就像自动驾驶只会在电动汽车上出现,AI+生命科学也必然意味着底层架构的重塑。” 镁伽科技创始人兼首席执行官黄瑜清表示 。 究其原因,是因为当下生命科学实验室的设备和耗材,绝大多数仍是为手工操作而设计,并没有大规模累积数据的能力。 今年9月, 镁伽鲲鹏实验室3.0 正式发布,可以看作是对 AI for Science 这一范式转变的回应。 镁伽将镁伽鲲鹏实验室定义为 “生命科学行业的数据工厂” ,凭借智能自动化技术,镁伽鲲鹏实验室不仅有大规模生产数据的能力,还实现了数据治理与模型训练。
如同汽车从内燃机驱动转向电机驱动一样,这标志着生命科学从手工转向自动化,底层架构设计的转变也为AI大脑预留了足够的空间。 镁伽鲲鹏实验室的落地,也让镁伽在生命科学产业走向了一个新的方向,区别于以往的单个模块化自动化仪器,积极拓展下游应用和服务。 近日,智药局与镁伽科技创始人兼首席执行官黄瑜清 、联合创始人兼首席运营官张琰 ,以及首席科学家方攀峰博士 聊了聊,他们深入阐述了镁伽在生命科学智能化的突破,以及镁伽鲲鹏实验室的能力与规划。 从左至右:镁伽科技首席科学家方攀峰博士、镁伽科技创始人兼首席执行官黄瑜清、镁伽科技联合创始人兼首席运营官张琰 早在2019年,黄瑜清就提出要建设超级实验室的目标,彼时镁伽还只是100人左右的团队。 黄瑜清回忆道:“那个时候我们刚刚调整公司战略,从研发机器人本体转型到智能实验室整体解决方案,当时我们手里的武器只有机器人技术,业内很少有人相信镁伽的实验室能成功。” 公司转型的背后,不仅来自生命科学实验室场景的特殊性,还有镁伽对生命科学行业自动化的业务理解。
不同于汽车制造、3C等非常标准化的生产需求,几百年来生命科学领域自动化水平不高,主要源于实验室操作过于复杂,实验流程又过于个性化。
这也导致如果用做标准化产品的思路打入实验室,客户会有不断的新需求产生。面对生命科学不断出现的定制化需求,镁伽觉得有必要走在客户的前面。 于是,镁伽果断放弃了死磕标准化自动化设备,转而将仪器进行自动化整合和改造,提供实验室整套的解决方案。 而疫情期间生命科学产业催生出大量自动化需求,也让镁伽积累了足够深的行业knowhow,帮助公司快速地实现产品迭代和升级。
2021年, 通用型智能自动化生物实验室-镁伽鲲鹏实验室 正式落地。这不仅意味着镁伽拥有构建生命科学平台的能力,也能为高校和企业开放这些能力,推动行业进步。 实际上,镁伽鲲鹏实验室不仅解决了智能实验室建得起 的问题,还解决了用得起 的问题。 除了头部外,很少有公司能够引进一整套智能实验设备,开机后更是一次自动化药物筛查就是超过200万的成本,这中间很多都是不必要的试剂损耗。 镁伽鲲鹏实验室不仅能避免前期成本投入,通过精准控制技术,镁伽的分液设备能够精准到微升甚至钠升级,极大的降低实验成本。 镁伽科技联合创始人兼首席运营官张琰形象地描述了实验室从1.0到3.0的区别。
他表示,镁伽鲲鹏实验室1.0像一间展示中心 ,展现出镁伽从软硬件一体出发,有构建大型智能实验室的能力。 2.0阶段,镁伽鲲鹏实验室则更像是一个练武场 ,公司组建了经验丰富的科学家团队,通过鲲鹏实验室开发自动化应用,以实战的角度来指导实验室的建设和运维。 到了3.0阶段,镁伽鲲鹏实验室又一次大幅度升级为生命科学的数据工厂 ,在实验通量提升40倍,数据生成能力提升100倍的同时,将试剂损耗降低70%。
如今,镁伽在生命科学领域已经形成了一支强大的交叉型研究队伍,包括100位生物和医药人才,和300多位工程技术骨干 ,打破传统学科壁垒,实现了技术与知识的深度融合。
据透露,随着技术、团队和市场的不断完善,镁伽鲲鹏实验室已经服务了多家医药企业、CRO和高校研究院,多条业务线实现高速增长。
一个老生常谈的论调,无论是AI生命科学还是AI制药,都面临着缺乏高质量数据的阻碍。 实际上,这其中不仅是数据规模的问题,更重要的一步是数据治理。
不谈数据治理,就没有优秀的AI模型,得到的也只能是“垃圾进,垃圾出”, 诺奖成果蛋白质结构预测模型AlphaFold2前期就耗费了大量精力对数据进行预处理。 在镁伽看来,数据治理不仅是数据清洗、转换、合并等能力,本质上其实是个软硬件协同问题。 尤其生命科学实验室设备通常来自不同品牌,接口也不一样,因此数据格式本身就存在大量的噪音。这些原始数据无法喂给模型,甚至不同设备之间数据的相关性也是问题。
“生命科学实验室需要一个强大的中台,它既能灵活地支持无穷多的科学应用,同时又要稳定可靠地管理好无穷多的设备组合,保证它们7x24小时的稳定运行。”
为此,镁伽打造了一个名为 Megalnfomics 的数智化平台,它包含了中央调度软件、数据集成软件、信息化管理软件、生信分析软件等,这些软件保证了数据的有效收集、结构化、分析和追溯,当然还有最重要的安全性。
镁伽鲲鹏实验室3.0还首度引入了数字孪生软件 ,它能在虚拟状态1:1地建设实验室,在不消耗实际资源的情况下,对实验方案进行预演和优化,提前排除潜在风险。
而这背后一切都离不开镁伽过往部署大型实验室的经验。
换句话说,镁伽鲲鹏实验室这家生命科学的数据工厂,本质上不是输出自动化能力,而是大规模高质量生命科学数据的能力。
找到了这样的行业痛点,过去三年间镁伽鲲鹏实验室的业务大幅度增长,尤其是面对人工无法解析的场景。
例如宏基因组测序方面,在上千人的样本量面前,镁伽经过结构化的数据能够真正做到“开箱即用”。
“我们的感受非常明显,每当接触有大队列需求的客户,他们的反馈是市面上终于有人能干这个事情了。” 张琰表示,“以往面对这样大批次高质量的数据需求,合作伙伴只能通过传统CRO来完成,进展非常缓慢。”
镁伽科技首席科学家方攀峰补充道:“甚至得到大规模样本处理和数据的结果后,还衍生出我们意想不到的新需求,这些都是镁伽鲲鹏实验室区别于传统CRO的特别之处。” 如今,镁伽鲲鹏实验室平台已经拓展到细胞基因编辑、高通量药物筛选、类器官自动化、中医药研究发现、合成生物学 等领域的研究。
在这些领域,镁伽已经成功打通 “AI+干湿实验” 闭环的能力,涉及到从设计到构建到测试,拿到实验结果后再把数据清洗整理后喂给大模型训练,极大缩短了如抗体设计等领域的研发时间。
此外,镁伽也在根据业务模式进行全新的探索,将生产数据的能力沉淀为有形的资产。 张琰表示:“尽管实验室当前定位依然是生命科学的高质量数据生成工厂,但未来数据的归属权问题,与合作伙伴都可以协商,提供多个可选择方案。”
当前,中国生命科学领域正在经历一次重大调整。尤其在生物医药,投资人的热情正在恢复消退,不少公司融资更加困难,研发预算也更加紧张。 面对不确定的市场环境,黄瑜清给出的答案是: 抓住快速增长的新兴市场的机会。 正如镁伽曾经抓住了核酸自动化检测、分子诊断等风口,尽管不少业务已经萎缩,但在国产替代以及出海等新背景下,仍然有大量细分市场等待挖掘。 “根据我们的判断,实验室国产替代和自主可控的逻辑下,自动化和人工智能的需求仍然有较高的需求,同时我们也在不断开拓海外市场。” 黄瑜清解释道。 多年来镁伽引以为傲的是,他们一直是行业大客户的开拓者,早期融资时投资人甚至看不懂PPT,黄瑜清首先要花一个小时时间解释什么叫生命科学,然后再接着讲什么叫生命科学自动化,再证明生命科学自动化不是伪命题而是真需求。 同样,镁伽作为一家提供先进生产力工具的公司,在生命科学复杂场景下积累的大量经验,也正在帮助镁伽快速进入集成电路、能源化工 等领域。
那就是未来生命科学实验室一定会从手工转向智能化,许多底层工具都有重做一遍的机会,这个穿越周期的判断也是镁伽不断投入研发的动力。
成立8年来,镁伽从当初3人的小团队拓展为上千人的队伍,累计研发投入超12亿元。
尽管有先发优势,但迎接来自国内乃至海外同行的竞争,黄瑜清的回答也显得颇有底气。
“中国有世界上强大的供应链体系,例如细胞领域最常见的实验流程,通过自动化设备再加上机械臂等技术,我们只花了6个月左右就能执行实验,但要让这样一套系统能够7 × 24 小时的稳定运转,我们耗费了两年多的心血。”
这背后需要解决非常多的工程学问题,以及对于生命科学实验流程的深度认知和梳理。
L1代表基础的自动化硬件,实现实验室单点自动化,而越往上则越需要数字化和AI软件的参与,到了L5阶段,AI能够自主进行实验室设计与运营,完全解放科学家的双手。 如果说智能实验室上半场是自动化仪器与实验调度,那么下半场则是智能化。换句话说,这也是镁伽的真正价值所在——软硬件技术的深耕和完善 。 同时,镁伽也紧紧布局自身产业上下游,通过合作、孵化和投资等方式做大朋友圈,加速智能实验室的进程。 产业链上游,镁伽投向了自动化关键零件生产商;产业链下游,镁伽则持续孵化投资了多家AI+生命科学应用公司,包括小分子智能化合成企业镁睿化学 ,以及大分子设计和制造公司智源深澜 。 无论是诺贝尔奖奋力拥抱AI,还是国家《新一代人工智能发展规划》,都让包括镁伽等一批头部AI for Science公司被持续关注。
黄瑜清表示,在生命科学领域有太多难题还有待解开,有的罕见病和神经退行性疾病,人们连发病机制都还没弄清楚。
“我相信当研发效率提升后,在我有生之年这些疾病一定会看到成果。”他坚定地说。