在AI重塑万物的时代,科研与产业的边界正被不断打破。
在微观世界中,蛋白质设计这一领域,曾因序列组合数量庞大,其难度被喻为“大海捞针”。这一领域曾需要消耗大量的人力和时间,因为要培养一个独立改造蛋白质的专家,需要5年;而成功改造出一个蛋白质的试错时间,还需要5年。
如今因AI,蛋白质设计迎来了颠覆性转折。
天鹜科技创始人及CTO刘灏在2021年与导师共同创业,带着对日常细节的洞察,带领团队用AI大模型打破蛋白质设计困局。他们构建包含90亿条蛋白质序列的数据集,用AI让蛋白质设计摆脱路径依赖,并大幅减少试错,甚至实现多指标同时优化;他们与金赛药业合作设计的耐碱单域抗体,为企业年省千万元成本……让AI蛋白质设计正从实验室走向生产线。
在创业邦2025新青年创投大会,刘灏分享了AI让蛋白质设计触手可及的过程。以下是刘灏的演讲实录,由创业邦整理
从洗衣液中的酶谈起:蛋白质应用的日常与行业痛点
收到邀请函时,主办方希望我做个有特色的自我介绍,这可把我难住了,我需要找一个特色的身份标签。但我不像在场梅花创投的吴世春总,有很鲜明的身份标签,他不仅是创投圈里最会讲脱口秀的,而且是脱口秀圈里最会投资的。而我只是个普通的技术人员——从2010年考入交大起,我从本科到博士后都在生物信息学领域深耕,这是个结合计算机科学、物理学、化学来解决生物学问题的交叉学科。
2021年,我和博士后合作导师洪亮教授一起创办了上海天鹜科技,我的身份标签无非是“博士”“科技创业者”,实在普通。直到准备PPT时,看到刚满六个月、已经会满地爬的女儿,我才找到比较有特色的标签:“奶爸”。
当了奶爸后,生活里多了很多宝宝专用品,比如说“宝宝专用洗衣液”,出于学生物的职业本能,买回来后我第一时间看配料表添加了什么,发现了很熟悉的成分——酶。上面列了四种酶:蛋白酶、淀粉酶、纤维素酶、甘露聚糖酶。大家可能知道,酶是生物体内发挥催化功能的蛋白质,那洗衣液里为什么要加酶呢?这里给大家做个简单科普。
普通洗衣液主要靠表面活性剂这种化学成分去除汗渍、灰尘等普通污渍,但面对一些特殊污渍就不够了。蛋白酶能分解蛋白质,刚好可以去除奶渍、蛋渍;淀粉酶能分解淀粉,对米粉、面条的残留很有效;甘露聚糖酶能分解多聚糖,能清除冰淇淋、蛋黄酱的痕迹。加了这些酶,洗涤效果会好很多。
事实上,国内很多品牌——比如立白、蓝月亮、雕牌,无论是洗衣粉、洗衣液还是洗衣凝珠,都有添加酶的产品。大家平时可能没注意,回去可以看看配料表;在日本,酶还被称为“酵素”。
但酶在洗衣用品中存在一个不太理想的现实。以蛋白酶为例,无论是固体洗涤剂还是液体洗涤剂,80%-90%的酶制剂都由国际头部企业供应。国内企业很难生产出满足下游厂商需求的产品,剩下10%-15%的份额,很多还是因为供应链稳定性需求才被加入的。
我和相关专家沟通后,又做了深入研究,发现两个关键原因。一是起步时间:1963年,国际头部企业就已将酶应用于洗衣粉,而我国直到1960年左右才第一次开发出合成洗衣粉,差距明显。二是专利壁垒:这家头部企业自创立以来,仅在蛋白酶上就拥有2078项全球专利,这意味着我们想研发出突破专利壁垒、性能达标的产品,难度极大。
其实不止洗涤剂领域,在农业、食品、环保、医药、美容、体外诊断、生物能源等众多领域,大量蛋白质或酶产品的市场份额都被国际头部公司占据,国内企业的份额很小。这背后,既有起步晚的历史原因,也有专利壁垒的现实阻碍,而更核心的,是蛋白质设计技术的瓶颈。
蛋白质设计的挑战:从“大海捞针”到AI大模型的突破
为什么蛋白质设计这么难?这要从蛋白质的本质说起。蛋白质是生命活动的主要承担者,在生物体内发挥着各种关键功能。我们所说的“蛋白质设计”,就是通过优化或改造天然蛋白质的性能,让它满足工业、医疗等特定场景的需求。比如,人体内的蛋白质在37℃时活性最佳,但工业生产中可能需要它在更高温度下工作,这就需要改造。
但这种改造的难度,堪比“大海捞针”。蛋白质由20种天然氨基酸组成,就像串手串的珠子,不同的排列组合会形成不同的蛋白质。我们统计过蛋白质数据库里的平均长度,约为361个氨基酸。仅改变其中1个氨基酸,就有6859种可能;改变2个,可能性飙升到2300多万;改变3个,更是达到533亿种。如果要穷尽所有可能性,哪怕把地球上的原子都用来做实验,也远远不够——因为总的可能性是20的361次方,这是个天文数字。
过去,科学家们一直在探索蛋白质设计的方法,从1978年到2025年,这一领域甚至出现了多位诺贝尔奖获得者。但传统方法始终跳不出专家经验和大量试错。给大家一个直观感受:我的博士同学花了5年时间,才成功改造出一个蛋白质;而培养一位能独立改造蛋白质的专家,同样需要5年。为什么这么耗时?因为生物学是实验科学,改完氨基酸序列后,必须通过实验验证蛋白质性能是变好还是变坏,试错成本极高。
我们一直在想:能不能改变这种模式?能不能减少试错次数,只做少量实验?答案就在今天的主题——AI大模型。AI大模型能学习海量的蛋白质序列,这是单个专家难以企及的;而且它能覆盖不同领域,打破专家的知识局限。
要做AI大模型,离不开算力、算法和数据,我们先从数据入手。我们构建了蛋白质序列数据集,包含90亿条序列,比之前公开的数据库还多4倍。有了这些数据,再结合优化的算法和充足的算力,我们的模型精度在国际权威榜单上排名前二。对AI领域来说,“刷榜”很常见,但在生物学领域,模型必须能落地产业化才有意义。
我们的模型最核心的突破,就是摆脱了对专家经验的依赖,大幅减少了试错次数。比如在胰腺炎检测原材料的工具酶改造案例中,进行酶设计的是一位物理学博士,他此前没有生物学背景,也没看任何相关文献,只是把客户提供的序列输入AI大模型,就成功改造出了符合要求的酶。这在传统模式下是难以想象的——过去,一个专家可能要花5年才能完成类似的改造。
更重要的是,AI大模型能实现多指标优化。传统方法往往只能针对单个性能指标,比如耐热性,进行改造,而AI模型可以同时优化多个指标,比如既提高耐热性,又增强催化效率,这让蛋白质能更好地适应复杂的工业场景。
从实验室到生产线:AI蛋白质设计的产业化实践
光说技术突破不够,关键要看产业化成果。这里我分享几个我们的合作案例,看看AI蛋白质设计到底能解决什么问题。
第一个案例是和金赛药业的合作。金赛药业是国内生长激素龙头企业,年销售额近百亿。在生长激素的纯化过程中,需要用到一种蛋白质,但纯化工艺要在极强的碱性条件下进行——pH值高达13-14,相当于把一只虾放进去,15分钟就会像煮过一样变红。在这种环境下,蛋白质很容易失活,需要频繁更换,成本很高。
我们用AI大模型对这种蛋白质进行改造,仅花了4个月就将其耐碱性能提高了4倍,使用寿命延长了100%。仅此一项,金赛药业一年就能节省一千多万元。更重要的是,这种蛋白质已经完成了多个批次的5000升放大生产,成为全球首个实现工业化生产的大模型设计蛋白质,真正从实验室走到了生产线。
第二个案例是胰腺炎检测原材料的生产。胰腺炎检测需要一种叫“麦芽七糖苷”的原材料,过去一直依赖进口,价格高达几十万每公斤。我们和合作方一起,用生物法酶催化生成这种原材料——通过AI模型改造催化用的酶,大幅提升了它的性能。现在,这种原材料的成本降到了几万每公斤,不仅打破了进口依赖,还大大降低了检测成本。
除了这两个案例,我们的AI大模型还在多个领域落地应用。因为模型学习了90亿条不同领域的蛋白质序列,所以不像传统专家那样局限于某一细分领域,它能在创新药、工业酶制剂、合成生物学、体外诊断等多个领域发挥作用,目前已经有了不少成功案例。
我们的平台,本质上就是通过AI技术实现对不同类型蛋白质的多维度改造,让它们能适应不同的应用场景。
最后介绍一下我们公司:天鹜科技成立于2021年,是上海交通大学的成果转化项目,主营业务就是AI蛋白质设计——用AI设计蛋白质,再通过实验验证,最终应用到各个领域。目前我们已经完成三轮融资,还拿到了工信部“创客中国”AIGC专题赛全国一等奖,这个奖项是我们和不同AIGC赛道的企业PK获胜才拿到的,对我们来说是很大的肯定。