先说几个关键判断:蛋白质工程正在经历一场底层变革,而Cradle,就是那个试图把“漫长试错”变成“快速迭代”的关键玩家。它做的事情,本质上是用AI给蛋白质设计装上了一个加速引擎。
一、Cradle是什么
Cradle这家公司,总部设在阿姆斯特丹和苏黎世,定位很清晰:一家专注于蛋白质领域的AI公司。它的核心武器,是一个“生成式+判别式”双轮驱动的蛋白质设计平台。这个平台把真实的湿实验数据和自研的大模型——也就是蛋白质语言模型加几何模型——整合到一起,帮助药企、CRO,甚至食品和农业领域的团队,把原本以“年”为单位的开发周期,压缩到“季度”级别。任何能测量的蛋白质属性,在它手上,都有望被优化到可以上市的水平。
一句话总结:Cradle想让蛋白质工程变得跟软件迭代一样快。
二、核心功能
这个平台到底能做什么?功能点其实相当清晰:
- 多属性共优化:活性、结合亲和力、特异性、稳定性、表达量、免疫原性……你可以同时定义1到10个目标函数,交给模型去平衡。
- 零门槛生成:只需要上传上一轮的实验数据,或者干脆只定义你的实验目标,它就能一键生成96、384甚至1536孔板级别的候选序列。
- 全链路追踪:从候选序列生成,到DNA订购,到实验,再到数据回传和下一轮模型更新,所有操作都在一个Web工作台上完成。
- 3D 可视化报告:每个突变在结构上的影响、模型的预测打分、甚至可开发性风险提示,都能一目了然地查看。
- 私有模型:客户的数据只用于训练专属的模型权重,不会和别的数据混在一起训练;支持SSO、SOC2、GDPR、ITAR等企业级合规要求。
- 自定义预测器(测试版):如果你有自己的内部脚本,或者想用AlphaFold2、ESM-IF1这样的公开模型,可以直接把它们拖进平台,作为额外的打分项。
三、核心优势
和传统方法相比,Cradle的优势很突出:
- 速度:客户的开发周期平均能缩短1.5到12倍,这是一个相当可观的数字。
- 成功率:在多属性同时优化的场景下,传统方法往往在2到3轮后就遇到瓶颈,而Cradle通过“模型复利”——每一轮迭代都让模型更聪明——能持续爬坡,突破平台期。
- IP安全:所有序列、数据、模型权重100%归客户所有,没有版税问题。
- 通用性:不管是抗体、酶、疫苗抗原、多肽,还是工业酶、食品蛋白,都能在这个平台上进行优化。
- 实验闭环:他们自己在阿姆斯特丹建有湿实验室,持续产出公开和私有的数据,这就保证了模型“从第一天起就是可靠的”,而不是纸上谈兵。
四、应用案例与成果
不吹不黑,看看实际拿到的成果。在去年的Adaptyv Bio全球蛋白设计赛上,目标是保持Cetuximab(一种抗体)的可开发性,同时提高它对EGFR的结合亲和力。Cradle直接做到了8倍的亲和力提升,拿了冠军。
另一个案例是T7 RNA聚合酶。只用4轮实验,就把表达量提升了300%,热稳定性Tm值提高了7°C。
产业合作方面,名单也相当有分量:
- 诺和诺德(Novo Nordisk):优化口服多肽的稳定性。
- 强生(Johnson & Johnson):做抗体的pH依赖性回收。
- IFF(国际香精香料公司):优化食品酶的耐胃酸性能。
- Corteva Catalyst的总监Eswar Narayanan甚至直接评价:“Cradle让我们的发现管线获得了难以置信的加速。”
五、平台工作流程
来看看具体怎么操作。
第一步:数据导入
数据来源很灵活,支持CSV文件、LIMS API接口、甚至Plate-reader的原始文件。系统会自动进行质量控制,评估信噪比、重复孔的变异系数(CV)和动态范围。
第二步:候选生成
生成策略很丰富,包括单点突变、组合突变、聚焦文库和全新骨架设计。同时可以施加多种约束,比如序列同源度、糖基化位点、可制造性规则和知识产权保护。最后输出的,是按照Pareto前沿排序的序列列表,附带着3D突变热图。
第三步:报告审查
每一个候选孔,都配套了预测打分、置信区间和实验可检性评分。如果看中了,一键就能导出GenBank或FASTA格式的工作列表,直接发给Twist、IDT或Genscript这样的合成公司。
第四步:实验与反馈
可以在自家实验室或找CRO完成实验。实验结果拖拽回Cradle平台,模型权重就会实时更新。关键在下一轮:模型会自动继承上一轮学到的“暗知识”,让候选序列的质量持续提升。
六、平台特色
除了基础功能,Cradle还有几个让人印象深刻的特色:
- AI迭代周期:模型每两周自动更新一次,用户完全不用操心GPU、容器环境或依赖包管理。
- 高通量湿实验室:阿姆斯特丹的实验中心,每周可以处理超过2万个蛋白质,用来支持公开数据集和内部模型的预训练。
- 开源贡献:他们正在资助构建全球最大的开源抗体数据集,反哺整个社区。
- 企业级安全:SOC 2 Type II、ISO 27001认证,支持单点登录、审计日志和端到端AES-256加密。
- 价格模式:采用SaaS订阅制,按席位加计算量计费,没有里程碑分成,也没有版税。
七、适用场景
不同领域的应用重点和成果也很明确:
- 治疗抗体:目标通常是提升亲和力和降低免疫原性。已验证结果是亲和力提升5到10倍,人源化程度提升20%,一般需要3到4轮迭代,强生就是代表客户。
- 工业酶:重点在提高温度稳定性和有机溶剂耐受性。数据表现是Tm值提升10°C,活性保持率超过90%,2到3轮就能搞定,典型客户是IFF。
- 疫苗抗原:目标是热稳定性和表达量。已验证在37°C下存放7天,活性保持率还能大于80%,一般需要2到4轮迭代。
- 多肽药物:重点是增强蛋白酶抗性和提高口服生物利用度。半衰期能提升3倍,通常3轮实验就能看到明显效果,诺和诺德是代表客户。
八、如何使用Cradle
操作流程也很清晰:
- 注册工作空间,然后上传首轮的实验数据,或者单纯把实验目标和实验方法填进去。
- 30分钟之内,就能收到一份数据质量报告和首轮候选序列。
- 接着,去订购DNA、完成实验,再把结果回传,下一轮优化就会自动启动。
- 整个过程,会有专属的科学家和机器学习工程师提供支持,团队不需要额外投入IT资源。
九、一句话总结
把Cradle看成“蛋白质版的GitHub + Copilot + CI/CD”可能最贴切。它的目标,就是让任何一种蛋白质,在消耗最少实验轮次的前提下,达到全局最优。也许,这就是“蛋白质工程2.0”真正落地的样子。
