编辑丨&
蛋白质工程长期受限于低成功率与高成本,理想的蛋白质工程策略需要以最少的工作量实现最佳性能。
当前基于 AI 的蛋白质工程技术通常计算量大,因此迫切需要更易于使用且用户友好的替代方案,这些方案需要保持预测的准确性并在研究社区推广使用。
中国科学院高彩霞团队开发的 AiCE(AI-informed constraints for protein engineering)框架通过将结构和进化约束整合到通用反向折叠模型中,实现了快速高效的蛋白质进化,无需专门训练。
该研究以「Advancing proteine volution with inverse folding models integrating structural and evolutionary constraints」为题,于 2025 年 7 月 7 日刊登于《Cell》。
展开剩余83%论文链接:https://www.cell.com/cell/abstract/S0092-8674(25)00680-4
反向折叠模型
传统的蛋白质模型面临多重困境:成功率低下,迭代成本高、通用性缺失。虽然近几年来,使用深度学习模型的蛋白质工程方法取得了出色的成果,但它们通常需要大量计算资源,泛化性也相当有限。
团队注意到,广义蛋白质反向折叠模型,如 ESM-IF1 和 ProteinMPNN,是在天然蛋白质结构和序列上训练的,所以它们可以捕捉由进化动力学塑造的蛋白质序列的复杂分布模式。
鉴于此功能,可以将其直接应用反向折叠模型,而无需额外的 AI 模型训练。事实上,最近就有成果表明,简单地从反向折叠模型输出中采样就足以识别高适应度(HF)突变并实现抗体进化,但这样是否适用于更复杂的大型蛋白质,亦或者是对单一和组合突变设计的成功率仍然存疑。
团队所提出的 AiCE 模块旨在预测高适应性(HF)单个氨基酸替换,通过广泛采样逆折叠模型并结合结构约束,可大幅提高预测准确性。
图示:AiCE 作为 AI 驱动的蛋白质工程方法。(图源:论文)
AiCE 与模型架构无关,可以优化简单的蛋白质结构和复杂的功能酶。团队在八种不同的蛋白质工程任务中评估了 AiCE,实现了 11% 到 88% 的 HF 突变预测成功率。
基于这些结果,该团队又开发了一系列精确高效的碱基编辑器,包括编辑窗口更小的 enABE8e、保真度显著提高的 enSdd6-CBE 和将线粒体编辑效率提高 14.3 倍的 enDdd1-DdCBE。
成果简介
与其他方法相比,AiCE 在 60 个深度突变扫描(DMS)数据集中表现出色,其性能提高了 36% 至 90%。其在复杂蛋白质和蛋白质-核酸复合物中的有效性也得到了验证,仅结合结构约束就提高了 37% 的准确性。
在 31 个 DMS 数据集上,团队需要评估该模块是否可以仅通过反向折叠模型输出的直接采样来识别 HF 突变,而无需额外过滤。
图示:AiCE 预测各种蛋白高适应度突变的性能分析。(图源:论文)
从结果而言,预测的突变具有很高比例的积极适应度结果。在所有模型中,没有额外结构约束的 HF 突变预测的准确性为 12%,单个精度为 12%、9% 和 12%。这些结果表明,反向折叠模型可以有效地识别 HF 突变,尽管需要进一步验证。
而倘若将分析扩展到 29 个额外的 DMS 文库,最终结果证实,柔性区域的预测精度明显高于非柔性区域(<0.0001)。Logistic 回归分析进一步支持了这一趋势,表明与非灵活区域的预测相比,对灵活区域的预测被归类为 HF 的可能性高 18%(p<0.001)。
除开基础研究之外,AiCE 还在复杂蛋白质工程等领域有非常优异的发挥。
第一个实验的目标是优化 TadA8e,它的编辑窗口相对较宽,会导致非预期的旁观者编辑(bystander editing)。并且,它在某些靶位点的编辑效率有限,已被证明很难使用传统技术进行补救。
图示:评估 AiCE 在生成 HF 多突变的可解释预测方面的性能。(图源:论文)
借由 AiCE 的协助,生成了 122 个单突变,并将这些突变引入 ABE,在细胞的三个内源性靶位点对其进行了测试。HF 突变为与野生型 TadA8e 酶相比,编辑效率至少提高 10% 的突变。
实验中确定了 13 个这样的突变。其中 11 个由 AiCE 提出,顶级变体的编辑效率提高了约 47%。 AiCE-ProteinMPNN 的预测准确率最高(35%),优于其他 AI 模型。
除此之外,团队使用 AiCE 框架,成功进化出了八种具有不同结构和功能的蛋白质,包括脱氨酶、核定位序列、核酸酶和逆转录酶。这些工程化蛋白质使研究者能够创建几种下一代碱基编辑器,适用于精准医疗和分子育种。
这些包括:enABE8e,一种胞嘧啶碱基编辑器,其编辑窗口宽度减少了约 50%;enSdd6-CBE,一种腺嘌呤碱基编辑器,其准确性提高了 1.3 倍;以及 enDdd1-DdCBE,一种线粒体碱基编辑器,其活性提高了 13 倍。
精准设计的时代
AiCE 将蛋白质工程从「经验驱动」转向「数据与约束双驱动」—— 通过反向折叠模型挖掘序列 - 结构关联,最终实现从单突变到多突变的高效设计。
AiCE 代表了一种简单、高效且广泛适用的蛋白质工程策略。通过解锁现有 AI 模型的潜力,它为该领域提供了有前景的新方向,并增强了 AI 驱动的蛋白质重设计的可解释性。
研究团队开发的碱基编辑器已展现临床转化潜力,而对核酸酶、逆转录酶的改造则证明了其跨场景适用性。
未来的工作中,涉及分子动力学模拟或冷冻电镜结构分析的研究可能会带来更深入的机理见解,并有助于完善 AiCE 框架。
发布于:河北省佳成网-佳成网官网-重庆线上配资-最大的证券公司提示:文章来自网络,不代表本站观点。