分享一篇发表在Nature Methods上的文章,文章标题“Atomic context-conditioned protein sequence design using LigandMPNN”,文章的通讯作者是来自华盛顿大学的David Baker教授。其课题组主要从事蛋白质设计方面的工作。
蛋白质的从头设计使得创造具有新功能的蛋白质成为可能。从头设计的一个关键步骤是,根据已有的骨架信息寻找到能够折叠至该骨架并满足特定互作条件的氨基酸序列。目前已发展了ProteinMPNN,但它不适用于输入中含有其它非蛋白配体的情形。为此,本文作者发展了新的LigandMPNN模型,它通过引入配体原子的信息,实现了小分子配体、核酸配体和金属配体存在下的蛋白质设计,并显著提升了设计表现。
为了建模存在配体时的蛋白质结构,作者从以下两个方面改进ProteinMPNN。其一,构建蛋白质-配体图以捕获蛋白质和配体的互作关系。蛋白质-配体图为一张星型图(star graph),其中,中心节点表示某个蛋白质残基,而其它节点则表示与蛋白质残基CB原子最近的25个配体原子。其二,构建配体内部图以捕获配体本身的键连信息或互作信息。配体内部图为一张包含自环的完全图(complete graph),其中每个节点都是配体原子信息。于是,经过蛋白质-配体的解码器,配体内部信息和配体-蛋白质互作信息就传递到蛋白质的残基表示中,进而通过解码可得到对应的蛋白质序列。
作者随后对比了Rosetta、ProteinMPNN和LigandMPNN在不同种类配体存在时的蛋白质序列设计表现。需要指出的时,此处使用的序列恢复率(native sequence recovery)仅包含那些侧链与配体邻近的残基。在所有情形中,LigandMPNN的表现均为最优,在金属结合蛋白的设计上尤其出色。
本文作者:ZF
责任编辑:WYQ
DOI:10.1038/s41592-025-02626-1
原文链接:https://doi.org/10.1038/s41592-025-02626-1