Science| 几行深度学习代码设计蛋白质功能位点
蛋白质的结合和催化功能通常由整个蛋白质结构保持的少量功能残基介导。在这里,David Baker团队描述了在无需预先指定scaffold的折叠或二级结构的情况下搭建此类功能位点的深度学习方法。
第一种方法“受约束的幻觉”(constrained hallucination),优化序列,使其预测结构包含所需的功能位点。第二种方法“恢复”(inpainting),从功能位点开始,填充额外的序列和结构,通过经过专门训练的 RoseTTAFold 网络在单次正向传递中创建可行的蛋白质支架。 作者使用这两种方法来设计包含功能位点的:候选免疫原、受体陷阱、金属配位蛋白(Metal-coordinating proteins)、酶活性位点、蛋白结合蛋白,并结合计算机和实验测试来验证设计。
软件安装与代码使用
https://github.com/sokrypton/ColabDesign
https://github.com/RosettaCommons/RFDesign
(1) ColabDesign下载与安装
(2) 固定骨架设计(fixed backbone design)
对于给定的蛋白质骨架,生成/设计一个AlphaFold认为折叠成该构象的新序列
(3) 幻觉(hallucination)
对于给定的长度,生成/幻化AlphaFold认为折叠结构良好的蛋白质的蛋白质序列(高plddt,低pae,许多contacts)
(4) 蛋白质结合剂幻想(binder hallucination)
对于给定的蛋白质靶标和蛋白质结合剂长度,生成/幻化一个蛋白质结合剂序列AlphaFold认为将与目标蛋白结构结合,为了达到这样,最小化PAE并最大化与结合剂界面contacts数量。
您也可以重新设计现有的结合剂(binder)。
(5) 部分幻想(partial hallucination)
如果你有一个基序(结合基序或功能基序)并且你想在它周围产生一个新的scaffold,你可以使用部分幻觉(partial hallucination)。
1 蛋白质功能设计
功能位点scaffolding应用:抗体表位呈递,病毒受体陷阱,活性位点,蛋白蛋白相互作用
两种设计方法:幻想Hallucination;恢复(Inpainting)
受限幻想(Constrained hallucination),在每一步迭代,将一个序列传递给trRosetta或RoseTTAFold神经网络,该网络预测3D坐标和残基间距离和方向。预测由损失函数评分,该损失函数奖励那些预测的准确结构以及基序概括(motif recapitulation)和其它特定任务的功能。丢失信息恢复(Missing information recovery,inpainting):部分序列或结构信息输入到修改后的RoseTTAFold网络,完整的序列和结构会联合输出。
蛋白质设计挑战:缺失信息恢复问题。第一列中的问号表示缺少序列信息;第二列中灰色部分,缺少结构信息。
RFjoint可以同时恢复被掩盖的蛋白质区域的结构和序列。网络预测的蛋白质缺失区域与原始蛋白质非常相似,并且可以通过AlphaFold自信地实现。
2 设计候选免疫原和受体陷阱
免疫抗体设计的目标是尽可能准确的构建由中和抗体识别的天然表位,以便在免疫时引发与天然蛋白质结合的抗体。与抗体的额外相互作用是不可取的,因为目的是引发仅识别原始抗原的抗体,因此对于幻觉,作者添加了一个排斥损失来惩罚与scaffold表位中存在的抗体的相互作用。
作为测试案例,对呼吸道合胞病毒F蛋白(RSV-F),它有几个抗原表位,其中和抗体结构已经确定,作者搭建了RSV-F位点II,一个24个残基的螺旋-环-螺旋基序,之前已成功移植到三螺旋束上(three-helix bundle),以及一个RSV-F的位点V,一个19个残基的螺旋-环-链基序。作者用backbone的RMSD度量各种折叠方式下的两个表位,成功实现了幻想设计。
(A) RSV-F 位点 V 和 (B) 位点 II 表位支架的 RosettaFold (RF) 和 AlphaFold (AF) 模型:功能性基序以紫色突出显示,一些设计中的N端和C端被涂色为蓝色和红色,以强调幻觉可以找到不同的拓扑解决方案,尽管具有相似的整体折叠。
总体而言,这些设计为进一步开发基于RSV-F表位的疫苗提供了多种有希望的起点。
接下来,将幻觉用于受体陷阱的计算机设计,通过模拟病毒的天然结合来中和病毒,因此对突变逃逸具有内在的鲁棒性。
作为测试案例,搭建了人类血管紧张素转换酶 2 (hACE2) 的螺旋与严重急性呼吸综合征冠状病毒 2 (SARS-CoV-2) 刺突蛋白的受体结合域相互作用的支架 。幻觉的 hACE2 模拟物具有不同的螺旋拓扑结构,AF 结构预测以亚埃精度概括了结合界面。
RosettaFold (RF) 和 AlphaFold (AF) 模型:功能性基序以紫色突出显示,一些设计中的N端和C端被涂色为蓝色和红色,以强调幻觉可以找到不同的拓扑解决方案,尽管具有相似的整体折叠。
3 设计金属配位蛋白(Metal-coordinating)
作者选择了 96 个恢复设计(Inpained)进行实验测试,发现 76 个具有可溶性表达,至少 8 个具有indicative Co2+ 结合(铁结合的代表)和三个(dife_inp_1, dife_inp_2 和 dife_inp_3具有与设计折叠一致的 CD 光谱,并通过金属结合稳定。金属结合残基的突变消除了结合,dife_inp_1 的滴定分析表明,两个金属结合位点都成功搭建了支架。
4 酶活性位点设计
尽管不规则、不连续的三段位点很复杂,但幻觉能够生成具有亚埃基序,并具有正确的位置以实现Zn2+配位;它们的大小不到100个残基,比261个残基的天然蛋白小的多。
A和B使用RF对位点进行backbone描述的幻觉
C和D是使用trRosetta增强的AF2对位点进行侧链描述的幻觉
5 设计蛋白结合蛋白(protein-binding proteins)
设计包含自然复合物衍生的结合基序的靶标结合界面,靶标是蓝色,自然scaffold为黄色或粉红色,自然基序为橙色,设计的scaffolds为灰色,设计基序为紫色。作者成功设计了蛋白结合蛋白。
(A) HAC PD-1与PD-L1复合物晶体结构。(B)叠合在PD-1界面基序上的恢复(inpainted)的PD-L1结合剂
与将backbone生成和序列设计视为两个独立问题的经典蛋白质设计流程不同,作者利用RoseTTAFold推理和联合优化这两种数据类型的能力,同时生成序列和结构。
这使得能够生成具有能够承载所需位点的几何形状的蛋白质骨架和编码这些骨架的序列方面具有出色的性能。作者的幻觉和恢复骨架方法比PDB或AF预测数据库中的任何天然蛋白质能更准确地容纳所有测试的功能位点。
讨论
scaffolding功能位点输入除了所需功能位点的结构和序列之外,(1) 不需要输入其它信息(之前的方法需要制定scaffold的二级结构和拓扑结构),(2) 同时可以生成序列和结构。
(3) 该方法利用RoseTTAFold在整个PDB上的训练来生成几乎无限多样性的新结构 (4)并能够scaffolding任何所需的功能残基群(constellation of functional residues)。(5) 设计任何长度的序列而无需重新训练。
恢复方法(Inpainting)从给定的功能位点扩展以生成连续的序列-结构对的能力应该在蛋白质设计中会得到广泛的应用,因为它具有更快的速度和通用性。
这两种方法(幻想和恢复)单独以及两者的结合可以更准确的蛋白质结构、蛋白质界面和小分子结合蛋白质预测。