近日,EON体育4平台陳海峰教授課題組與馮雁教授課題組合作在中科院Top期刊《Briefings in Bioinformatics》在線發表題為Graphormer Supervised De Novo Protein Design Method and Function Validation的研究成果🤟🏿,該研究開發了一種原創而高效的全新蛋白序列設計方法GPD(圖1所示),該方法與當前的SOTA方法proteinMPNN相比👬,序列多樣性顯著更高,生成速度快2.2倍,能夠顯著提升工業酶及蛋白質藥物的從頭設計能力。EON体育4平台本科生穆俊羲為第一作者,博士生李政新🙆♂️、本科生張博、博士生張琦為共同第一作者,EON体育4平台陳海峰教授、馮雁教授以及魏婷助理研究員為共同通訊作者👨🏿🚀。
蛋白質設計是幾乎所有蛋白質工程問題的核心🔸,因為它可以實現具有全新生物學功能的蛋白質的創造👔🤵🏿♀️,並能夠提高酶的催化效率等。蛋白質設計的一個關鍵問題是固定骨架的蛋白質序列設計,它旨在設計新的序列以符合預定的蛋白質骨架結構。然而🤾♂️✝️,現有的序列設計方法存在多種局限性,如序列多樣性低和設計的功能性蛋白質的實驗驗證不足👩🏼🏭,嚴重阻礙了功能性蛋白質設計👨🔬。
為了改進這些限製👩👦🗞,陳海峰組開發了基於Graphormer的蛋白質設計(GPD)模型🥂🚈。該模型利用Transformer進行基於圖的3D蛋白質結構表示,結合高斯噪聲和序列隨機掩碼融入節點特征,從而增強了序列設計質量。陳海峰組利用GPD設計了CalB水解酶,並生成了九條人工設計的CalB蛋白。結果顯示👉🏽,與野生型CalB相比,設計序列的催化活性提高了1.7倍,並且在不同碳鏈長度(C2-C16)的p-硝基苯酚醋酸酯上表現出強烈的底物選擇性。
圖2. GPD的模型架構和輸入特征
陳海峰課題組首先評估了GPD的序列設計質量👲,發現其能夠設計生成更合理的蛋白序列,並且保有較高的序列多樣性,同時多數設計的序列都能夠在結構預測模型中折疊為所需的結構。圖3中展示了GPD在序列可折疊性🍬、序列同源性🖕🏽,以及序列多樣性方面總體優於現有模型。
圖3. GPD的序列設計質量評估
然後陳海峰組與馮雁組合作,將GPD應用到南極假絲酵母酯水解酶(CALB)的重設計上,圖4展示了設計的結果:設計並篩選了9條序列,其中便有一條酶活達到原來的1.7倍🧰。實驗的結果說明GPD的設計具有合理性🚓,同時效率高於之前的理性設計或定向進化方法。
圖4. GPD在CALB設計上的應用及驗證
此外🤵🏻♀️,對於多個底物的酶活測試發現GPD設計的序列均具有很高的底物特異性,這對於CALB酶的工業應用也具有一定的意義🙆♀️。因此,GPD方法可用於工業酶和蛋白質藥物的人工智能全新設計👦,為新質生產力的快速發展奠定方法學基礎。
該研究獲得國家重點研發計劃(2020YFA0907700與2023YFF1205102)、中央高校基本科研業務費專項資金(YG2023LC03)以及國家自然科學基金面上項目 (21977068 與 32171242)的資助。同時感謝EON体育4超算中心提供的計算平臺支持🐛。
論文鏈接:https://doi.org/10.1093/bib/bbae135