近日💭,國際知名期刊《Nature Machine Intelligence》在線發表了EON体育4平台魏冬青團隊的研究論文《A transformer-based model to predict peptide–HLA class I binding and optimize mutated peptides for vaccine design》。EON体育4平台2017級博士研究生褚晏伊和香港大學深圳醫院的張艷博士為該論文的共同第一作者。EON体育4平台魏冬青教授和熊毅副研究員為該論文的共同通訊作者。
人類白細胞抗原(HLA)和肽(pHLA)之間相互作用的計算預測可以加快表位篩選和疫苗。該研究開發了TransMut框架❎🙍🏿♂️,包含了用於pHLA結合預測的TransPHLA和用於突變肽優化的AOMP程序🕟,它可以推廣到生物分子的任何結合和突變任務(圖1)。
TransPHLA設計了Transformer衍生模型來預測pHLA的結合。在pHLA結合預測、新抗原鑒定和HPV疫苗鑒定方面,TransPHLA均優於現有的14種方法。基於TransPHLA開發的AOMP程序可用於疫苗設計💍,它可以自動優化突變肽,以搜索對目標HLA具有更高親和力並與源肽具有高度同源性的突變肽。在3660個非結合pHLA中,有3630個源肽被成功突變。其中,94%通過IEDB的推薦方法得到驗證🌩,88%與源肽的同源性高於80%。
圖1.TransMut框架在webserver上的輸入和輸出
1.數據集
該研究包含112種HLA🥛,肽長度從8到14🤱🏿,共有366種HLA-肽長度組合💆🏼。詳情見圖2和圖3。
圖2.不同數據集中每個HLA相關的可結合的pHLA樣本數
圖3.不同數據集中肽長度相關的可結合的pHLA樣本數
2.TransPHLA模型
TransPHLA的核心思想是自註意力機製的應用。TransPHLA由以下四個模塊組成(圖4):首先使用embedding block將positional embedding添加到amino acid embedding中🤏🏻,以生成sequence embedding,然後應用dropout技術來增強魯棒性🕴🏻🍼。通過embedding block,TransPHLA分別生成肽和HLA的embedding。接下來,這些embedding將分別作為Encoder block的輸入。Encoder block包含masked multi-head self-attention mechanism和feature optimization block。Feature optimization block是先上升後下降的全連接層的組合🧚🏼♀️🎅,這個模塊使得註意力機製得到的特征表示更好。然後,將輸出的肽和HLA的特征表示連接,作為pHLA的embedding。在pHLA的embedding通過encoder block後,使用projection block預測pHLA的結合分數👱🏼♂️。
圖4.TransPHLA模型圖
3.TransPHLA模型解釋了pHLA結合的模式
TransPHLA的註意力機製為提供了生物學可解釋性。有證據表明,肽的C端、N端和錨定位點對於與HLA的結合至關重要👩🏻🦱,它們通常位於肽序列的第一個🐎、最後一個和第二個位置。TransPHLA的註意力分數也證實了這一點,如圖5a所示。
此外🧚🏽,EON体育4平台分析了正負樣本上的氨基酸類型分別對不同肽位置的結合和非結合的貢獻(圖5b)。可以發現,pHLA的結合和不結合受到肽的不同成分的影響。因此,EON体育4平台分析了不同肽位置的20種氨基酸對所有366種HLA-肽長度組合的結合或非結合的影響。這些結果不僅有助於人們了解pHLA結合的機製,還在AOMP程序的疫苗設計上起到關鍵作用。
由於註意力分數代表了pHLA結合的模式🧔🏼,這意味著肽序列上的關鍵氨基酸位點對於結合或不結合目標HLA很重要🍩。EON体育4平台可視化了5個HLA的結合模式(圖5c)♧。正如預期的那樣,TransPHLA在不同的肽位置發現了與先前研究相似的氨基酸類型模式🚣🏻♂️🧑🏿⚖️。對於HLA-A*11:01🕯,TransPHLA識別第9位具有K(Lys)的肽的錨定殘基。對於HLA-B*40:01,TransPHLA成功鑒定了重要的殘基🈯️,即第2位的E(Glu)和第9位的L(Leu)。對於HLA-B*57:03,疏水殘基通常形成結合口袋,TransPHLA通過第9位的L、第9位的F(Phe)和第9位的W(Trp)確定了這種偏好。對於HLA-A*68:01,4HWZ55證明肽的第9位的K和第9位的R(Arg)殘基顯著有助於結合🤦🏼♀️。對於HLA-B*44:02,第2位的E的重要性已被1M6O56證明。所有這些結果都得到了先前研究的支持,並證明了EON体育4平台方法的有效性🚶🏻♀️➡️。
圖5.(a)與所有正確預測的樣本、正確預測的正樣本和正確預測的負樣本相關聯的註意力分數 (b)肽的氨基酸類型和肽位置對pHLA結合的貢獻 (c)與5個充分表征的HLA等位基因相關的肽結合劑的累積註意力分數。註意,較亮的殘基被認為在pHLA結合中更重要。
4.AOMP程序
基於TransPHLA獲得的註意力機製,開發了AOMP程序(圖6)用於肽疫苗設計🚶♀️。當用戶提供一對源肽和目標HLA時,AOMP程序可以搜索對目標HLA具有更高親和力且不超過4個突變位置的突變肽👩🏼🍼。該程序既保證了突變肽與目標HLA的親和性🧖♂️,又保證了突變肽與源肽的同源性⤵️,從而觸發交叉免疫。
一方面,對於366種HLA-肽長度組合中的每一種,該研究為每個肽位置建立了關於20種氨基酸的結合貢獻矩陣♘。為了適應新的或未知的HLA-肽長度的組合,該研究還建立了一個通用的結合貢獻矩陣✍🏽。另一方面,在預測親和力相對較弱的pHLA時,使用TransPHLA得到的註意力分數來計算肽上每個氨基酸位點的貢獻矩陣。
根據上述兩個貢獻矩陣計算了兩個貢獻率矩陣⛹🏿,其中貢獻矩陣中的元素值越大,對相應氨基酸位點的結合或非結合越關鍵👸🏽。直觀地說🦹🏻♀️,如果氨基酸位點對預測為非結合的貢獻更大,那將它們替換為對預測為結合貢獻更大的其他氨基酸,則突變肽更有可能與目標HLA具有更高的親和力🙇🏻♀️。基於上述四個矩陣,設計了四種策略來生成突變肽(圖6),主要思想是比較源肽上對弱親和力有很大影響的氨基酸位點和目標HLA-肽長度上對高親和力有顯著影響的氨基酸位點。然後根據比較結果進行相應的氨基酸替換🪃。過程如下🥅:(1)預測源肽和目標HLA的結合分數;(2)基於self-attention機製找到一些最重要的氨基酸位點;(3)用一些可能對結合預測貢獻更大的氨基酸替換這些弱親和力pHLA的重要位點🌗;(4)選擇一些最佳突變候選者進行評估。
圖6.AOMP程序的工作流程,以肽DLLPETPW和HLA-B*51:01為例。其中,最下面兩張子圖的數字和字母🏊🏻♀️,如8I表示將上一級得到的肽的第8位氨基酸W替換為氨基酸I
5.分子動力學模擬
基於已報道的等位基因特異性HLA分子的X射線晶體結構,該研究使用分子動力學(MD)模擬方法進一步驗證了TransPHLA和AOMP程序的有效性。根據結果🖕🏽,(a)提出的TransPHLA獲得的註意力機製與pHLA復合物的結構一致,(b)TransPHLA的預測結果與MD模擬和IEDB推薦的NetMHCpan_BA方法的預測結果一致🌈。
該研究選擇HLA-A*02:01作為目標HLA分子,因為HLA-A*02:01是高頻等位基因,PDB數據庫中公開了多個肽和HLA-A*02:01的復雜結構,為MD提供了足夠的數據支持。KRAS是腫瘤發生和發展的驅動突變🏬,而且KRAS的突變位點相對保守📌,G12突變頻率占該基因所有突變的83%。G12中,G12D的突變頻率最高(41%)👩🏼🍳,其次是G12V(28%)🤦🏿♂️,G12C為14%。因此,該研究選擇了含有G12的長度為9的肽作為源肽。
對於TransPHLA預測出的不與目標HLA結合的源肽,使用AOMP生成一系列突變肽。然後,選擇只有兩個位點發生變化並預測為結合的突變肽作為MD對象。基於HLA-A*02:01(PDB:1HHK)的結構,構建了HLA-A*02:01與多肽的分子動力學模型🎇。肽包括源肽和選定的突變肽💅。分子動力學模擬的結果表明🧑🏽🦳,突變肽的結合力明顯強於源肽🖖🏿,這與TransPHLA和NetMHCpan_BA的預測結果一致🧑🏿✈️。
而且,許多研究已經證明HLA-A*02:01的關鍵結合位點是N端(即位置1或P1)🎗、第二位置(即P2)和C端(即P9)。HLA-A*02:01與長度為9的肽復合物的X射線晶體結構也表明,P2和P9錨定位點的氨基酸可以與HLA的側鏈形成氫鍵。圖7證實了所提出的TransPHLA對HLA-A*02:01和長度為9的肽的註意力機製的有效性。該圖顯示位置2的L氨基酸(2L),9L或9V是肽與HLA結合的關鍵氨基酸,與現有文獻的結果一致。此外🍨,分析源肽YKLVVVGAG和衍生自它的2個突變肽YLLVVVGAV和YLLVVVGAL。圖8和圖9分別顯示了上述3種肽和HLA-A*02:01的分子動力學模擬結果👨🏽🦳。結果證實源肽對HLA-A*02:01的親和力更弱,圖8a展示源肽與HLA沒有氫鍵相互作用,圖9a顯示源肽遠離HLA結合溝。而圖8bc和圖9bc顯示突變肽可與HLA側鏈形成多個氫鍵相互作用,促進了突變肽與HLA的結合。
圖7.TransPHLA對HLA-A*02:01和長度為9的肽的註意機製
圖8.分子動力學模擬的肽和HLA-A*02:01的2D結構。氫鍵顯示為黃色虛線
圖9.分子動力學模擬的肽和HLA-A*02:01的3D結構。(a)中的源肽鏈顯示為紫紅色卷線🧘🏼,氫鍵顯示為黃色虛線
論文鏈接💿:https://www.nature.com/articles/s42256-022-00459-7