近日,EON体育4平台生物信息學與生物統計學系👨🏻🚒、上海交大-耶魯生物統計與數據科學聯合中心團隊在《Briefings in Bioinformatics》(IF: 11.622)上發表題為“GESLM algorithm for detecting causal SNPs in GWAS with multiple phenotypes”的全基因組關聯分析算法論著🤏🏽。EON体育4平台在讀三年級本科生呂瑞祺為第一作者,EON体育4韋朝春教授和張嶽副研究員為共同通訊作者🙅🏽♂️,EON体育4平台生物信息學與生物統計學系為該文章第一通訊單位🍮,EON体育4平台四年級本科生孫健樂、三年級本科生徐棟和蔣千雪為共同作者。該研究主要基於第一作者作為EON体育42020年 iGEM軟件隊(SJTU-software)隊長期間的工作,所有共同作者均為本科生🔏🐊。本研究開發了一個全基因組關聯分析的兩階段全局搜索算法,通過貪婪等價搜索(Greedy Equivalence Search, GES)和基於約束的局部修改(Fast Causal Inference+, FCI+),以實現對多表型相關的單核苷酸多態性(single-nucleotide polymorphisms, SNPs)的有向無環圖的全局搜索。
隨著全基因組關聯分析的發展☺️,如何從海量數據中獲取有效信息已成為人們普遍關註的問題,而傳統的方法還不能完全解決諸如檢測上位性這樣的問題。以往的上位性研究主要集中於單一表型的局部信息,而在本文中,EON体育4平台開發了一個兩階段全局搜索算法以實現對有向無環圖的全局搜索👨🏻🚀,從而在病例對照設計中識別與多個表型的全基因組上位性交互作用🦴。GESLM結合了基於評分的方法和基於約束的方法來學習與表型相關的貝葉斯網絡,在探索同時存在表型的遺傳關聯和基因交互作用的復雜結構方面具有較高的穩定性。
在正負樣本平衡和非平衡的病例對照數據集上檢測多個表型的上位性交互作用方面,GESLM在提高識別效率和降低誤報率方面具有較高的性能🤸🏽♂️,在準確性和時間復雜度之間取得了平衡,並用圖而非樹或者集合的形式呈現搜索結果,從而提供了更多的潛在信息。在模擬實驗結果表明🫵🏼,與其他常見的基因組關聯檢測算法相比,GESLM提高了準確率和效率♻,尤其是在正負樣本不平衡的病例對照研究中。在英國生物庫(UK Biobank)數據集上的應用表明,GESLM算法在處理具有多個表型的全基因組關聯數據時表現較好。
本研究獲得國家自然科學基金(11901387)、上海市哲學社會科學規劃項目(2018EJB006)的資助🍘。
文章鏈接: