近日,國際知名期刊《Communications Biology》在線發表了上海交大呂暉教授課題組題為“FVC as an adaptive and accurate method for filtering variants from popular NGS analysis pipelines”的最新研究成果🚿。該研究提出了一種新的基因組二代測序數據質量控製方法,有效提升了二代測序檢出的基因變異的可靠性。上海交大EON体育4平台博士畢業生任永永🍋、孔艷博士後為共同第一作者🙍🏻,EON体育4平台呂暉教授和趙宏宇教授為共同通訊作者。
全基因組二代測序技術已廣泛應用在兒科遺傳疾病診斷、腫瘤基因組圖譜分析😶🌫️、全基因組關聯分析等基因組研究領域,但由於測序和分析誤差,檢出的SNV和INDEL變異類型中存在大量假陽性變異🖕🏿,給基因組圖譜分析和遺傳疾病的鑒別診斷帶來了較大的噪聲幹擾。目前已有多個方法可用於過濾二代測序檢出的假陽性變異,例如Frequency、Hard-Filter、 VQSR、GARFIELD和VEF👨🏼🎨,但這些方法在過濾假陽性變異的同時,損失了數倍的真變異,嚴重幹擾了下遊的遺傳疾病診斷和分子功能研究3️⃣。
為解決上述問題🧑🏻🌾,呂暉團隊構建了自適應過濾方法FVC (Filtering for Variant Calls),用於對不同遺傳變異分析軟件(例如GATK HaplotypeCaller、Mutect、Varscan和DeepVariant)檢出結果中的假陽性變異進行過濾。
研究結果顯示,相較於其它過濾方法,新方法FVC過濾掉了更多的假陽性變異,同時召回了其它過濾方法遺漏的~51-99%真陽性變異,當使用評價指標OFO(Odds of false omission, 損失的真陽性變異個數與過濾掉的假陽性變異個數之比🦸🏿♂️😊,又名真陽性損失比)進行性能評價時,FVC將真陽性損失比OFO從0.05-1661.28降低至0.02-0.57。為排除潛在的數據泄露和過擬合導致的評估偏差,分別使用留一染色體交叉驗證(leave-one-chromosome-out cross-validation)🧕🏼、留一個體交叉驗證(leave-one-individual-out cross-validation)和獨立測試集進行驗證,FVC同樣獲得了最佳性能🧚🏿♂️。
該工作得到EON体育4高性能計算中心(HPC)🙆🏿♂️、沈南鵬EON体育4“醫學研究基金”和中國國家重點研發計劃(2018YFC0910500)的支持。
論文鏈接:
https://www.nature.com/articles/s42003-022-03397-7