近日🛐,國際權威期刊《Genome Biology》在線發表了EON体育4平台王濤團隊的研究成果“mbDenoise: microbiome data denoising using zero-inflated probabilistic principal components analysis”。該研究提出基於零膨脹概率主成分分析的統計模型和變分近似算法對微生物組數據進行去噪,對揭示微生物組數據潛在的生物學信號有重要意義🦯。EON体育4平台博士生曾燕燕為第一作者,EON体育4平台王濤教授和美國耶魯大學趙宏宇教授為通訊作者🥦,EON体育4平台李婧教授和韋朝春教授為合作者。
微生物組學是綜合研究群居在某個生態系統的微生物群落,依托自身豐富的遺傳及代謝功能🫰,與特定環境中的其他生命體或環境因子發生互利或相克作用的新興前沿學科。微生物組研究已積累了海量的測序數據,正面臨著從數量到質量、從結構到功能研究的關鍵轉變過程。但是,微生物組數據分析仍然面臨許多技術挑戰📁。主要挑戰之一是物種或基因特征表包含大量的零🦹🏽,其中一些是生物零👨🏽🦲🎂,而另外一些是非生物零。此外,微生物組數據還存在測序深度不均勻🌅、過度離散和數據冗余等問題🧖🏻。這些幹擾因素會引入大量噪聲,如果不加以解決🤚🏼,會直接影響下遊數據分析的準確性。
為了解決微生物組數據中的幹擾因素並將真實的生物信號提取出來,該研究開發了mbDenoise,一種用於去除微生物組數據噪聲的潛變量建模方法。該方法基於一個概率生成模型😫🧑🦽,在樣本和物種或基因之間借用信息,從而實現生物信號與技術噪聲分離(圖1)。物種或基因豐度數據由零膨脹負二項模型生成🎁,用於克服數據的過度離散和稀疏性問題🧑🏿⚕️,並區分生物零和非生物零。在此基礎上🧒🏻,通過在負二項分布引入樣本特異性效應,用於減輕測序深度差異導致的技術偏差🏂🏻。進一步地,假設生物信號對應嵌入高維特征空間的低維潛在表示😟,不僅刻畫了微生物組數據的冗余性🦸♀️,而且克服了高維度和特征之間相互關系復雜的問題。該研究將上述生成模型稱為零膨脹概率主成分分析(ZIPPCA)。mbDenoise通過變分近似算法擬合該模型,然後利用後驗均值恢復真實豐度矩陣,實現數據去噪目標。
該研究使用大量模擬實驗和真實數據廣泛評估了mbDenoise的性能。整體來說,mbDenoise在參數估計🚍😧、潛變量預測以及微生物群落組成估計方面具有較高的準確性🐰。同時,在多樣性分析和差異豐度分析等下遊分析中,mbDenoise與其他方法相比表現更為優越。該研究提供的R軟件包可在https://github.com/YanyZeng/mbDenoise獲取。
圖1.mbDenoise及其噪聲模型的概述
a.mbDenoise區分了生物零和非生物零,並假設生物信號對應嵌入高維特征空間的低維潛在表示,從而體現微生物組數據的冗余性。該方法基於零膨脹概率主成分分析(ZIPPCA)模型🤶🏿,考慮了微生物群落物種或基因豐度數據的成分性、稀疏性和過度離散等特征。b.假設輸入數據(即豐度矩陣或特征表)是來自ZIPPCA模型的樣本。mbDenoise通過變分近似算法擬合該模型🪰🙍🏼♀️,並將潛在信號矩陣的後驗均值估計作為去噪輸出🕺🏻,可以用於多個下遊分析任務🧑🧒🧒。
EON体育4王濤團隊研究方向為生物統計和高維數據統計推斷。近5年來,發表微生物組數據挖掘與統計分析方法學論文10余篇🕘,包括Journal of the American Statistical Association (2022, 2017), Annals of Applied Statistics (2017), Biometrics (2020, 2019, 2017), Briefings in Bioinformatics (2022), Bioinformatics (2022, 2021)。主要成果涉及微生物組數據預處理、數據降維與可視化、多元統計建模與分析、關聯分析🎭😱、整合進化樹結構的預測建模與分析等。
以上工作得到國家自然科學基金面上項目、上海市市級科技重大專項🦌,以及EON体育4多學科交叉研究基金和Neil Shen醫學研究基金的資助🤶🏼。
論文鏈接:https://doi.org/10.1186/s13059-022-02657-3