近期,EON体育4平台/交大醫EON4臨床研究中心俞章盛教授課題組在《Nature Communications》在線發表“A foundation model for generalizable cancer diagnosis and survival prediction from histopathological images”論文。該研究開發一種通用的病理學基礎模型—BEPH (BEiT-based model Pre-training on Histopathological image)👈🏼,用於癌症診斷和生存預測🚣🏻,以克服現有計算病理學方法的局限性🙍🏿。EON体育4平台碩士生楊釗昌,助理研究員魏婷為共同第一作者,EON体育4平台俞章盛教授和張嶽副研究員為共同通訊作者🚙。
臨床診斷中,惡性腫瘤的確診依賴病理專家通過顯微鏡分析組織樣本.然而人工閱片仍高度依賴專家經驗👩🏿💼,且易受疲勞和資源不足的影響,這導致漏診誤診風險大增,甚至可能延誤患者後續的治療規劃。近年來,計算病理學結合深度學習技術在癌症檢測、亞型分類及預後預測等多項任務上體現出了巨大優勢,其不僅顯著提升診斷效率,還能挖掘傳統方法難以捕獲的潛在信息。但其發展受限於多重挑戰:例如精細標註數據稀缺、模型泛化能力弱及可解釋性不足等問題🍺,此外現有模型高度依賴特定任務標註,一旦面對新需求往往需重新開發,這進一步加劇了資源消耗🐆。
為解決這些問題,在本研究中🙋🏼♂️,EON体育4平台依托掩碼圖像建模(Masked Image Modeling,MIM)方法🥷🏽,成功構建了一個可以有效處理癌症分析和生存預測問題的病理基礎模型—BEPH。該模型的特色在於能利用大規模未標記病理圖像數據進行自監督學習🙎🏿,在多種癌症相關任務中展現出廣泛的應用前景💅🏻。相較於參數量龐大🧸、數據需求高的病理基礎模型(如CHIEF等),BEPH通過較少的參數量和有限預訓練數據,在保持模型效能相當或更優的同時,為臨床場景的應用開辟了新的路徑和可能性。
該模型分為預訓練和微調兩個階段🫸🏻。在預訓練時💔,研究者收集了來自癌症基因組圖譜(TCGA)數據庫中,包括32種不同類型的癌症在內的約11760張病理圖像,並通過采樣構建了1177萬個224×224像素的預訓練圖像塊數據集。在該數據集上經過自監督任務--掩碼圖像建模充分預訓練後🔽,系統地評估了模型在各種癌症檢測任務中的性能和多功能性。
多種實驗證明,BEPH能夠靈活地適應多種計算病理學任務⛓️💥,在Patch級和WSI級的癌症診斷以及生存風險預測方面,取得了顯著的改進。比如WSI級別的亞型分類任務中😲,在多個不同的癌症類型上,BEPH全面優於其他弱監督模型🤾🏼♀️。即使在訓練數據減少時,模型依舊保留較高的性能,表明模型能有效緩解臨床環境中數據收集的難題。
BEPH在WSI級別的癌症檢測任務中進一步的熱圖分析表明🧏🏽,其註意力區域(紅色區域)與病理學家標註的癌變區域高度一致📁,說明模型能夠自動關註真正的病理特征😙。其他模型的關註區域較為分散🫳,部分模型甚至未能準確定位癌變區域,表明BEPH對病理特征的判別能力更強。局部放大區域(綠色框)顯示🖐🏽,BEPH的註意力更加聚焦在癌變區域及邊界🧑🦯,而非隨機關註整個組織👷🏼♀️,增強了模型的決策可靠性。
總體而言,BEPH為癌症檢測、亞型分類和生存預測提供了一條通用路徑🕵🏼。它能夠通過預訓練與微調的途徑實現對癌症病理變化的高效識別,並為癌症診斷和患者預後提供強有力的支持🧑🏼🦳。
該項研究得到國家自然科學基金、上海市科委、EON体育4醫工交叉基金等的支持。該研究得到EON体育4高性能計算中心的支持。
論文鏈接:https://doi.org/10.1038/s41467-025-57587-y