組織病理學的生存模型綜述: 使用影像圖片資料預測患者結果的機器學習技術

組織病理學影象的機器學習演算法正變得越來越複雜。從檢測和分類細胞和組織,到預測生物標誌物和患者預後。任務的複雜程度依賴於病理學家對組織中特定特徵的註釋。但生物標記物和結果更為複雜。演算法必須在沒有任何組織的區域或其外觀特徵是重要的先驗知識的情況下解碼大型的整個影象影象。

使用癌症分期,分子特徵或臨床變數已經可以完成風險分層。然而,改善預後見解是研究的活躍領域。預後指的是患者接受標準治療後可能發生的結果,例如患者腫瘤復發,發生遠處轉移或死亡的可能性。

無論目標是什麼,建立這種演算法的挑戰都是相似的。 H&E整個影象影象很大,並且組織外觀也多種多樣。與查詢有絲分裂或分割組織型別的方法不同,病理學家無法註釋組織的哪些區域與患者的預後相關-至少沒有很高的確定性。

腫瘤分級是衡量細胞外觀的指標,但並不總是衡量預後的良好指標。病理學家對分級的觀察也具有很高的觀察者間差異。

結果預測模型的目標是根據風險對患者進行分層。本文將概述使用深度學習的組織病理學影象結果預測模型的關鍵組成部分。我將概述為模型選擇影象切片的策略,用於生存模型最佳化的損失函式選項,用於彙總影象切片以形成整個影象的預測的技術以及一些有趣的模型擴充套件。

選擇影象切片

在10億畫素的完整影象上訓練深度學習模型的第一個挑戰是,影象太大,無法在GPU上容納,這使得端到端的訓練不可能。患者級生存時間適用於整個影象(或多個影象)。雖然病理學家可以在載玻片上標註腫瘤區域,但他們不能準確地識別哪些切片對模型有用——這是模型的工作。一些研究需要病理學家對腫瘤區域進行註釋,而深度學習模型只使用這些區域。其他人訓練一個CNN模型來區分腫瘤和非腫瘤,然後只使用腫瘤區域作為生存模型。還有一些包括模型中的所有組織區域。本節概述這些策略。

隨機的切片

Zhu等人讓病理學家對每個腫瘤內的影象區域進行註釋。然後,他們從每個ROI中隨機抽取一個大的切片,訓練一個CNN生存模型[Zhu2016]。Wulczyn等人也隨機取樣貼片來訓練他們的模型[Wulczyn2020]。

預測切片

其他方法識別最有預測性的切片,而不是隨機的切片樣本。Courtiol等人訓練了CNN來預測每個影象切片的風險[Courtiol2019]。然後,該模型為每個患者選擇得分最高和最低的切片來訓練最終的生存模型。

檢查最高和最低的生存切片是特別有見地的。Courtiol等人發現生存期較差的斑塊主要位於基質區域,並且病理學家確定了它們的共同特徵。

切片聚類

在隨後的工作中,Zhu等人。 在訓練集中的所有影象上聚集影象切片[Zhu2017]。 然後,他們為每個群集訓練了一個單獨的CNN生存模型。 預測能力差的被丟棄。 其餘群集模型中的功能彙總在每個群集的切片程式中。 然後,另一個生存模型使用線性生存模型將彙總的特徵轉換為風險預測。

Yue等人對切片的全域性聚類採取了相同的方法,並分別為每個聚類訓練生存模型[Yue2019]。只選取被確定為有判別性的聚類,他們計算出一個歸一化的斑塊預測直方圖,並使用支援向量機學習聚類級別的預測。

Muhammad等人同時透過一個生存模型學習了影象切片的全域性聚類,該生存模型用每個聚類中的一個影象切片代表每張影象[Muhammad2021]。

Yao等人將每個患者的影象切片聚類,使他們能夠選擇一個具有不同外觀的切片子集[Yao2020]。

聚類影象切片也可以實現組織的空間排列。Abbet等人對影象切片進行聚類,計算每幅影象的特徵向量作為聚類機率和聚類轉移機率[Abbet2020]。根據這些特徵,他們訓練出了一個線性生存模型。這些可解釋的特徵確定了與較差或較好的結果相關的組織相互作用。

組織分割

其他技術將高階知識帶入了模型訓練中,尤其是影象中存在的組織型別。 病理學家或機器學習模型都可以將組織劃分為一組類別,以便可以對每個類別進行適當建模。

Yamashita 等人 將影象切片分類為腫瘤還是非腫瘤,並選擇最有可能是腫瘤的100個切片[Yamashita2021]。 然後僅在這些切片上訓練他們的生存模型。

克利莫夫(Klimov)等人。 還訓練了CNN模型將影象分割成組織類別。 癌症和間質斑塊用於訓練CNN以預測轉移風險[Klimov2021]。

更廣泛的分割任務也有助於生存預測。 凱瑟等。 分割了9種組織型別,併為每種組織訓練了生存模型[Kather2019]。 他們選擇了具有較高危險比的那些,並在結合CNN功能時按此比率對其進行加權。

深度基質評分作為組織型別特徵加權總和計算,最能預測患者預後[Kather2019]

另外,組織分割可以用來計算更多可解釋的特徵,用於生存預測。Wang等人識別了淋巴結區域和腫瘤區域,然後根據兩個組織區域的比例預測患者的風險[Wang2021]。

組織分割可以讓模型只關注特定的組織型別。Bhargava等人計算了手工製作的腫瘤間質特徵,以捕獲其形態[Bhargava2020]。其特徵包括基質的結構、核的連通性、核的形狀和方向。這個特徵集使他們能夠成功地預測非裔美國人的結果;這些特徵對白種人的預後預測能力較低。可解釋的特徵是理解他們的模型的關鍵,並強調了基質形態的重要性。

指標和損失函式

上一節討論瞭如何選擇用於建模的影象切片。下一個挑戰是為事件發生時間資料建立一個模型,其中一些患者沒有觀察到事件。它不像二進位制分類那麼簡單。到研究結束時患者可能尚未死亡,或者在研究過程中可能失去了隨訪的機會。這些觀察稱為 right-censored。

讓我們將Ti定義為患者i的事件發生時間,將Ei定義為事件度量。如果Ei為1,則事件(例如死亡)發生在時間Ti。如果Ei為0,那麼Ti是最後一次與患者接觸的時間-他們是right-censored。

Cox風險比例

最常見的生存建模方法是Cox比例風險(CPH)模型。

我們將生存函式定義為t時刻患者生存的比例:

則在時間t的瞬時死亡機率為

CPH函式對一組協變數x的效果進行建模:

其中λ₀(t)是基準風險函式,h(x)是風險函式。線上性CPH模型中,風險函式為hᵦ(x)=βᵀx,在給出這些協變數的情況下,可以預測特定患者的相對風險。透過最大化可能性(或等效地,部分對數可能性)來完成此類模型的訓練。

一些將生存模型應用於組織學的早期工作使用手工製作的特徵作為協變數。深度學習模型透過應用一組非線性運算來使用相同的公式,以針對一組網路權重產生輸出hᵩ(x)。

深度生存模型的首次嘗試使用了專家選擇的少量功能,以根據臨床變數預測心臟病發作的風險,並根據基因和蛋白質表達預測乳腺癌的風險[Katzman2018]。為了將此模型應用於組織學影象,將CPH損失功能放置在CNN的頂部。

CPH模型的缺點之一是它不可分離。在模型訓練的每次迭代期間,透過比較當前批次中患者的相對風險來估計其值。

生存損失的替代

對於CPH丟失,有幾種替代方法仍然可以保留生存資料的審查性質。 Meier等人實驗了基於一致性的Uno損失,以及將右偏態和失穩生存資料與非引數測試進行比較的logrank損失[Meier2020]。他們比較了CPH損失和一個二分類模型。所有三個風險評分形成了比二元分類器更好的風險熱圖。Uno和logrank在數量上優於CPH。

另一種利用生存時間和審查觀測的方法是將資料轉換為多工模型[Li2016, Fotso2018, Vale-Silva2020]。時間軸被分成多個間隔,每個間隔應用一個二元分類器來預測患者是否存活到那個時間點。通常,會新增一些額外的約束,以確保對特定患者的預測在時間間隔內不會增加和平穩。其他離散時間生存模型已經被提出用於資料的其他形式[Gensheimer2019, Zhong2019a]。

Wulczyn等人比較了c指數的指數下界CPH和使用交叉熵的多工分類,發現後者的效果最好[Wulczyn2020]。

Muhammad發現,將CPH缺失與二值分類術語相結合,可以更好地將患者劃分為高風險和低風險患者,並且極大地改善了測試集的結果[Muhammad2021]。

Shirazi等人採用了相關的方法,將時間軸分為4類:0-6個月、6-12個月、12-24個月和>24個月[Shirazi2020]。他們的模型在治療膠質母細胞瘤方面取得了巨大的成功,但也顯示了對整個影象影象進行訓練的一些挑戰。每個患者的生存時間應用於玻片中的每個切片。

從切片到影象

無論選擇何種損失函式,以及選擇何種影象切片進行建模,它們都必須組合成對患者的單一風險預測。最簡單的方法是獨立地訓練一個模型的影象切片,並對每個患者的所有切片產生平均分數。然而,在最終預測之前整合切片特徵的模型通常會被發現更優。

本節將概述一些在整個影象的生存模型中使用的弱監督學習方法。可以採用其他監督能力較弱或多例項學習的方法。

獨立的切片

對整個影象影象最簡單的方法是獨立地在影象切片上訓練模型。Meier等人對來自組織微陣列的160 × 160畫素影象塊訓練CNN,同時對IHC和H&E進行實驗[Meier2020]。Shirazi等人也獨立地對切片進行訓練,但對切片預測進行了多數投票[Shirazi2020]。

切片功能聚合

Wulczyn等人並沒有聚合**切片預測,而是聚合了切片特徵[Wulczyn2020]。在應用生存模型之前,他們計算了每個病人所有補丁上每個特徵的平均值。

Yao等人首先對每個患者的影象貼片進行聚類,然後將CNN應用到每個貼片上,並使用注意模型在叢集中聚合[Yao2020]。自注意機制為每個特徵向量學習一個權值,並計算一個加權和。他們在上面應用了一個完全連線的層,然後是生存模型。

作為處理同一張圖片中的多個斑塊的另一種方法,Bychkov等人將遞迴神經網路應用於從組織微陣列核心影象斑塊中提取的CNN特徵[Bychkov2018]。

其他模型的擴充套件

對於上述生存建模方法還有多種擴充套件。

以上用於整個影象的應用程式都在某種程度上使用了CNN來建模影象。Chen等人也使用了圖卷積網路,透過連線核形成圖來提取拓撲結構[Chen2020]。Li等人用圖形CNN建模組織拓撲[Li2018]。

Lu等人關注的是細胞形態,而不是組織拓撲結構[Lu2020]。他們開發了一種細胞多樣性的描述符,並發現它可以預測患者的預後。

多通道模型

其他模式如臨床資料、基因組學和蛋白質組學也可用於生存模型。Vale-Silva等人訓練了一個融合多種資料模式的模型,但發現與只使用臨床特徵的模型相比,組織學並沒有改善該模型[Vale-Silva2020]。Zhong等人也研究了成像和基因表達特徵[Zhong2019b]。他們發現,在基因表達的條件下,組織學特徵對預後的影響有限;然而,它們的影象特徵僅限於手工製作的形態學特徵。

Hao等人還試驗了整個影象和基因組資料的組合,發現該模型優於僅使用單一模式的模型[Hao2020]。Chen等人也得出了類似的結論[Chen2020]。他們測試了多種建模策略:基因組特徵和整個影象,CNN和圖表CNN模型的組織學。

目前的共識似乎是,以組織學為基礎的特徵可以促進使用基因組或臨床變數的生存模式。然而,成功可能取決於所使用的影象特徵、模型型別和資料集,以及其他因素。

Pan-Cancer建模

生存模式也同時適用於多種型別的癌症。wulczynn等人訓練了10種癌症型別的生存模型,並評估了他們的模型在每種癌症型別中的預測能力[Wulczyn2020]。Vale-Silva等人訓練了橫跨33種癌症型別的泛癌症和多模態模型[Vale-Silva2020]。

總結和建議

上面的一些方法使用了一個從零開始訓練的小CNN。另一些則將遷移學習應用於更大的CNN架構,如VGG、ResNet或googlenet。如果有足夠的訓練資料和計算能力,較大的架構通常更優越。

以上討論的建模方法都捕捉了腫瘤形態學的不同視角。我還沒有在最佳方法上達成共識。每一個對影響患者結果的因素都提供了不同的見解。

從整個影象中建模患者的結果比弱監督學習要複雜得多。解釋影響結果好壞的因素對於提高我們對癌症的認識也至關重要。

可解釋的模型已經揭示了一些重要的見解,而消除組織型別的歧義是成功的關鍵。組織型別面積比[Wang2021]和連通性[Abbet2020]會影響最終的預測結果。與腫瘤本身相比,腫瘤內基質的形態可能是更強的預後指標[Beck2011,Bhargava2020]。

Bhargava等人甚至表明,在一組患者身上成功的建模方法可能在另一組患者身上行不通[Bhargava2020]。雖然這確定了一個成功的生存模型的機會,它也證明了評估模型概括性的重要性。

在開發新模型時,瞭解哪些因素已經與所研究的癌症型別的結果相關可能是至關重要的。

另外,對整個影象應用弱監督模型可能會發現尚未與預後相關的組織屬性。但是,要使一個成功的模型轉化為新的見解,一些解釋方法是必不可少的。

適應生存資料正確檢查性質的損失函式的效能優於單個二進位制分類器。但是,結合了多個二進位制分類器或生存損失與二進位制分類器的多工方法可能會產生更好的風險分層。。

生存建模的新前沿包括多模態和泛癌症方法。

目前模型的最大侷限性可能是訓練資料量太小。隨著向數字病理學的過渡的進展和新的合作的建立,更大的訓練集將變得可用。當資料隱私是一個問題時,聯邦學習可以處理位於不同中心的資料集[Andreux2020]。

基於組織學影象的預後模型剛剛開始顯示其潛力。但它可能需要更大的資料集,才能在這些10億畫素的影象中找到最具有預測性的模式。

引用

以下是上面提到所有論文的名稱,需要的請自行搜尋

[Abbet2020] C。 Abbet, I。 Zlobec, B。 Bozorgtabar, J。P。 Thiran, Divide-and-Rule: Self-Supervised Learning for Survival Analysis in Colorectal Cancer (2020), International Conference on Medical Image Computing and Computer-Assisted Intervention

[Andreux2020] M。 Andreux, A。 Manoel, R。 Menuet, C。 Saillard, C。 Simpson, Federated Survival Analysis with Discrete-Time Cox Models (2020), arXiv preprint arXiv:2006。08997

[Beck2011] A。H。 Beck, A。R。 Sangoi, S。 Leung, R。J。 Marinelli, T。O。 Nielsen, M。J。 Van De Vijver, R。B。 West, M。 Van De Rijn, D。 Koller, Systematic analysis of breast cancer morphology uncovers stromal features associated with survival (2011), Science Translational Medicine

[Bhargava2020] H。K。 Bhargava, P。 Leo, R。 Elliott, A。 Janowczyk, J。 Whitney, S。 Gupta, P。 Fu, K。 Yamoah, F。 Khani, B。D。 Robinson, T。R。 Rebbeck, Computationally derived image signature of stromal morphology is prognostic of prostate cancer recurrence following prostatectomy in African American patients (2020), Clinical Cancer Research

[Bychkov2018] D。 Bychkov, N。 Linder, R。 Turkki, S。 Nordling, P。E。 Kovanen, C。 Verrill, M。 Walliander, M。 Lundin, C。 Haglund, J。 Lundin, Deep learning based tissue analysis predicts outcome in colorectal cancer (2018), Scientific Reports

[Chen2020] R。J。 Chen, M。Y。 Lu, J。 Wang, D。F。K。 Williamson, S。J。 Rodig, N。I。 Linderman, F。 Mahmood, Pathomic Fusion: An Integrated Framework for Fusing Histopathology and Genomic Features for Cancer Diagnosis and Prognosis (2020), IEEE Transactions on Medical Imaging

[Courtiol2019] P。 Courtiol, C。 Maussion, M。 Moarii, E。 Pronier, S。 Pilcer, M。 Sefta, P。 Manceron, S。 Toldo, M。 Zaslavskiy, N。 Le Stang, N。 Girard, Deep learning-based classification of mesothelioma improves prediction of patient outcome (2019), Nature Medicine

[Fotso2018] S。 Fotso, Deep neural networks for survival analysis based on a multi-task framework (2018), arXiv preprint arXiv:1801。05512

[Gensheimer2019] M。F。 Gensheimer, B。 Narasimhan, A scalable discrete-time survival model for neural networks (2019), PeerJ

[Hao2020] J。 Hao, S。C。 Kosaraju, N。Z。 Tsaku, D。H。 Song, M。 Kang, PAGE-Net: Interpretable and Integrative Deep Learning for Survival Analysis Using Histopathological Images and Genomic Data (2020), Biocomputing

[Kather2019] J。N。 Kather, J。 Krisam, P。 Charoentong, T。 Luedde, E。 Herpel, C。A。 Weis, T。 Gaiser, A。 Marx, N。A。 Valous, D。 Ferber, L。 Jansen, Predicting survival from colorectal cancer histology slides using deep learning: A retrospective multicenter study (2019), PLoS Medicine

[Katzman2018] J。L。 Katzman, U。 Shaham, A。 Cloninger, A。 et al, DeepSurv: personalized treatment recommender system using a Cox proportional hazards deep neural network (2018), BMC Medical Research Methodology

[Klimov2021] S。 Klimov, Y。 Xue, A。 Gertych, R。 Graham, Y。 Jiang, S。 Bhattarai, S。J。 Pandol, E。A。 Rakha, M。D。 Reid, R。 Aneja, Predicting Metastasis Risk in Pancreatic Neuroendocrine Tumors (PanNET) using Deep Learning Image Analysis (2021), Frontiers in Oncology

[Li2016] Y。 Li, J。 Wang, J。 Ye, C。K。 Reddy, A Multi-Task Learning Formulation for Survival Analysis (2016), ACM SIGKDD International Conference on Knowledge Discovery and Data Mining

[Li2018] R。 Li, J。 Yao, X。 Zhu, Y。 Li, J。 Huang, Graph CNN for Survival Analysis on Whole Slide Pathological Images (2018), International Conference on Medical Image Computing and Computer-Assisted Intervention

[Lu2020] C。 Lu, K。 Bera, X。 Wang, P。 Prasanna, J。 Xu, A。 Janowczyk, N。 Beig, M。 Yang, P。 Fu, J。 Lewis, H。 Choi, A prognostic model for overall survival of patients with early-stage non-small cell lung cancer: a multicentre, retrospective study (2020), The Lancet Digital Health

[Meier2020] A。 Meier, K。 Nekolla, L。C。 Hewitt, S。 Earle, T。 Yoshikawa, T。 Oshima, Y。 Miyagi, R。 Huss, G。 Schmidt, H。I。 Grabsch, Hypothesis‐free deep survival learning applied to the tumour microenvironment in gastric cancer (2020), The Journal of Pathology: Clinical Research

[Muhammad2021] H。 Muhammad, C。 Xie, C。S。 Sigel, M。 Doukas, L。 Alpert, T。J。 Fuchs, EPIC-Survival: End-to-end Part Inferred Clustering for Survival Analysis, Featuring Prognostic Stratification Boosting (2021), arXiv preprint arXiv:2101。11085

[Shirazi2020] A。 Z。 Zadeh, E。 Fornaciari, N。S。 Bagherian, et al。 DeepSurvNet: deep survival convolutional network for brain cancer survival rate classification based on histopathological images (2020), Medical & Biological Engineering & Computing

[Vale-Silva2020] L。 Vale-Silva, K。 Rohf, MultiSurv: Long-term cancer survival prediction using multimodal deep learning (2020), medRxiv 2020。08。06。20169698

[Wang2021] X。 Wang, Y。 Chen, Y。 Gao, H。 Zhang, Z。 Guan, Z。 Dong, Y。 Zheng, J。 Jiang, H。 Yang, L。 Wang, X。 Huang, Predicting gastric cancer outcome from resected lymph node histopathology images using deep learning (2021), Nature Communications

[Wulczyn2020] E。 Wulczyn, D。F。 Steiner, Z。 Xu, A。 Sadhwani, H。 Wang, I。 Flament-Auvigne, C。H。 Mermel, P。H。 Chen, Y。 Liu, M。C。 Stumpe, Deep learning-based survival prediction for multiple cancer types using histopathology images (2020), PLoS One

[Yamashita2021] R。 Yamashita, J。 Long, A。 Saleem, D。L。 Rubin, J。 Shen, Deep learning predicts postsurgical recurrence of hepatocellular carcinoma from digital histopathologic images (2021), Scientific reports

[Yao2020] J。 Yao, X。 Zhu, J。 Jonnagaddala, N。 Hawkins, J。 Huang, Whole Slide Images based Cancer Survival Prediction using Attention Guided Deep Multiple Instance Learning Networks (2020), Medical Image Analysis

[Yue2019] X。 Yue, N。 Dimitriou, O。 Arandjelovic, Colorectal Cancer Outcome Prediction from H&E Whole Slide Images using Machine Learning and Automatically Inferred Phenotype Profiles (2019), arXiv preprint arXiv:1902。03582

[Zhong2019a] C。 Zhong, S。 Tibshirani, Survival analysis as a classification problem (2019), arXiv preprint arXiv:1909。11171

[Zhong2019b] T。 Zhong, M。 Wu, S。 Ma, Examination of independent prognostic power of gene expressions and histopathological imaging features in cancer (2019), Cancers

[Zhu2016] X。 Zhu, J。 Yao, J。Huang, Deep convolutional neural network for survival analysis with pathological images (2016) IEEE International Conference on Bioinformatics and Biomedicine

[Zhu2017] Y。 Zhu, J。 Yao, F。 Zhu, J。 Huang, WSISA: Making Survival Prediction from Whole Slide Histopathological Images (2017), IEEE Conference on Computer Vision and Pattern Recognition

作者:Heather Couture

deephub翻譯組