應用深度學習進行乳腺癌檢測

重磅乾貨，第一時間送達

本文轉自：AI演算法與影象處理

01。概述

癌症是人類主要的死亡原因之一，僅次於心臟病［A］。美國2017年近60萬人死於癌症。乳腺癌在癌症排行榜中排名第二，也是女性最常見的疾病。組織學檢查通常是患者癌症治療過程中的轉折點。如果常規的乳房X射線檢測到異常腫塊，則將進行活檢以便進一步確診。但是，複查和評估活檢玻片所需的時間很長，可能會給患者帶來巨大的壓力。一種能夠識別癌組織並減少誤診率的有效演算法可使患者更早開始治療並改善患者預後效果。

卷積神經網路（CNN）已經嘗試應用於癌症檢查，但是基於CNN模型的共同缺點是不穩定性以及對訓練資料的依賴。部署模型時，假設訓練資料和測試資料是從同一分佈中提取的。這可能是醫學成像中的一個問題，在這些醫學成像中，諸如相機設定或化學藥品染色的年齡之類的元素在設施和醫院之間會有所不同，並且會影響影象的顏色。這些變化對人眼來說可能並不明顯，但是它們可能會影響CNN的重要特徵並導致模型效能下降。因此，重要的是要開發一種能夠適應域之間差異的魯棒演算法。

過去已經舉行了數項競賽，以開發組織學幻燈片中的癌症檢測演算法，例如ICIAR系列（BACH）［C］，乳腺癌組織病理學資料庫（BreakHist）［D］和Kaggle組織病理學癌症檢測［E］。在此專案中，我們將探索如何使用域適應來開發更強大的乳腺癌分類模型，以便將模型部署到多個醫療機構中。

02。背景

“癌症是人體內不受控制異常生長的細胞。當人體的控制機制不工作的時候，癌症就會發展。” ［G］在美國，預計八分之一的女性都會患乳腺癌。到2020年，預計將識別出300，000例乳腺癌病例，結果38人中將有1人死亡。

組織學用於評估患者的身體組織並鑑定癌細胞。在評估之前，將組織樣本染色以突出顯示組織的不同部分。蘇木精和曙紅是常見的染色劑，因為它們可以有效地突出異常細胞團。蘇木素是一個鹼基，與嗜鹼性結構（如細胞核）結合，將它們染成紫色，而曙紅將嗜酸性結構（如細胞質）染成粉紅色［H］。理想中，不同的顏色和結構足以識別組織異常。但是，染色組織的確切陰影可能會根據變數（例如年齡，染色化學物質的濃度，溼度和樣本大小）而變化（圖1）。這些顏色變化可能會使CNN模型分辨不清。

圖1。薄和厚組織切片中的顏色差異［I］。

03。資料

我們使用了來自ICIAR BACH 2018案例競賽［C］和BreakHist資料庫［D］的資料。每張圖片都經過幾位醫學專家的審查標記。示例影象可以在圖2中看到。

圖2。 BreakHist資料庫的示例影象。

BACH資料集提供了400張影象，分為四類：正常，良性，原位和有創。良性腫瘤是異常的細胞團，對患者構成最小的風險。通常在被識別時，它就被單獨放置［J］。一個原位腫瘤是未跨過身體系統擴散細胞的激進組。通常，它被認為是惡性前癌症，隨著時間的流逝將變得惡性［J］。浸潤性癌症是最嚴重的癌症型別，因為它已轉移至超出其在體內原始位置的位置。對於此分析，我們將正常和良性標籤視為健康組織，並將原位和浸潤性視為癌性組織。

BreakHist資料集提供了在多個縮放級別（40x，100x，200x和400x）下拍攝的約8000張良性和惡性腫瘤影象。這些組中包括的不同型別的腫瘤在下面列出。

•良性腫瘤：腺瘤，纖維腺瘤，葉狀腫瘤和腎小管腺瘤

•惡性腫瘤：癌，小葉癌，粘液癌和乳頭狀癌（K）

04。預處理

為了開發用於領域適應的強大模型，我們選擇將BreakHist資料用於我們的訓練集。多個縮放級別是模型魯棒性的一個很好的起點，因為幻燈片影象的大小/放大倍數在整個行業中通常沒有標準化。

為了減少計算時間，將所有影象縮放到224x224畫素。對於CNN模型，權重和節點的數量隨著輸入影象大小的增加而呈指數增長。不幸的是，當整個幻燈片影象從其原始尺寸減小時，很多資訊可能會丟失。因此，需要在模型複雜度和準確性之間進行權衡。

圖1和圖2展示了汙漬中存在的各種顏色。為了使我們的模型可跨域使用，我們為訓練集中的每個原始影象實施了九種顏色增強。這些增色改變了影象的顏色和強度。此外，我們對每個變換後的影象進行了3次旋轉，以說明相機定位和組織樣本方向的差異。這些預處理步驟將我們的訓練集的大小從7，909張影象增加到285，000張影象。

圖3。訓練集中單個影象的影象增強摘要。

05。建模與訓練

基準模型

為了瞭解自適應的優勢，我們首先在原始BreakHist資料集上訓練了CNN模型，並在ICIAR資料集上對該模型進行了測試。此初始模型使我們能夠了解模型應用於其他領域時的準確性，而無需進行設計考慮。

如前所述，BreakHist資料集包含大約8，000張影象。每個影象都從其原始尺寸縮小到224x224正方形影象。因此，CNN的輸入是所有224x224畫素的RGB值。ResNet34模型架構經過十個階段的培訓；並記錄了從原始BreakHist資料集中提取的驗證集上模型的準確性。為了確定模型的準確性是否可以延續到另一個領域，在ICIAR資料集中的400張影象上對模型進行了測試。

方法1

為了提高我們在第二個領域中檢測癌症的能力，我們使用了顏色歸一化技術和旋轉功能來增強BreakHist資料。處理完所有這些資料後，我們獲得了約285，000張影象。有了這麼多影象，執行一個歷時就花費了七個多小時。為了找到一種在計算上更可行的解決方案，我們將訓練資料降取樣為25，000張影象的平衡集。

新的CNN接受了25，000張增強影象的培訓。所有其他模型引數，例如ResNet34架構和時期數，都保持與以前相同。確定了該模型在驗證集上的準確性。然後，在ICIAR資料集上測試了該模型，以確定增強後的影象是否提高了我們在不同領域中檢測癌症的能力。

方法2

為了提高模型準確性並進一步探索領域適應性，以與BreakHist訓練集相同的方式對ICIAR測試集進行了預處理。對測試集中的每個影象進行色彩增強，以產生原始影象的九種變體。這9個變體通過了CNN模型，並對其輸出進行了多數表決，以確定原始影象的預測標籤。然後透過將多數投票標籤與真實標籤進行比較來確定模型的準確性。

06。結果

基準模型

測試的第一個模型是我們的基準模型，它使我們能夠量化域自適應的優勢。在包含來自與訓練集相同來源的資料的驗證集上對該模型進行測試時，該模型達到了89。31％的準確性。這表明該模型在用於培訓的同一領域中使用時成功診斷了癌症。但是，隨後對該模型進行了不同領域的資料測試，僅產生了45％的準確性。該準確性比隨機猜測差，並且表明必須考慮設計因素才能生成可在多種醫療保健環境中使用的模型。這些不良結果的可能解釋包括掃描器和染色技術的差異。此測試的混淆矩陣如圖4所示。該模型似乎沒有高估任何癌症。

圖4：未增強/預處理的結果

方法1

先前的研究和期刊出版物已經表明，域適應可以提高乳腺癌分類器的準確性。為了驗證該想法，我們在增強影象上訓練了一個新模型，以使該模型對顏色和方向的變化更加魯棒。對來自不同域的資料進行模型測試時，準確性為55。25％。儘管此域中的效能仍然明顯小於原始域中的效能，但它確實證明了域自適應可以對基線模型進行一些改進。此外，我們可以觀察到模型預測的巨大變化。基線模型傾向於高估沒有癌症。但是，這種新模型存在相反的問題，並且高估了癌症。該模型的混淆矩陣如圖5所示。

圖5。方法1的測試結果

方法2

為了使訓練域和測試域更加相似，對測試影象進行了預處理，並對訓練集使用了相同的增強方法。然後，將增強的測試影象透過方法1的CNN模型傳遞。不幸的是，在這種方法下，模型精度降低到53。75％。該模型的混淆矩陣如圖6所示。

圖6。方法2的測試結果

07。未來工作

該專案的目的是瞭解醫療領域中演算法的域適應帶來的挑戰。先前的研究表明，深度學習模型可以有效地緩解醫師緩慢而單調的工作，但在實際應用中必須經過充分的培訓和測試。從我們的模型可以看出，驗證準確度（最少的預處理/擴充）為89％，但在不同的領域中使用時，很快下降到了45％。這凸顯了域適應的挑戰。一旦我們考慮到了領域變化而進行了設計考慮，我們模型的測試準確性就提高到了55。25％。這表明，透過更多的資料，準備工作和培訓，我們可以提高模型的準確性。

但是，在將該模型用於診斷癌症之前，有必要進行進一步的改進。由於專案的限制，我們將訓練集從285，000張影象減少到25，000張影象。此外，每個影象的大小均縮小到224x224畫素。這些修改可能會限制我們模型的效能，尤其是在此域中，因為色階看起來與人眼非常相似，並且縮小尺寸可能導致過多的資訊丟失，尤其是在資料集之間。未來的工作應該探索使用更多的可用資料，並且在尋找精細細節時，關於顏色排列和大量相同顏色如何影響模型和各種型別的CNN濾鏡，可以做更多的研究。此分析的另一個侷限性是我們無法解釋模型錯誤的可能原因，因為組織學切片的解釋需要一定程度的主題專業知識。對於更大範圍的解釋，讓病理學家識別潛在趨勢並提供見解會有所幫助。

也可以使用其他方法來潛在地提高模型的準確性。例如，可以對來自多個域的資料進行訓練。我們希望該模型能夠展示出更高的效能，因為這將減輕對特定來源特有模式的過度擬合。對於乳腺癌，這必須由醫院提供，並且由於HIPAA程式碼的緣故，通常無法免費獲得。

該專案證明了CNN模型可能非常脆弱，領域適應性至關重要，並強調了魯棒性的需求，尤其是在醫療領域，決策可能會對患者的生活產生重大影響。我們希望將來可以改進此模型，以提高乳腺癌診斷的準確性併為癌症患者提供更好的結果。

資源：

A。 https：//www。cdc。gov/nchs/fastats/leading-causes-of-death。htm

B。http：//phrma-docs。phrma。org/sites/default/files/pdf/08-17-2010_economic_impact_study。pdf

C。 https：//iciar2018-challenge。grand-challenge。org/

D。 https：//www。kaggle。com/ambarish/breakhis

E。 https：//www。kaggle。com/c/histopathologic-cancer-detection

F。https：//medium。com/@thepurpleblobs/breast-cancer-detection-the-purple-blobs-6ac40984ceb4

G。 https：//www。cancercenter。com/what-is-cancer

H。 http：//histology。leeds。ac。uk/what-is-histology/H_and_E。php

I。https：//www。leicabiosystems。com/knowledge-pathway/he-basics-part-4-troubleshooting-he/