深度學習用於COVID-19 診斷

作者:Keegan Lensink,William Parker,Eldad Haber;譯者:林君豪

 

在過去的幾個月裡,嚴重急性呼吸道症候群冠狀病毒2 (SARS-CoV-2)快速的傳播,成為了遍及全球的流行病。截至2020年6月25日,造成了近四十八萬起與COVID-19有關的死亡案例 [6]。雖然此一疾病可以表現出來的症狀多元 – 從無症狀或是輕微的流行性感冒症狀,到急性呼吸窘迫症候群 – 其中跟發病率和死亡率最有關聯的症狀是在病人肺中出現的不透明塊和實質化病變。在患者吸氣時,病毒會趁機攻擊然後抑制肺泡的氧氣交換。在正常的反應下,在發炎修復循環的過程裡,肺泡會因此而充滿液體,在肺中產生出形狀各異的不透明塊。這種不透明塊是可以在電腦斷層掃描中被看見的。因為它們的密度較高,這些區塊顯現出的會是部份地不透明且衰減能力增強,成為所謂的毛玻璃不透明斑塊 (GGO)。實質化病變是肺部裡的液體凝聚,拓展到了電腦斷層掃描中的不透明區塊 (詳圖一)。

 

隨著COVID-19的蔓延,全世界的醫療保健中心漸漸的感到招架不住且面臨著管理疾病症狀的重要設備的短缺。重症病患通常需要加護病房和機械式呼吸輔助,但此兩者皆有數量上的限制。快速篩選是診斷COVID-19和緩和其蔓延的關鍵。有效的工具則是要做好預後的必需品,為了把更多資源有效率地分配給最需要的病患。

 

 

圖1. 電腦斷層掃描軸向切片的視覺化,剪裁到左肺。1a。在COVID-19病患身上出現的肺部不透明。1b。放射科醫師做的相對應標記。紅色的是純毛玻璃不透明斑塊 (GGO),紫色的是GGO和小葉內線 (不規則石板拼鋪型態),黑色則代表實質化病變。

 

儘管逆轉錄聚合酶鏈式反應(RT-PCR)是迄今許多國家篩選COVID-19的黃金標準,設備的短缺和對測試環境的嚴格要求使得這項測驗在許多場合不甚適用。此外,研究報告指出RT-PCR測驗伴隨著高比率的假陰性率,因為它靈敏度低而專一性高[1]。胸部電腦斷層掃描已在診斷方面顯示出成效,包括在定期復查和疾病演化上的評估,可成為RT-PCR檢測重要的互補[7]。近期的研究指出訓練過的放射科醫師對胸部電腦斷層掃描所做出的分析可帶來高靈敏度的診斷[1]。

 

除了能對其他的診斷提供輔助,電腦斷層掃描已被證實能有效的被用來做COVID-19病人的預後。通氣性良好肺部(WAL)百分比已形成一個可用來做預後判斷的預測指標,預測出包括進加護病房和死亡等結果[3]。放射科醫生通常藉由視覺估計不透明跟健康肺部的體積比來量化WAL百分比。也可以用肺裡的衰減值自動估計一個近似值。WAL百分比無法形容不透明塊的形狀。除了使用它之外,透過辨識出不透明塊的各種樣式,專家對電腦斷層掃描的解讀也可幫助了解感染的嚴重度(詳圖二)。

 

 

圖二. 在數據集中有標記到的類別和我們有在實驗中使用到的類別分組。

 

不同的不透明塊樣式代表的是不同的感染嚴重度,而這些樣式的盛行率則聯繫上不同期的COVID-19。做WAL百分比和不透明組合的量化可以有效率的估計出疾病演進到了第幾期和預估病人的潛在結果。

 

放射科醫師通常在做的是3D圖的分析。但是3D的定量評估既困難又耗時。使用電腦技術,尤其是基於卷積神經網路(CNN)的機器學習方法,可以幫助克服這個挑戰。

 

研究人已大量的把深度學習的方法套用到視覺上。這些方法是建基於一個簡單的模型: 

 

Yj+1=F(Yj,j), j = 1,…,n,

 

Yj是代表隱藏層,Y1是原始的3D圖,函數F(取決於參數 θ)通常是由卷積和非線性激勵函數所組成。一個近幾年來最成功的網路結構使用的是形式為F(Yj,j) =Yj+G(Yj,j)的函數。這結構,名為殘差法,與常微分方程式(ODE)的離散化有關聯[4]: 

 

Ẏ̇̇̇̇=G   (Y,).

 

近年來,科學家使用了這種網路來處裡醫學影像; 數個集團也正在用這種網路來對抗COVID-19。雖然研究人員提出了大量的人工智慧(AI)系統來對臨床COVID-19的診斷提供協助,截至目前為止AI的使用在改進臨床結果上仍未有顯著的成效。

 

身為溫哥華綜合醫院所領導的計劃中的一部份,我們的目標是改善COVID-19的臨床診斷,尤其是預後的部分。我們結合先進的機器學習演算法和有標記過的電腦斷層掃描來發展一個可以幫醫師診斷和管理COVID-19病患的量化診斷工具。跟其他企劃一樣,基本的理念是使用標記過的影像,設法訓練一個深度學習網路來依據類別自動做3D電腦斷層掃描上的區域分類。假如這個方案可以成功,就可以估計不同的標籤所佔的體積,配合上WAL百分比,把它們與臨床結果做聯繫。此種方法可以讓醫師不只對COVID-19病患做診斷 (因為放射科醫師也可以簡單的做到診斷),也可以提供能預測結果的定量分析。

 

數據是此種計畫中最為重要的一部份。我們幸運的從伊朗,中國,南韓,義大利,沙烏地阿拉伯,和加拿大溫哥華獲得了將近5000份的電腦斷層影像。在溫哥華的志工醫師接著對這些數據做了標記,造就了一個龐大且多樣,可拿來做訓練,驗證,和測試的數據集。

 

雖然我們一開始的設想是要運用比較普通的網絡和最佳化程序來做分割,但是我們很快的就遇到了兩個大瓶頸。第一個瓶頸是醫師對何謂“正確”分割的變異性。我們的圖有別於傳統的機器學習,像是要分割街上物體的這種應用,就算是非專家的普通人也可以輕易的做類別的辨識。在一開始的一個研究中,十二名醫師對同一個影像做了分割。得出的結果顯示出了明顯的變異性(詳圖3)。

 

 

圖3. 十二名醫師分割同一批切片影像的變異性。

 

因為這個變異性的存在,常在深度學習中使用到的簡單目標函數 (像是交叉熵) 不能被拿來引導這個最佳化過程。眾所周知的度量標準,像是並交比,也不能被用來檢查這個分割的品質。為了處理這個變異性,我們開發了一種雜訊模型然後把它帶入了最佳化的程序中。為了確保有臨床價值的結果,我們主要的目標是創立模型然後把模型引到訓練程序裡。

 

第二個遇到的瓶頸是這個問題的尺寸和維度。跟大部分的影像分析問題不同,電腦斷層掃描通常是做三維的圖像收集,以3D圖像為處理目標。只有對3D結構有認識才能真的理解電腦斷層掃描影像的臨床意義。以前的研究員採用了主要是給動態影像使用的3D CNN。但是這類的網路,尤其是使用在深度學習的情況時,會常常需要用到大量的記憶體。因為這個難題,若沒有特殊的硬體,將無法用三維圖像來訓練深度網路。受此激勵,也是被雙曲型偏微分方程所啟發,我們開發了只需要定量儲存空間的雙曲神經網路,只佔用了訓練典型網路所需要空間的一小部分[2,5]。這些雙曲網路讓我們能用高畫質3D影像來訓練深度網路。他們是建基於二階微分方程的蛙跳式離散化,

 

Ÿ=G(Y,),

 

且仰賴雙曲線系統可以在時間軸上做前後移動的特性。這改變使我們能在普通的硬體上做深度神經網路的訓練。

 

溫哥華綜合醫院目前正在對我們的實驗結果做驗證,預期可以在不久之後以開源軟體的方式把它釋出。我們最終的目標是要提供給世界各地的放射科醫師更好的工具來做COVID-19病患的診斷和預後。

 

這篇文章是以Elbad Haber在五,六月間於線上的2020 SIAM數據科學的數學研討會 (MDS20)中所陳述的迷你教程為基礎。可以在SIAM的Youtube頻道上找到此篇Haber的報告。

 

這篇文章裡的圖形是作者製作的。

 

參考文獻

 

[1] Ai, T., Yang, Z., Hou, H., Zhan, C., Chen, C., Lv, W., …, Xia, L. (2020). 在中國境內, 使用在2019新型冠狀病毒(covid-19)上的胸部CT和RT-PCR檢驗的相關性: 一個包含了1014件案例的報告. Radiol., 200642

 

[2] Chang, B., Meng, L., Haber, E., Ruthotto, L., Begert, D., & Holtham, E. (2018). 用於隨機深度殘差神經網路的可翻轉結構. 第32屆AAAI人工智慧會議, 新奧爾良, LA: 人工智慧協會.

 

[3] Colombi, D., Bodini, F.C., Petrini, M., Maffi, G., Morelli, N., Milanese, G., …, Michieletti, E. (2020). 拿住院胸部CT上顯示出來的通氣性良好肺部數據來預測covid-19肺炎的負面結果. Radiol.

 

[4] Haber, E., & Ruthotto, L. (2017). 用於深度神經網路的穩固結構. Inverse Prob. 34(1).

 

[5] Lensink, K., Haber, E. & Peters, B. (2019). 完全地雙曲卷積神經網路. 預印本, arXiv:1905.10484.

 

[6] World Health Organization (2020). 冠狀病毒病 (COVID-19) 大流行. 取自: https://www.who.int/emergencies/diseases/novel-coronavirus-2019.

 

[7] Zu, Z.Y., Jiang, M.D., Xu, P.P., Chen, W., Ni, Q.Q., Lu, G.M., & Zhang, L.J. (2019). 冠狀病毒病 2019 (covid-19): 一個從中國來的觀點. Radiol., 200490.

 

Keegan Lensink 是一名在英屬哥倫比亞大學的研究生,也是Xtract AI 的研究科學家。William Parker 是一名在英屬哥倫比亞大學的醫生和放射科住院實習醫生,也是SapienML的創辦人。Elbad Haber是英屬哥倫比亞大學的加拿大自然科學和工程研究理事會(NSERC)產業研究主任。