大規模篩檢COVID-19的數學原理

作者:David Donoho,Mahsa Lotfi,Batu Ozturkler;譯者:林君豪

 

諾貝爾經濟獎得主Paul Romer把COVID-19造成的全球性停擺視為一場經濟浩劫。個人,企業,和政府面對的是上兆元的經濟損失; 如果整體社會不儘快恢復到病毒來臨前的狀態,這些損失會永久性的存在。Romer,身為前世界銀行的首席經濟學家,提出了一個提振信心的方案,希望透過顯著地提升COVID-19的檢驗量來帶領整個社會走出停擺。他認為每位美國人都應該固定兩個禮拜做一次檢驗。檢測出陽性的人應該自我隔離讓其餘沒有被影響到的人和商家恢復正常運作,帶動新的工作和投資。依據Romer所做的模擬,這個方法會使人口的活性感染率降至五%以下,確保大部分的人不被感染,而帶來迅速的經濟復甦。

 

可惜的是,目前的檢驗無法普及至Romer所期待的程度,不可能做到每天總人口數七%的篩檢。拿過往的成果比較,從三月到五月之間,只有大約四%的美國居民完成了COVID-19的檢驗。

 

為了急遽擴張檢驗規模,統計學家David Donoho審查了一個近期發展出的新研究領域。它架構於數學和統計學,透過數據科學面實施,可以帶動全世界檢驗能力的迅速擴充。他趁著這一次受邀到了五,六月份的線上第一屆2020 SIAM數據科學的數學研討會(MDS20),在一場報告裡對這個新領域做了一個全面評述,期望SIAM社群可以對這些與COVID-19有關的新研究趨勢做出貢獻。

 

某種程度上,新推出給保健科學的medRxiv預印本伺服器不斷的在促成這種趨勢的成形。數學家在近30年裡一直使用著arXiv預印本伺服器,常態性的在做信息的快速,免費,且全面的分享。但是,醫學文獻的分享一直被種種制約如付費牆模式所限制。在2019年,以bioRxiv的分支名義成立的medRxiv,企圖提供一個醫療研究預印本文獻的無國界分享平台。

 

COVID-19的危機給medRxiv帶來了生機。一連串的COVID-19貼文從2020年一月開始出現;到了三月份,每天湧入的是上百份的貼文。內容從病例個案報告和照護程序文獻到已準備完成可以在主要期刊發表,主題為治療介入的論文。共享者包括了分享病人資料的醫師,執行臨床試驗的醫療團隊,對國家數據庫做分析的公共衛生官員,討論新技術的醫療器材工程師,和在封城封州之後專注於COVID-19上的公民科學家。

 

 

圖一. 對附件[4]裡提出的合併方案的總攬。n個受測者樣本用組合的方式合併在m次的檢測中。每個受測者樣本會出現在數次的檢測中,每次的檢測會涵蓋到數個受測者的樣本。圖是擷取自附件[4]。

 

有一些文章提到了把檢測規模擴大的需求。許多文獻想要表達的是如果把現成的COVID-19測試箱以多重處理的模式利用,可以在不增加檢測站也不使用更多檢測箱的情況下可觀的擴大檢測的總數量。

 

在他的演講中,Donoho特別提及了兩篇較早在這新興文學中出現的文獻。其中一篇文章使用了一個規律的協定,一次最多多重處理五個受測者樣本,立即擴張了檢測能力,使確定疾病狀態的受測者數量上升到原本的兩倍以上 [1,2]。另外一篇文章則認為其實可以有更大的進步空間 [7]。它記錄了可以在同一個時間一次多重處理至多64個病人樣本,從中探測出一個罹患了COVID-19的受測者。原則上,在合併樣本上執行單一次反轉錄-即時定量聚合酶連鎖反應 (RT-qPCR) 就可以確定出在這64名受測者中是否有帶病者。

 

這些新研究領域中的文獻都有一個共通點:在做大眾檢測時,大部分的人其實是沒有被感染的,所以在他們的檢測樣品裡並不會存在活性的病毒。直觀地想,如果只有少數的人是確實被感染的,我們的確沒有必要為了每一個受測者消耗掉一整個檢測箱。我們需要的其實是多重處理和數學的應用 (詳圖一)。

 

事實上,檢測是在測量樣品裡的病毒量。如果我們考慮一組N個受測者,收集了N個樣品病毒量的向量x會是一個稀疏向量 (大部分是零) 因為多數的人是沒有被感染的。從數學的觀點看,問題是如何最有效率的,在不浪費檢測盒也不拖延時間的情況下解答出那龐大的稀疏向量x裡哪些值不為零。

 

多重處理就是在合併受測者的樣本,讓每位受測者的樣本出現在數個樣本池裡,每個樣本池裡含有數名受測者的樣本 (詳圖二)。每一個要檢測的樣本池裡面的病毒含量大致上是裡面每一個樣本的病毒含量的總合。若是把T個檢測出的病毒量數據集合在一個T列1行的向量y裡,透過矩陣乘法 y = Ax,可把記錄著檢測出的病毒量的y向量跟記錄著原病毒含量的x向量拉上關係。A則是一個T列N行的二元矩陣,標示哪些受測者的樣本進了哪些樣本池。接著在得知y(噪音,偏,二元,線性)後,用它來推斷出稀疏向量x。研究員有時會執行數回合的測量yr=Arx, r = 1,…,R,而其中第r回合的矩陣Ar會取決於上一回合的檢測結果yr-1。接著就可以從y=[y1,y2,…,yR]裡推斷出x,再度遵循著 y =Ax,只不過是用上了分塊矩陣A=⊕r=1RAr。科學家在組合矩陣A的時候可以使用適量的隨機性或特別二部圖的精緻建構,像是附件[8]裡面使用到的擴展圖,特殊結構的矩陣,或者甚至是資訊理論碼。

 

最終的目的就是透過解讀檢測結果y來判斷出哪一個樣品一定含有COVID-19的病毒。關鍵點是總檢測量T<N,也就是說檢測員只需使用T個檢測箱來測量出N個受測者的疾病狀況。

 

 

圖二. 一個尺寸為 16 x 40的二元矩陣,在16次檢測中檢測完40個受測者的樣本。每一列顯示出哪些樣本需要被合併起來做檢測。圖是擷取自附件[4]。

 

要解讀medRxiv裡面的提案利用的是對實例數據 (A,y)的認識和x的假定稀疏狀態。這些文獻裡面提到的技術很多是SIAM社群所熟悉的,包括像是分組檢測或是組合式分組檢測的循序做法和受壓縮感知和單位元壓縮感知所啟發的單回合做法。

 

Donoho概述了基礎的RT-qPCR檢測,COVID-19檢測的黃金標準,並解釋了為什麼這個技術能跟多重處理樣品做良好的結合。他同時特別提出了幾個跟數學領域明確連結的研究計畫。舉例來說,其中一個團隊使用了組合式的分組檢測[3,5],其他的則是使用了壓縮感知[4,8]。兩方都提議只用單回合的方法並秀出在低患病率的人口中他們可以在

 

                                                        N≈10T     (1)

 

的狀況下成功的從T次的檢測中推斷出N個受測者的疾病狀態 (如附件[6]所示)。

 

若確實成功,不增加數量T (RT-qPCR機器的單位時間和檢測箱數量) 的情況下,這將會使釐清疾病狀態的受測者數量N上升十倍 (當然仍然需要做出N個受測者樣品和做好相關的個別處理)。這做法的前提是極低的患病率; 但是即使是在高患病率的情況下,N還是可以比T大很多。這兩種方法的其中一個優勢是他們都只選用單回合的(R=1)程序,所以延遲的時間一定比多回合程序少 – 這差別是受測者可以實際感受到的。

 

這個研究領域發展的迅速程度讓Donoho本身也很驚訝。在短短的數個禮拜內不只看見了驚人的提案和想法,也同時看到了實際上每天會用到的規則。在他MDS20演講的尾端,他提到了超越RT-qPCR,新的COVID-19檢測標準的可能,討論到一些可能將要來臨的新科技。急遽地增加全球檢測量的需求是很明確的,而新研究領域的蓬勃發展,結合著數學引導出的關鍵致能技術,為未來的檢測大業帶來希望。

 

這一篇文章是以David Donoho五,六月間,被邀請,在線上的2020 SIAM數據科學的數學研討會 (MDS20) 裡所做的演講為基礎。可以在SIAM的Youtube頻道上找到此篇Donoho的演講。

 

參考文獻

 

[1] Abdalhamid, B., Bilder, C.R., McCutchen, E.L., Hinrichs, S.H., Koepsell, S.A., & Iwen, P.C. (2020). 評估樣品合併所節省的SARS CoV-2 檢測資源. 預印本, medRxiv.

 

[2] Bilder, C.R., & Tebbs, J.M. (2012). 篩選高總量異源族群臨床樣品的合併檢測程序. Stat. Med., 31(27), 3261-3268.

 

[3] Dingzhu, D., & Hwang, F. (2000). 組合式的分組檢測和應用. (第二版). 分卷 應用數學 (12卷). Singapore: World Scientific.

 

[4] Ghosh, S., Rajwade, A., Krishna, S., Gopalkrishnan, N., Schaus, T.E., Chakravarthy, A., …, Gopalkrishnan, M. (2020). 織錦: 一個用於COVID-19檢測的單回合智慧合併技術. 預印本, medRxiv.

 

[5] Shental, N., Levy, S., Skorniakov, S., Wuvshet, V., Shemer-Avni, Y., Porgador, A., & Hertz, T. (2020). 有效率的高產出量SARS-CoV-2檢測來偵查出無症狀的帶原者. Preprint, medRxiv.

 

[6] Verdun, C.M., Fuchs, T., Harar, P., Elbrächter, D., Fischer, D.S., Berner, J., …, Krahmer, F. (2020). SARS-CoV-2的分組檢測提供了在切實的情景和檢測策略下接近10倍的效率提升. 預印本, medRxiv.

 

[7] Yelin, I., Aharony, N., Tamar, E.S, Argoetti, A., Messer, E., Berenbaum, D., …, Kishony, R. (2020). 在多樣本池裡對 COVID-19 RT-qPCR 檢測做評估. Clin. Infect. Dis.

 

[8] Yi, J., Mudumbai, R., & Xu, W., (2020). COVID-19病毒和抗體透過壓縮感知的低成本, 高產出量檢測: 系統概念和計算實驗. 預印本, arXiv:2004.05759.

 

David Donoho是史丹福大學的統計學教授和Anne T。and Robert M。Bass 人文及科學教授。他曾在 SIAM的John von Neumann Lecture中發表演講也贏過AMS-SIAM 諾伯特·維納應用數學獎。Mahsa Lotfi 是一名史丹福大學統計學系的博士後研究員。她在德州大學達拉斯分校取得她的電機工程和訊號處理博士學位。Batu Ozturkler 是史丹福大學電機工程學系的第一年博士生。