第一原理機器學習在2019年新型冠狀病毒建模中的運用

作者Luca Magri 和 Nguyen Anh Khoa Doan

最近幾個月內,2019年新型冠狀病毒的影響幾乎遍及了世界的每個角落。在2020年1月30日,世界衛生組織 (WHO) 宣布此疫情已成為一個國際關注的公共衛生緊急事件。3月11日,疫情被定位為大流行。5月4日歐洲中部夏令時間1000,世界衛生組織公佈了最新數據,橫跨215個國家,確診病例343萬5894起,確認死亡案例23萬9604起[6]。此後,政府的決策將跟科學建議變得密不可分。

數學模型可以用來預測受感染,已復原,和死亡病患數量的演進,是向官方提供意見的源頭。研究人員可以從確診病例資料中推斷出接觸率 (β),恢復率 (γ),和死亡率 (μ),讓預測的準確度穩定地上升。基本傳染數 (R0) 就是合併這三個值可以得出的數據。它的含意是單一一個感染者在易受感染的人口中造成的新感染人數的平均值。若沒有預防措施,大部分的官方單位估計R0會落到2-3的範圍間[5]。這些關鍵的流行病參數(β,γ,μ,R0)非常重要,可以幫助政府選用適當的措施並拉平疫情曲線。大部分的措施會以降低R0為目標,透過減少接觸率 β 或是增加恢復率 γ [2]。理論上不論是疫苗或是治療都可以增加恢復率,但是目前既沒有2019年新型冠狀病毒的疫苗也沒有有效的治療措施。因此,目前各國政府企圖透過最小化接觸率,像是下達封鎖政策或是訂定社交距離,來控制2019年新型冠狀病毒。但是,我們到底要如何控制一個我們甚至不太了解的現象呢?

首先,我們需要能對流行病做準確的預測才能保持我們領先疾病一步的優勢。這是可以透過模型化技術達成的。但是,在只有局部或是不準確情報的情況下,我們要如何建立疾病的模型? 這個問題又更加困難了。我們找到了一個為了在渾沌動力系統中做預測所開發出來的方法[1],然後把方法運用到2019年新型冠狀病毒上 [4]。透過過往經驗得來的流行病模型第一原理和現時收集到的官方2019年新型冠狀病毒確診病例數據這兩種資料的合併來對外來做預測。儘管(某些)人的頭腦能很有效的洞悉出支配問題的第一原理,機器學習能更有效的辨識出數據裡所蘊涵的數值關係。第一原理機器學習恰巧相輔相成地結合了人腦跟機器的強項。在接著的段落裡,我們套用這個方法在一個具代表性的流行病模型上,但其實這個技術是可以被應用在更複雜的模型中的。

搭配著數學

若要幫流行病建模 (就如同幫其他的現象建模),我們需要掌握支配著動態變化的第一原理,像是假設,約束,法律,等。這些原理就是所謂不能被違背的”遊戲規則”。我們把一個國家的整體人口分組到互斥的幾個組別中總人口 (N) = 易受感染的 (S) + 已感染的 (I) + 死亡的 (D) + 復原的(R)。我們假設總人口固定不變,但其他的變數都會隨時間做改變。這代表所有的組別都擁有同樣的特徵,也就是說組別都是同質性的,並且每一個易受感染的人都有可能被傳染這個病毒。在更複雜的模型中,這些使用到的假設是可以被鬆綁的 [2]。這個做法就是流行病SIR模型搭配生命數據和固定人口 [3],簡稱為SIRD模型。我們以數學的方式形容這個第一原理,利用著四個常微分方程式和隨著時間變化的參數(一個非線性,非自主性的動態系統)

Ṡ = –(t) INS,     İ= -Ṡ-Ṙ-Ḋ,Ṙ=(t)I,Ḋ =(t)I。                              (1)

這些方程式受初始條件所影響。這些參數取決於政府政策 (封鎖行動,學校停課,社交距離,等…),人口異質性(年齡,生活方式,群體免疫,衛生標準,等…),和流行病屬性 (病毒的基因組,傳播機制,等…)。基本傳染數R0=/(+)。如果R0>1,受感染的個體會增加;如果R0<1,受感染的個體平均起來會減少。

定形問題

隨時間演變的組別和隨時間變化的流行病參數兩者的計算可以被制定成一個制限最佳化的問題 (或是換一種講法,資料同化的問題)計算已感染的,復原的,死亡的,和易受感染的個體數,接觸率,恢復率,和死亡率來最小化數據和流行病模型預測之間的誤差。我們只接受那些跟流行病模型一致的候選解。更多有關於損失函數的細節請參閱附件[4]。

解決問題

我們提議的第一原理機器學習流行病模型是建基於第一原理和機器學習的組合,由造成流行病模型時間推進的常微分方程解算器 (第一原理) 和整合數據到流行病模型裡來推衍參數和狀態的前饋神經網路 (機器學習) 所構成(詳圖一)。會先輸入一個時間函數到神經網路(NN)中。這個時間函數包含了累積到2020年5月4日為止的確認感染和死亡案例。這些數據是可以在網路上搜尋到的。在有了確診病例的時間函數之後,神經網路會接著推斷出流行病模型中會隨時間演變的參數。我們以最小化損失函數為目標來訓練網路,以期能最小化測量數據和候選解之間的誤差。在這之後,把推斷出的流行病參數帶入到SIRD模型的時間積分中,就能得出狀態的演進 (已感染者,復原者,死亡者,和易受感染者的數量)。

圖一. 用於流行病建模的第一原理機器學習。圖是由附件[4]改編得來。

結果在圖二。在流行病初期,還沒有預防性措施時,2019年新型冠狀病毒案例數量以指數方式成長。預防措施的實施對R0造成了顯著地影響,把R0降到了1附近。雖然得出的結果跟使用的第一原理一致,但仍然存在著不確定性,因為數據裡面會有偏差,像是報告裡面的錯誤,病例定義和測試制度的改變,和建模時所做的假設。然而,快速的成長率和大量的數據極有可能使這些小規模偏差變得微不足道 [5],而相乘性校正,例如持續的漏報,對觀察到的趨勢只有微量的影響我們提倡的資料驅動和模型引導方法論揭示出用數據來推斷流行病演進的新可能性 (詳圖一) [4]。未來的研究者應該使用更詳細的流行病模型和數據來改善預測。

圖二. 流行病的演進。2a. 左邊的軸代表的是預測的感染個體。十字架標示的是數據而實體線代表的是模型。右邊的軸代表的是死亡案例。圓形標示的是數據而虛線代表的是模型。三個垂直的虛線標出各個國家開始封鎖的時間。2b. 左邊的軸代表的是推測出已恢復了的個體 (實體線)。右邊的軸代表的是易受感染的個體 (虛線)。2c. 基本傳染數。2d. 接觸率。2e. 恢復率。2f. 死亡率。日期是以月/日的格式。圖形是從附件[4]改編而來。

 

參考文獻

[1] Doan, N.A.K., Polifke, W., & Magri, L. (2019). Physics-informed echo state networks for chaotic systems forecasting. [建基於物理的回聲狀態網路用來做混沌系統的預測.] In Lecture notes in computer science (including subseries lecture notes in artificial intelligence and lecture notes in bioinformatics) [在電腦科學的講義上 (包括其子系列在人工智慧和生物資訊學的講義)] (pp. 192-198).

[2] Ferguson, N.M. Laydon, D., Nedjati-Gilani, G., Imai, N., Ainslie, K., Baguelin, M., …, Ghani, A.C. (2020). Report 9: Impact of non-pharmaceutical interventions (NPIs) to reduce COVID-19 mortality and healthcare demand. [第九次報告: 非藥物介入(NPIs)的影響降低2019冠狀病毒病死亡率和醫療保健需求.] 帝國學院2019冠狀病毒病反應小組.

[3] Grassly, N.C., & Fraser, C. (2008). Mathematical models of infectious disease transmission. [傳染病傳播的數學模型.] Nat. Rev. Microbiol., 6(6), 477-487.

[4] Magri, L., & Doan, N.A.K. (2020). First-principles machine learning modelling of COVID-19. [2019冠狀病毒病的第一原理機器學習建模.] 預印本, arXiv:2004.09478.

[5] Pellis, L., Scarabel, F., Stage, H.B., Overton, C.E., Chappell, L.H.K., Lythgoe, K.A., …, Hall. I. (2020). Challenges in control of Covid-19: short doubling time and long delay to effect of interventions. [控制2019冠狀病毒病的挑戰: 短的倍增時間和長的延遲對介入的影響.] 預印本, arXiv:2004.00117.

[6] 世界衛生組織. (2020). Coronavirus disease (COVID-19) (Situation Report – 105). [2019冠狀病毒病 (狀況報告 – 105).] 取自: https://www.who.int/docs/default-source/coronaviruse/ situation-reports/20200504-covid-19-sitrep-105.pdf?sfvrsn= 4cdda8af{_}2.

 

Luca Magri是一名劍橋大學工程學系的熱流體力學講師。他同時是皇家工程院研究員,也是一名在德國慕尼黑的慕尼黑工業大學高等研究院的Hans Fischer研究生。透過王家學會的快速大流行建模協助倡議,他參與了科學大流行與流感建模小組。Nguyen Anh Khoa Doan是一名博士後研究員在慕尼黑工業大學的高等研究院。