應用數學和深度學習的關係

作者:Manuchehr Aminian

近年來,深度學習(DL)在各種科學計算領域中帶來了可觀的進步。建基於人工智慧的基礎上,使用到了眾多的應用數學元件,應用數學和DL之間到底是有什麼關係? 這個問題正是Yann LeCun (臉書&紐約大學) 在2020年年初虛擬SIAM數據科學數學大會的大會演講主題。在演講中,LeCun簡短的介紹了機器學習(ML)的歷史,闡述了與之緊密結合的數學根基,發表了自己預期的ML未來與跟這有關的數個廣泛開放性問題,並提及了應用數學與機器學習現在的關係和未來可能帶來的貢獻。對神經網絡,ML,和DL不熟悉的讀者可以參考吉爾伯特·斯特朗在2018 SIAM新聞“深度學習的功能”文章中的介紹。

隨機梯度下降法

LeCun直接點出應用數學和DL最根本的連結:梯度下降法和最佳化。DL的目的在找出非線性函數的最理想參數組,以完成確實的任務,像是圖像分類或是文字預測。研究人員套用一種特殊的梯度下降法來找尋最佳參數組。 

應用數學家常常在數值線性代數學中使用梯度下降,求Ax=b線性系統的近似解。解答x*相當於函數||Ax-b||22的最小值,從初始的猜測值x0開始,帶入所有的可能x值。研究人員將梯度下降形容為一個“向山下走”的過程,在每一步驟中都往最陡的方向做選擇。最後會產生出一系列的近似值xi,在對稱正定矩陣A上,保證會收斂到一個唯一的最小值這種函數無可否認很特別,讓使用者可以把理論做廣泛的延伸,也因此被納入一般課堂教授內容中。 

圖一。套用隨機梯度下降法到圖像資料集,近似損失表面的形象化。圖由Tom Goldstein提供。

相比起來,在DL中必須最小化的函數–所謂的”損失函數”–通常是非凸且非線性,更難以得到理論性的保障。然而,實作人員會使用基於梯度的方法,特別是會採用一個修改過的特殊版本,隨機梯度下降法 (詳圖一)。這裡的隨機形容的是損失函數的評估過程不一次使用所有的訓練資料來評估損失,而是在梯度下降法的每個迭代運算中隨機選取資料子來使用。LeCun把這個稱為“在霧中向山下走”。每個樣本在方向上做出充滿雜訊的估計。這個隨機的處理方式在實用上有顯著的成果。LeCun說“沒有人會考慮其他的方法”。但是,為何這個方法會成功還有待研究人員提出理論來解釋。

過度參數化和深層網絡

接著,討論到仍有需要理論突破的範圍,LeCun首先提及了一個跟傳統數學和統計觀念相矛盾的現象:解釋DL的過度參數化模型。數學家約翰‧馮‧諾伊曼有一句名言 :“給我四個參數,我可以擬合出一隻大象。給我五個參數,我可以讓大象擺動象鼻”。這觀點反映出數學模型建模人員常有的態度,提醒建模人員要注意數學模型裡的參數數量和數據擬合後會得出的結果。數學家們普遍熟悉在擬合高次多項式時過度參數化的危險性。同理,參數擬合和可識別性本來就是微分方程模型中常見的問題,特別是當模型之間有大量的互動元件時。

但是,多年的DL實作經驗得出的卻是一個不一樣的結果。用兩個相同目標神經網路的比較來說明。有更多參數的網絡 — 常常比起數據量,有倍數的參數數目 — 會數值收歛到損失函數中擬合訓練數據,並成功預測沒見過的資料。相反的,“較小”的網路經常會陷在損失曲面的局部最小值中,有收歛上的困難。 LeCun指出研究人員普遍了解這些過度參數化的網路會通過隱式正則化自動的在訓練時降低”等級”,但也表明這方面的理論仍然是個謎。他因此建議應用數學家應該對這方面的知識做出貢獻。

應用數學做為背景的價值

 

DL在透過卷積神經網絡(CNNs)的圖像處理上特別的成功。LeCun在他的演說中就提及了許多成功的案例,包括醫學影像分析,自駕車輛,和自動緊急煞車系統。但是,是因為應用是建基於矩型點陣的圖像上,DL卷積處理才能成功的做套用。其他應用的圖像若沒有這個結構就會無法順利的套用。

圖卷積網絡就是把卷積網絡泛用到任意圖形上。LeCun瞭解延伸CNN工具到任意圖形依賴的是傅立葉變換。要套用卷積到圖像上,先在數據上使用傅立葉變換,接著過濾,相乘,最後再使用逆傅立葉變換。不同於一般的電腦科學家,大部份的應用數學家對這些工具都相當熟悉。因此他們比較容易體會實務問題跟總體理論背景的關係,容易對DL社群做出貢獻。

但是,應用數學和DL社群之間的關係不是單向的。LeCun提到實作人員希望能發展出DL方法來加速求得偏微分方程(PDEs)的數值解。過往在解答PDE時,依賴的是有限差分解或微分算子的有限元素離散化。但是在碰到剛性和/或高維度疑問時,會遇到時間和空間變數離散化的問題。當小心遵從物理定律無法順利的帶出數值解時,可以嘗試用被訓練過的神經網路來取代解答算子,透過一組範例求解。雖然這類神經網路會有準確性,精確性和守恆量保存等問題,潛在的加速卻相當可觀。在LeCun的演講中,他就提及了應用到晶格量子色動力學,流體力學和天體物理學的可能性。

一個統一的觀點

從前,神經網路主要是受想了解生物腦部運作的欲望所驅動。LeCun在演講中提到了使用DL來模仿人類學習,推理和計劃復雜事務。引述LeCun的話語,人類是“幾乎不被監督,很少被強化。” 這是為什麼?舉例來說,要成功套用深層網路到圖像處理上需要數千甚至數百萬個標記完的樣本和適合拿來做訓練的強大計算功能。神經網路在訓練過的同種類圖像中或許可以成功運作,但是若碰到沒有在訓練時見過的新圖像種類,就必須從頭做訓練。使用者也必須告知機器在處理新種物品。

這和嬰兒的學習方式明顯不同。他們在看過一個物體幾次之後就能做出正確的辨識,只需要少量的努力和微量的外部干涉。如果ML的最大目標是了解人類的學習方式,就必須仿效人們學習的速度。這個研究方向出現在各種各樣的技術上或屬於或跳脫出現有的思考典範中;LeCun一併把這些任務歸類在“自我監督學習”中。

雖然監督學習和強化學習在獨立任務中有確實成功的案例,LeCun卻相信無論硬體如何提升,這些思考典範永遠不可能演變成“通用人工智能”。他更在演講中陳述了在發展這些方式時會遇到的根本性挑戰。其中,LeCun認為強化學習最終會無法順利的探索性質空間,尤其是在引進自然智能“很少被強化”的特徵後。他相信研究人員若使用強化學習,甚至連“貓等級的智能”都無法順利發展,更不可能做出“人類等級的智能”。因此,LeCun在演講的下半段提出了一個替代方案,透過以能量為基礎的模型做自我監督學習。這個方法完全不需要神經網路,而是使用能量曲面,獲得輸入值之間的依賴關係,可做到多輸出的預測。他簡要地敘述了幾個可能的方案但預期最後會被選定的架構是基於能量的規律化潛變數模型。

LeCun在最後更回答了一個常常遇到的問題:到底DL是自然科學還是工程科學?它是科學還是煉金術?他含蓄地點到說其實DL比較像煉金術,但是也不忘提醒“就因為我們不理解,不代表我們不應該使用”。LeCun提起歷史中機器的推出和之後理論的發現常常有一個長時間的間隔。舉例來說,在1608年就發展出的望遠鏡在50年後光學理論才成功的解釋了它的工作原理。蒸氣引擎在1695年問世,但是100年後熱力學才成功的詮釋了它的運作規則。LeCun希望可以“找出機器智能或一般智能相對應的熱力學原理”。在DL社群成功的得出任何的統一理論之前,數學家勢必將會扮演重要的角色。

這篇文章是取材於Yann LeCun應邀到今年年初虛擬2020 SIAM數據科學數學大會(MDS20)所做的演講。可以在SIAM的Youtube頻道上觀看LeCun的演講內容

Manuchehr Aminian是加州州立理工大學數學和統計系助理教授。他的興趣橫跨數學建模,視覺化和數據科學算術