熵(讀音:ㄕㄤ )

Entropy


熵這個概念被應用到許多科學領域中,取其隨機性和無序性的含意。德國科學家魯道夫·克勞修斯在1850年代,1860年代定義出了古典熱力學中會使用到的熵。應用到訊息論上,熵值就是隨機變數的資訊與不確定性的平均值,或者可以形容為隨機變數裡的預期資訊量,結果的不確性。

圖表一

另外一種直覺的理解方式是熵這個值代表的是要傳達一個隨機變數的結果需要的訊息長度。如果我們丟出一個正常的八面骰子,熵值就要是三位元。因為如果要表示丟骰子的結果,最有效率的就是使用二進位制的位元三個(圖表一)。

以擲硬幣為例。若是是一個完全公平的硬幣,得出正面和負面的機率都是50%,完全沒有辦法判斷擲出的結果會是正值還是負值。這時擲硬幣的熵值最大,為1。若這是一枚魔術硬幣,兩面都是正面或是兩面都是負面,則不論怎麼投擲,都會知道結果,沒有任何懸疑,這時熵值最小,為0。若拿到的是假幣,硬幣分佈不均勻,投擲結果正面居多,或是負面居多,例如80%正面,20%負面,或是90%負面,10%正面,熵值就會落到0與1之間。

圖一

在右邊的文氏圖中(圖一),H(X)和H(Y)是邊緣熵,H(X|Y)和H(Y|X)是條件熵,H(X, Y)是X和Y的聯合熵。聯合熵代表平均要詮釋兩個離散型隨機變數的值需要的資訊量。條件熵則是代表在知道一個隨機變數的值之後,平均還需要多少資訊量才能傳達另一個變數的值。例如H(X|Y)就是代表在知道Y的值之後,還需要多少資訊量才能表達X的值。


參考文獻:

http://www.inf.ed.ac.uk/teaching/courses/fmcs1/slides/lecture25.pdf

https://en.wikipedia.org/wiki/Entropy_(information_theory)

https://en.wikipedia.org/wiki/Entropy

https://en.wikipedia.org/wiki/Mutual_information