最近在看深度學習的理論,主要參考的是深度學習花書的內容,附帶一些頂會和期刊的論文,對於自己學習過程中產生的一些疑惑,我力圖做到真正理解,而真正理解最好的方式就是給別人講明白。所以我會在文章中將我遇到的困惑的解答寫出來,我想也許也有人會遇到我的這些困惑,獨樂了不如衆樂樂哈哈,如果有什麼紕漏歡迎批評指正!
註明我沒按照知識體系寫,有的東西很重要,但是我看起來沒啥疑惑,我就在文章中忽略了
隨機變量函數f(x)的分佈與隨機變量x之間的關係
在花書中,稍微介紹了一點測度論,說到測度論是介紹概率上存在一些悖論的問題,但是我們實際遇到的大部分概率內容不會碰到這類問題。讓我產生困惑的一點是連續型隨機變量函數概率分佈與隨機變量的概率分佈之間的關係。
舉一個書中的例子:
隨機變量連續可微,隨機變量X服從0-1的均勻分佈,隨機變量Y是X的函數,關係如下:
那麼Y服從什麼分佈呢?
這是概率論中很基礎的問題,所有講授概率論的書中都會講,但是我看花書的時候我忘記了,尷尬!
但是這個問題很重要,幾乎實際遇到的所有問題,往往我們測量的是一個隨機變量,使用的是另外一個隨機變量,使用的隨機變量分佈是從測量隨機變量分佈的某種函數關係得到的。
書中介紹了一種錯誤的做法,就是直接利用反函數,將Y帶入到X的概率分佈中。這種方法爲什麼是錯的呢?
因爲函數對x的作用會導致y的空間的伸縮,因此需要在x的分佈函數基礎上乘以相應的伸縮因子,本例中使用的函數的伸縮因子是常數,實際上如果函數比較複雜也可以是含y的變化因子。
二者之間的限制在於任何概率分佈必須滿足在整個空間積分爲1,如下式一元情況:
如果已知觀測隨機變量分佈X求隨機變量Y的分佈,利用如下式—多元情況:
或者由Y求X:
信息論
書中這部分講信息論,核心的觀點是一件事情發生的法律越低,帶來的信息量越大,因爲概率是0-1之間的數字,如果使用對數作用,越小的概率,對應的信息量就越大,這樣就可以量化的描述一件事情的信息量
自信息
自信息反映的是單一事件發生所帶來的信息量。
香濃熵
但是隨機變量一般滿足一個分佈,使用香濃熵可以表示一個隨機變量在分佈上的自信息期望
離散形式如下:
也即變量X在分佈上產生信息的總量,因此可以認爲一個分佈的香濃熵越大,這個分佈產生的信息量越大。分佈的香濃熵只跟概率分佈的本身有關,對數的底數跟應用本身有關,可根據具體需求選取,信息學通常使用2爲基底,自然科學工程上更多選用e爲基底。
KL散度
如果隨機變量X獨立滿足兩個分佈P(X)和Q(X),可以使用KL散度來量化區別這兩個分佈的區別
KL散度不具有對稱性,具有非負性。KL散度衡量兩個分佈之間的差異,可以被看做是兩個分佈的一種”距離“。
上式中H(P,Q)叫做交叉熵,指X在滿足P的分佈情況下,在Q分佈上的不確定性,如果Q跟P相同,此時的交叉熵最小。
這個量非常有意義,我們假設訓練樣本滿足的是P分佈,我們當然希望訓練出來的模型滿足Q分佈,如何讓訓練的模型儘可能的貼近P分佈呢?
可以使用優化算法,不斷逼近P的分佈,降低交叉熵的值。Q越接近P分佈,交叉熵越小。