頻率視角下的機器學習

文章整理自:極客時間

在“人工智能基礎課”中我曾提到,“概率”(probability)這個基本概念存在着兩種解讀方式,它們分別對應着概率的頻率學派(Frequentist)和貝葉斯學派(Bayesian)。而解讀方式上的差異也延伸到了以概率爲基礎的其他學科,尤其是機器學習之中。

根據機器學習領域的元老湯姆·米切爾(Tom M. Mitchell)的定義,機器學習(machine learning)是一門研究通過計算的手段利用經驗來改善系統自身性能的學科。

現如今,幾乎所有的經驗都以數據的形式出現,因而機器學習的任務也就變成了基於已知數據構造概率模型,反過來再運用概率模型對未知數據進行預測與分析。如此一來,關於概率的不同認識無疑會影響到對模型的構建與解釋。

可在概率的應用上,頻率學派和貝葉斯學派的思路呈現出天壤之別,這種思維上的差異也讓兩派的擁護者勢同水火,都視另一方爲異端邪說。正因如此,在這個專欄的前兩篇文章中,我將首先和你理清頻率學派與貝葉斯學派對概率的不同觀點,爲接下來從不同的角度理解機器學習的各種算法打下紮實的基礎。

下面這個流傳已久的笑話,不經意間對頻率學派和貝葉斯學派的區別給出了形象的解釋:有個病人找醫生看病,醫生檢查之後對他說:“你這病說得上是九死一生,但多虧到我這裏來看了。不瞞你說,在你之前我已經看了九個得一同樣病的患者,結果他們都死了,那你這第十個就一定能看得好啦,妥妥的!”

如果病人腦子沒事,肯定就從這個糊塗醫生那裏跑了。顯然,醫生在看待概率時秉持的是頻率主義的觀點,但卻是個蹩腳的頻率主義者。之所以說他是頻率主義者,是因爲他對九死一生的理解就是十次手術九次失敗一次成功;說他蹩腳則是因爲他不懂頻率學派的基礎,區區九個病人就讓他自以爲掌握了生死的密碼。

歸根到底,頻率學派口中的概率表示的是事件發生頻率的極限值,它只有在無限次的獨立重複試驗之下才有絕對的精確意義。在上面的例子中,如果非要從頻率的角度解釋“九死一生”的話,這個 10% 的概率只有在樣本容量爲無窮大時纔有意義。因此即使“九死一生”的概率的確存在,它也不能確保第十個病人的康復。

在頻率學派眼中,當重複試驗的次數趨近於無窮大時,事件發生的頻率會收斂到真實的概率之上。這種觀點背後暗含了一個前提,那就是概率是一個確定的值,並不會受單次觀察結果的影響。

將一枚均勻的硬幣拋擲 10 次,結果可能是 10 次都是正面,也可能 10 次都是反面,寫成頻率的話就對應着 0% 和 100% 這兩個極端,代表着最大範圍的波動。可如果將拋擲次數增加到 100 次,出現正面的次數依然會發生變化,但波動的範圍更可能會收縮到 40% 到 60% 之間。再將拋擲次數增加到 1000,10000 的話,頻率波動的現象不會消失,但波動的範圍會進一步收縮到越來越小的區間之內。

基於以上的邏輯,把根據頻率計算概率的過程反轉過來,就是頻率統計估計參數的過程。頻率統計理論的核心在於認定待估計的參數是固定不變的常量,討論參數的概率分佈是沒有意義的;而用來估計參數的數據是隨機的變量,每個數據都是參數支配下一次獨立重複試驗的結果。由於參數本身是確定的,那頻率的波動就並非來源於參數本身的不確定性,而是由有限次觀察造成的干擾而導致。

這可以從兩個角度來解釋:一方面,根據這些不精確的數據就可以對未知參數的精確取值做出有效的推斷;另一方面,數據中包含的只是關於參數不完全的信息,所以從樣本估計整體就必然會產生誤差。

統計學的核⼼任務之一是根據從總體中抽取出的樣本,也就是數據來估計未知的總體參數。參數的最優估計可以通過樣本數據的分佈,也就是採樣分佈(sampling distribution)來求解,由於頻率統計將數據看作隨機變量,所以計算採樣分佈是沒有問題的。確定採樣分佈之後,參數估計可以等效成一個最優化的問題,而頻率統計最常使用的最優化方法,就是最大似然估計(maximum likelihood estimation)。

回憶一下最大似然估計,它的目標是讓似然概率最大化,也就是固定參數的前提之下,數據出現的條件概率最大化。這是頻率學派估計參數的基本出發點:一組數據之所以能夠在單次試驗中出現,是因爲它出現的可能性最大。而參數估計的過程就是賦予觀測數據最大似然概率的過程。這可以通過下面這個簡單的例子來說明:

“如果觀測到的數據 θi 是真實值 θ 和方差爲 σ2,但形式未知的噪聲 ei 的疊加,那麼如何得出 θ 的最優估計值?”

要用最大似然估計解決這個問題,首先就要對似然概率進行建模,建模中的一個重要假設是假定未知形式的噪聲滿足高斯分佈。這不僅在統計學中,在其他學科裏也是一個常用的假設。

從理論上說,在功率有限的條件下,高斯噪聲的信源熵最大,因而帶來的不確定性也就越大,換句話說,這是最惡劣的噪聲;從實踐上說,真實的噪聲通常來源於多個獨立的物理過程,都具有不同的概率分佈,中心極限定理告訴我們,當噪聲源的數目越來越多時,它們的疊加就趨近於高斯分佈,因而高斯噪聲就是對真實情況的一個合理的模擬。

在高斯噪聲的假設下,每個觀測數據 θi 所滿足的概率分佈就可以寫成

這實際上就是採樣分佈。計算所有數據的概率分佈的乘積,得到的就是似然函數(likelihood function)

求解似然函數的對數,就可以將乘法運算轉換爲加法運算

令對數似然函數的導數爲 0,就求出了使似然概率最大的最優估計

不知道你有沒有在上面的公式中發現一個問題:雖然真實值 θ 是個固定值,但估計值 θ̂ 卻是數據的函數,因而也是個隨機變量。

這一點其實很好理解,因爲估計值本質上是利用數據構造出來的函數,既然數據是隨機分佈的,估計值肯定也是隨機的。這意味着如果每次估計使用的數據不同,得到的估計值也不會相同。那麼如何來度量作爲隨機變量的估計值和作爲客觀常量的真實值之間的偏差呢?置信區間(confidence interval)就是頻率學派給出的答案。

置信區間的意義在於劃定了真值的取值範圍,真實的參數會以一定的概率 α 落入根據樣本計算出的置信區間之內。當然,這裏的概率還是要從頻率的角度來解讀:從同一個總體中進行 100 次採樣可以得到 100 個不同的樣本,根據這 100 個不同的樣本又可以計算出 100 個不同的置信區間。在這麼多個置信區間之中,包含真值的有多少個呢?100×α 個,剩下的 100×(1−α) 個置信區間就把真值漏掉了。這有點像亂槍打鳥:每一槍都亂打一梭子,打了 100 槍之後統計戰果,發現打下來 100×α 只鳥。如果把參數的真實值比喻成鳥,那麼每一槍轟出的一梭子子彈就是置信區間。顯然,置信區間的上下界和估計值一樣,也是隨機變量。

總結起來,頻率主義解決統計問題的基本思路如下:參數是確定的,數據是隨機的,利用隨機的數據推斷確定的參數,得到的結果也是隨機的。

這種思路直接把可能的參數空間壓縮成爲一個點:參數本身可能滿足這樣或者那樣的概率分佈,但一旦試驗的條件確定,參數表現出來的就是一個固定的取值,讓所有的概率分佈都失去了意義。這就像說即使上帝真的擲骰子,但從骰子脫手那一刻起,它的點數就不再受上帝的控制,也就變成了確定不變的取值。頻率主義者關注的就是這個真實存在的唯一參數,通過計算它對數據的影響來實現估計。

將頻率主義“參數確定,數據隨機”的思路應用在機器學習當中,得到的就是統計機器學習(statistical learning)。統計機器學習的做法是通過對給定的指標(比如似然函數或者均方誤差)進行最優化,來估計模型中參數的取值,估計時並不考慮參數的不確定性,也就是不考慮未知參數的先驗分佈。和參數相關的信息全部來源於數據,輸出的則是未知參數唯一的估計結果,這是統計機器學習的核心特徵。

受噪聲和干擾的影響,觀測數據並不是未知參數的準確反映,因此如何衡量估計結果的精確程度就成爲統計機器學習中的一個關鍵問題。損失函數(loss function)直接定義了模型性能的度量方式,其數學期望被稱爲風險(risk),風險最小化就是參數估計的依據和準則。但風險的計算並不能一蹴而就:估計最優參數需要計算風險,計算風險時需要在數據的概率分佈上對損失函數進行積分,可表示數據的分佈又需要依賴未知參數的精確取值。這就給頻率主義出了一個無解的問題:風險函數是沒有辦法精確求解的。

爲了解決這個問題,統計機器學習引入了經驗風險(empirical risk),用訓練數據的經驗分佈替換掉原始表達式中數據的真實分佈,藉此將風險函數轉化成了可計算的數值。在真實的學習算法中,無論是分類問題中的誤分類率,還是迴歸問題的中的均方誤差,都是經驗風險的實例,而所謂的最優模型也就是使經驗風險最小化(empirical risk minimization)的那個模型。

今天我和你分享了頻率學派對概率、統計學和機器學習的認識方式,其要點如下:

  • 頻率學派認爲概率是隨機事件發生頻率的極限值;

  • 頻率學派執行參數估計時,視參數爲確定取值,視數據爲隨機變量;

  • 頻率學派主要使用最大似然估計法,讓數據在給定參數下的似然概率最大化;

  • 頻率學派對應機器學習中的統計學習,以經驗風險最小化作爲模型選擇的準則。

有了這些理論之後,如何在實際問題中應用頻率主義的統計學呢?這裏有一個非常好的例子,來源於 Nature Biotechnology 第 22 卷第 9 期上的論文《什麼是貝葉斯統計學》(What is Bayesian statistics)。

在這個例子中,Alice 和 Bob 在進行一場賭局,先得到 6 分者獲勝。判斷得分的方式有一些特別:在賭局開始之前,荷官在賭桌上扔一個小球,在這個球停止的位置做個標記。顯然,這個標記的位置是隨機的。賭局開始後,荷官繼續扔球,如果球停到標記的左側,則 Alice 得分;反之停到標記右側,則 Bob 得分,這就是賭局的計分規則。那麼問題來了:在這樣的規則下,Alice 現在以 5:3 領先 Bob,那麼 Bob 反敗爲勝的概率是多大呢?

要計算 Bob 獲勝的概率,必須要藉助一個參數,那就是 Alice 得分的概率,不妨將它設爲 p,那麼 Bob 得分的概率就是 1−p。概率 p 取決於標記在賭桌上的位置,由於位置本身是隨機的,p 也就在 [0, 1] 上滿足均勻分佈。按照頻率主義的觀點,在這一場賭局中,p 有固定的取值,並可以通過已有的得分結果來估計。估計出 p 後就可以進一步計算 Bob 獲勝的概率。這個問題就作爲今天的思考題目,你可以計算一下。

但是,這個問題並沒有到此爲止。如果跳出頻率主義的限制,把 p 的概率分佈引入到計算之中,又會得到什麼樣的結果呢?

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章