信息論、貝葉斯及機器學習

文章首發於 信息論及貝葉斯

引言

1956年,讓機器來做聰明的事情的科學被稱爲“人工智能”。直到1997年,人類才創造出來能下象棋的電腦並打敗了世界冠軍。通過這樣的一個例子及數字計算機的發展歷史表明,感知其實是一個很難解決的問題。但是,我們的腦卻能夠很簡單的解決這個問題,這是否意味着,數字計算機不是人腦的一個好隱喻?或者,我們需要爲計算機的運行找新的運算方式?

同時信息論的發展使得我們看到物理事件和電脈衝是如何轉化爲精神事件和訊息的。但是,在其最初表達中存在一個根本的問題。一條信息中的信息量,或者更通俗的說,任何刺激中的信息量完全由那個刺激源來決定,這種界定信息的方法看上去很完美,實際上會產生自相矛盾的結果。

比如在圖像的處理中,圖片是由像素點組成的,以此形成不同的顏色。比如看這樣一張圖片,它是一張簡單的以白色爲背景的黑色正方形的圖片,這張圖片中的哪些要素含有最多的信息?當我們的眼睛掃過一個顏色不變的區域的時候, 因爲沒有任何的改變,就不會產生任何的驚奇感。而當我們眼睛掃到邊緣的時候,顏色突然變化,我們就會感到“驚奇”。因此,根據信息論,圖片的邊緣所含的信息量是最大的,這和我們的直覺也確實是相符的,假如我們用輪廓來代替這個 物體,換句話說,只留下有信息的邊緣,我們仍然能夠認出這個物體。


但是,這種表述實際上是自相矛盾的,按照這種界定,當我們用眼睛掃一幅圖片的時候,我們預測不到接下來會發生什麼,這樣子的圖片所含的信息量最多,完全由隨機的點構成。比如電視機出現故障的時候出現的“雪花”屏幕,如果說這樣子的圖片含有最豐富的信息,恐怕你是不會同意的。

出現這種矛盾的問題在於,信息論沒有考慮到觀看者本身,更根本的說,是沒有考慮到觀看者的先驗知識和預期期望,這些不同會明顯的影響我們對事物的感知。

比如剛剛提到的黑色正方形,對於一些觀看者來說,這就是一個黑色正方形,但是這個黑色正方形是俄羅斯繪畫至上主義者的幻想、非具象藝術的首例,它是 Kazimir Malevich 於20世紀20年代年展示的。這個例子裏,知道“這是一件重要的藝術品”的先驗知識,可以改變你對這個黑色正方形的感知,雖然它的信息量並無改變。

Thomas Bayes 牧師

那麼如何修正信息論使它能夠考慮到觀察者的不同經歷和期望呢?我們可以說一條訊息攜帶的信息量可以達到改變接受者對世界信念的程度。要知道訊息承載了多少信息量給接收者,我們就得在訊息到達之前瞭解接收者的信念,然後才能知道接受者在收到訊息之後的信念改變了多少。但是,能否測量出接受者前先前的信念和信念的變化呢?

這個問題的答案就是每個學習過概率論和數理統計的人都知道的貝葉斯定理。


提出貝葉斯定理的 Thomas Bayes 牧師不是一個墨守成規的人,他的一生(1702-1761)沒有發表過一篇論文,但是他在1742年卻成爲了英國皇家學會的會員。直到去世後兩年,他的經典論文才被髮表,而後的一百多年來,他的經典論文依然爲人遺忘而無人問津。直到20世紀20年代,他才聲名鵲起。對於當時的英國皇家協會主席和統計學界的人看來,Bayes 是一個的的確確的偉人,而在統計學界之外,他毫無名氣,而且那些瞭解貝葉斯統計的人也常常認爲它缺少適當的客觀性。

然而,20世紀末至今,Thomas Bayes 成爲了一個超級巨星。如今當你學習概率論或者想要入門人工智能,一個繞不過去的坎就是貝葉斯定理以及由此引發出的各種理論。

貝葉斯定理火起來之後,也導致了統計學的貝葉斯學派和頻率學派的不休的爭論。理解這二者的區別,對於理解貝葉斯定理也有一定的幫助,這裏就簡單的說一下。

頻率學派

頻率學派認爲,我們要觀察的現象,其分佈是確定的,是一直不變的,而我們所需要做的就是不斷的做試驗來接近它。因此對於頻率學派來說,可以通過大量的獨立重複實驗,觀察事件出現的頻率來估計它出現的概率。針對模型 P(x;θ來說,頻率學派認爲模型的參數是存在且固定的,我們要做的就是求出讓 P(x;θ值最大的參數 θ(我們認爲這樣的參數更接近於客觀存在的那個真實的參數),也就是通過不斷的調整參數來使得通過該模型在該參數下我們所觀察到的現象出現的概率最大。

可以看出頻率學派是針對似然來進行建模的,他更關心的的是似然P(x;θ),也就是在怎樣的參數 θ下能使得我們所觀察到的現象出現的概率最大。因此針對這樣的關注重點,通常使用極大似然法來求解模型參數。
基於這種思想的方法,其缺點很明顯,就是
很容易過擬合,因爲它的目標是盡最大努力來重現當前觀察到的數據,這就是這種方法最大的問題所在。因此如何解決過擬合問題是基於頻率思想方法必然要考慮的。通常我們會使用以下兩種方法來緩解過擬合問題:(當然不限於此類問題的解決,很多其他的算法都可以用這些方法來解決 Over Fitting 的問題)

    • 使用交叉驗證方法

    • 使用L1L2正則化,即在目標函數中加入正則項(罰項);

貝葉斯學派

對於貝葉斯學派,它不再相信上帝的存在,即不再相信任何的事件發生的背後都擁有一個固定不變的分佈,而更傾向於認爲世界上所有的事情都是不確定的,而這種不確定性更多是由於觀察者自身所儲備的先驗知識所帶來的。因此對於貝葉斯學派,其通常會基於觀察到的事件來假設一個先驗分佈P(y),然後利用貝葉斯公式:

對先驗分佈的一個修正。因此對於貝葉斯學派,其認爲對於事物的觀察是一個不斷學習不斷修正的過程。

這裏站在腦認知的層面對上面的貝葉斯公式做一個解釋,假定現象 y 是我們要了解的,觀察資料 是關於 y 的證據,貝葉斯定理告訴我們,鑑於新證據 x,我們應該更新多少關於 的知識。我們可以先不必擔心這個等式的細節。重要的是,這個等式恰好是我們一直在尋找的關於信念的數學等式。在這裏,表達信念的數學術語是概率。概率提供了我們對某事的信任尺度。當我們對於某件事是完全確定的時候(比如太陽從東方升起),概率就是 1,可以表示爲 p(日出東方)=1。如果確定某件事不會發生,那麼概率就是 0。但是,我們大部分的時候信念是不堅定的,處於 0 和 1 之間,比如 p(今天上班可能要遲到)=0.5,我得到了新的證據,那麼這個處於中間的信念的概率就會不斷地修正調整,比如上班之前,看了天氣預報,等下要下大暴雨,那麼這個信念可能就會發生顯著地變化,當然有時候可能並不會發生什麼變化。

貝葉斯定理可以精確的說明在已知新證據   的情況下,我們應該改變多少關於  y  的信念,這個等式中,P(y) 是新證據   出現之前我對於  y  的先驗信念。 P(x|y) 是在  y  確定的前提下,得到證據   的可能性。 P(y|x) 是在考慮新證據後我對於  y  的後驗信念。

結語

而事實上,我們可以認爲我們對世界的感知是一種與現實相符的幻覺。

首先我們對於現實世界的感知的一切都來自於腦的反饋,而大腦是如何做出一個判斷的呢?比如在你看到這篇文章的每個字,每個標點,每句話的時候,我們的大腦是如何做出判斷的呢?

顯然,腦的判斷來自於各個感官(眼睛、耳朵等)的感覺,綜合各個感官所提供的證據 P(x|y) 我們的大腦會做出一個基於我們已有的先驗知識的判斷。

當大腦的判斷出現錯誤或者誤差的時候,我們的大腦也會利用這些新的誤差(新的證據)來更新我們對於世界的信念,併產生一個更好的信念P(y|x ,一旦這種更新發生,我們的腦就對世界產生了一個新的信念,並通過感官察覺的活動模式進行新的預測。大腦每重複一次這樣的過程,每循環一次,預測的誤差就會減少一些,當誤差變得足夠小的時候,大腦就可以“知道”外在世界的東西到底是何物了,這在某程度上來說,這正是我們學習的過程。(而此時是否是真的知道呢?是否可以如這一節開頭所說“我們對世界的感知是一種與現實相符的幻覺”?)。

這樣一個認知的過程,除了在學習新的信念(比如學習新語言或者技能)的時候,我們能深刻的體會到,大部分時候我們是幾乎體驗不到的,因爲,處理平常判斷的時候,大腦的運算速度非常之快,快到我們自以爲判斷客觀世界的物體到底是何物是一件輕而易舉的事情,但是我們的大腦卻永遠的陷入這種永無止境的貝葉斯預測和更新循環當中。

所以,先驗知識是非常重要的學習依據,當我們面對一個毫無先驗知識的物體的時候,恐怕真的會像《West World》中的 host 那樣脫口而出一句話:“It doesn’t look like anything to me”。

而這種思維易於用計算機模擬從而在機器學習領域的應用也非常廣泛且效果顯著,在後面的文章中會詳細說明貝葉斯思維在機器學習、模式識別方面的種種應用。

下一次的主題是最小二乘法。

本文的大部分內容摘自《心智的構建——腦如何創造我們的精神世界》一書,這是一本很久前讀的書,最近學習機器學習的時候,覺得貝葉斯這一塊有種似曾相識的熟悉(先驗知識的“作祟”),仔細一想便想到這本書中談到過,因此,重新翻出,形成本文,對於腦科學和認知科學感興趣的同學推薦閱讀一下,是一本不可多得的好書。

文獻引用


  1. 1.Chris Frith . 心智的構建[M]. 華東師範大學出版社,2012-7.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章