獨家 | 一文帶你熟悉貝葉斯統計

作者:Matthew Ward

翻譯:陳之炎

校對:陳丹

本文約5000字,建議閱讀10+分鐘

本文爲你帶來貝葉斯統計的基礎示例及全面解釋。

標籤:貝葉斯統計

 

圖:Unsplash,Chris Liverani

 

貝葉斯統計這個術語最近被廣泛使用。它常用於社交場合、遊戲和日常生活中,如棒球、撲克、天氣預報、總統選舉投票等。

在許多科學領域,可以用貝葉斯統計來確定粒子物理和藥物有效性實驗的結果,它還可用於機器學習和人工智能,以預測你想看什麼新聞故事或觀看什麼Netflix節目。

不管是否對它有充分的理解,貝葉斯統計已融入了我們的日常生活當中,爲此,筆者想通過本文對貝葉斯統計做全面的解讀,通過一個詳盡的例子來展示這個術語的含義。一旦你理解了這個例子,那麼便基本上理解了貝葉斯統計。

首先,在讀本文之前,假設讀者事先對Bayes定理有所熟悉,願意把公式當成一個黑匣子的讀者,也不成問題。如果需要複習一下貝葉斯定理的話,可以到 Medium resources(https://towardsdatascience.com/bayes-theorem-the-holy-grail-of-data-science-55d93315defb)中查找相關資源。

 

示例和原始觀察

這是教科書中經常用到的一個經典例子,我是十多年前在John Kruschke的《DoingBayesian Data Analysis: A Tutorial Introduction with R》中首次瞭解到它的,現在已經找不到當時的副本拷貝了,所以這裏的任何內容重複純屬偶然。

還是從拋硬幣實驗開始,把一個硬幣翻轉N次,每次出現正面時記錄一個1,每次出現背面時記錄一個0,這便構成了一個數據集。利用這個數據集和Bayes定理,我們想弄清楚拋硬幣的結果是否有偏差,以及這個實驗的置信度。

技術含量的內容來了:首先定義θ是出現正面的偏差——即硬幣落地時出現正面的概率。

這意味着,如果θ=0.5,那麼沒有偏差,正反面出現的概率完全均等。如果θ=1,那麼硬幣就永遠不會出現反面。如果θ=0.75,那麼如果翻轉硬幣的次數足夠大的話,將看到大約每4次翻轉中有3次出現正面。

 

爲此,定義 y爲硬幣是否落在正面或背面的特徵。這意味着y只能是0(反面)或1(正面),可以用P(y=1|θ)=θ對這些信息進行數學編碼。

打開天窗說亮話:如果硬幣爲正面的概率是θ,那麼出現正面的偏差便是θ。

同理: P(y=0|θ)=1 - θ

現在,把多次硬幣實驗串起來,當拋擲N 次硬幣時,出現a 次正面(雖然,重複使用a 不太應該,但這樣卻使得後續符號標註更爲便捷)。

由於硬幣翻轉相互獨立,只需將概率相乘,於是:

爲了避免使用總數N和減法 ,通常定義b爲出現反面的次數,寫成:

 

讓我們舉兩種特例來做一個快速的合理性檢查,以確保上述表達式的正確性。

假設: a,b≥ 1. 則:

  • 當偏差趨於零時,概率也趨於零。這是預料中的,因爲我們觀察到α個正面 (a≥1),所以完全偏向反面是非常不可能的。

  • 同樣,當θ接近1時,概率趨近於0,因爲觀察到至少有一次翻轉出現了反面。

如果你已經目瞪口呆了,那麼我鼓勵你停下來,再真正地思考一下這個問題,從而獲得一些關於符號的直覺。它只涉及基礎概率和變量的數目。

另一種特殊情況是:當a=0或b=0時。在b=0的情況下,將連續獲得a次正面的概率定義爲:θα。

接下來,離得出正確的結論還有一定的距離,因爲在這個示例中,有一個固定的數據集(正面和反面的集合)需要分析。

因此,從現在開始,應該考慮a和b固定的數據集的情況。

 

貝葉斯統計

隨着θ在[0,1]之間的變化,獲得一個分佈函數P(a,b|θ)。接下來,要做的是將它乘以一個常數,把它當作是概率分佈。

其實,這就稱之爲beta分佈(注意:我在此處省略了它的表達式),只將它記作β(a,b)。

我們乘的數是下面這個式子的倒數 :

稱爲(移位)β函數。再說一遍,如果沒有理解的話,可以忽略它。它只是將分佈轉換爲概率分佈。如果我不提的話會有人打電話給我。

似乎不需要這麼複雜地把它看作是Θ的概率分佈 ,但這實際上正是我們要求的。來看以下三個例子:

紅色的表示,如果觀察到2個正面和8個背面,那麼硬幣偏向背面的概率就更大,均值出現在0.20,由於沒有足夠的數據,在其他地方出現正面的可能性或許更高,存在真正的偏差。

中間曲線說明:如果觀察到5個正面和5個背面,那麼最有可能的是偏差是0.5,同樣還有很大的誤差空間。如果試驗次數足夠多,獲得了更多的數據,猜測則更有信心,這種情況也是我們所期望的:

當觀察到50個正面和50個背面時,可以說置信度95%,真實偏差在0.40到0.60之間。

此時,你可能會反駁道:這只是普通的統計,哪裏是貝葉斯定理?說得對。因爲現在不是在真空中建立統計模型,所以纔會有貝葉斯定理,偏差存在先驗概率。

先寫下該案例中的Bayes定理:想通過觀察到的數據求出偏差的概率θ,用到了Bayes定理的連續形式:

我只是想讓大家對貝葉斯統計有一個感覺,所以我不會詳細地去推導這個簡化的式子。只需注意“後驗概率”(方程的左邊)即:在已知數據後得到的分佈,似然度乘以先驗概率再除以標準化常量。

現在,如果你的分母是B(a,b),那麼並計算出的結果將會是另一個β分佈!如果你們能理解這些定義,那這並不是太難的練習,但如果你相信了這一點,那麼你會看出這樣做多麼美妙 。

如果先驗偏差具有分佈β(x,y),數據出現a個正面和b個反面,得到:

P(θ|a,b)=β(a+x, b+y).

根據這個模型中的數據來更新置信度的方式真是無比簡單!

現在來檢查一下它是否真的有意義 。假設偏差未知,將可以導出先驗概率分佈β(0,0)是一條平直的線,即所有的偏差都有同樣的可能。

來做一個這樣的實驗,翻轉4次硬幣,觀察到3個正面和1個背面。貝葉斯分析告訴我們,後驗概率分佈是β (3,1):

哎呀!不確定性太大了,看起來這種偏差在很大程度上是針對正面的。

危險:這是因爲我們使用了一個錯誤的先驗概率。在現實世界中,將偏差0.99與0.45等同起來是不合理的。

來看看,如果使用一個更爲溫和的先驗概率分佈β(2,2),此時假設偏差最有可能接近0.5,無論數據說明了什麼,它依然是對的。

在這種情況下, 3個正面和1個背面的結果更新爲概率分佈是β(5,3):

啊,好多了,可以觀察到3次正面和1次背面,不要忽略這些數據,新的概率受到了先驗概率的影響。

這就是貝葉斯統計的偉大之處!如果我們有大量的數據,那麼即便觀察到一些偏離點也無傷大雅。

另一方面,只要數據足夠充分,即使我們99%肯定某件事也可以接受。這只是一句口頭禪的數學形式化:非凡的主張需要非凡的證據支持。

因爲只有大量的數據才能夠證明硬幣偏差是0.90,所以需要有大量的數據,這也是非貝葉斯分析的部分缺陷。如果我們沒有大量的數據,並且偶爾抽到了一些異常值,那麼就更容易相信這種偏差了。

現在應該瞭解貝葉斯統計的工作原理了吧,如果理解了這個示例,那麼其餘的大部分工作只是添加參數和更新版本,實際上,通過上述內容已經對這個術語的含義有了一個非常到位的瞭解。

 

得出結論

接下來,需要解釋的主要問題是如何處理數據,在對數據進行分析之後,如何得出結論?

你可能經常聽到做統計的人談論“95%的置信度”。幾乎在每一堂統計課程中都會提到置信區間,同樣需要找出貝葉斯統計的相應概念。

標準的術語稱之爲最高密度區間(HDI):95%的HDI意味着一個區間,其分佈下的面積爲0.95(即:分佈的95%的區間),該區間中的每個點都比區間以外的任何點具有更高的概率:

 雖然看起來不像,但是應該是完全對稱的

首先要正確地畫出間隔,注意,陰影區域的曲線上的點的概率都高於區域外曲線上的點的概率 (即:可能性更大)。

注:依然有很多置信度爲95%的間隔爲非HDI。第二幅圖便是這樣一個例子,即使曲線下的面積是0.95,大紫點也不在區間內,而且高於左邊一些包含在該區間內的點。

最後,如果這個值的一些小鄰域完全位於95%的HDI內,則稱偏差θ₀是可信的,這個小閾值通常稱爲實際等價區(ROPE),它是必須設置的一個值。

將其設爲0.02,如果從0.48到0.52的整個間隔均在95%的HDI內,那麼這是一個可信的假設。

注意,由於函數本身的複雜性,計算beta分佈的HDI實際上非常難。沒有完美的解決方案,所以通常情況下,可以通過查表來得出計算結果,或者以某種方式取它的近似值。

均值爲μ=a/(ab),標準差爲:

確實有對應的表格。

在本文中,我使用“兩個標準差”規則來近似,該規則爲均值兩邊的兩個標準差的區間內的置信度約爲95%。

注意,如果分佈曲線比較陡,例如,概率分佈爲β(3,25),那麼這種近似會產生偏差。

回到以上相同例子,添加這一新術語,看看它是如何工作的。假設偏差未知,令先驗概率分佈β(0,0)爲平坦直線。

這表明,所有的偏差都同樣有可能發生。現在來做一個實驗,觀察到3個正面和1個背面。貝葉斯分析告訴我們,新分佈是β(3,1)。

此時,置信度95%的HDI約爲0.49~0.84。爲此,可以肯定地說,真正的偏差發生在這個區間。請注意,猜測硬幣正反面是等概率的(偏差爲0.5),而不是一個假設,區間[0.48,0.52]不完全在HDI 之內。

這個例子說明了選擇不同閾值的重要性,因爲如果選擇間隔爲0.01而不是0.02,那麼拋擲硬幣是等概率的假設是可信的(因爲[0.49,0.51]完全在HDI之內)。

讓我們來看一下,如果使用一個稍微合理的先驗概率分佈β(2,2),假設:拋擲硬幣是等概率事件,根據數據得出的結論是顯而易見的。

此時, 3個正面和1個背面告訴我們,後驗分佈函數是β(5,3)。置信區間爲 95%的HDI爲0.45~0.75。使用相同的數據,得到了更窄的間隔,尤爲重要的是,我們對硬幣是等概率時間的說法更爲信服,所以這是一個可信的假設。

從而可以推導出一種“統計不確定性原則”,如果要獲取大的確定性,那麼會使間隔變得越來越寬。直觀地說,如果給定一個範圍, 99.999999%確定的偏差均在這個範圍之內,那麼幾乎給出了所有的可能性。

如果想要找出精確的偏差點,那麼必須放棄確定性(除非處於一種極端的情況下,分佈是一個非常尖銳的尖峯)。你會得到這樣的結果:可以用1%的確定性說,真實偏差在0.59999999到0.60000001之間。

如果已經鎖定了一個小範圍,則必須放棄確定性。這與海森堡不確定性原理相類似,海森堡不確定性原理表明:越精確地知道一個粒子的動量或位置,就越無法準確地知道另一個粒子的動量或位置。

 

總結

總結一下,準確地搭建統計模型需要注意的幾個要點。對貝葉斯模型持反對意見的人認爲,可以通過主觀地選擇先驗概率,從而得出任何你想要的答案。

抽象地說,這種反對意見本質上是正確的,但在現實實踐中,可以繞開它。下面對如何進行貝葉斯統計做一下總結。

第一步是寫出似然函數P(θ|a,b),在上述例子中,爲β (a,b),直接從收集的數據中得出,這完全由數據來決定。

第二步是確定先驗分佈,在這一步可以有所選擇,但同時也是一種約束。在現實生活統計中,可能會有很多先驗信息,根據這些信息決定如何選擇。

回想一下,我們對認爲可能是真實的事實進行了先驗編碼,並定義了它的置信度。假設根據投票數據來預測誰將贏得選舉,需要建立了一個模型,給定有前一年的數據,收集的數據經過測試後,便知道它有多準確!

因此,在已有數據基礎上計算先驗概率,是一個明智的選擇,因爲在這裏只有一種選擇,這並不意味着,可以任意選擇你想得出的結論。

在此不再贅述了,在上述例子中,如果隨機選擇一個硬幣的先驗概率分佈β(100,1),並希望它出現偏差,那麼有權視模型爲無用的。

先驗概率必須已知,並且必須是合理的。如無法證明先驗概率,那麼就不可能得出一個好的模型。先驗概率的選擇是一個特性,而不是一個bug。如果說貝葉斯模型比所有其他模型都精確得多,那是因爲它沒有忽略先驗知識。

當貝葉斯統計的反對者使用“先驗的任意性”作爲理由時,它的失效的確令人沮喪。另一方面,學者們應該在的科學論文中對先驗概率做更爲深入的研究,以避免出現任何不必要的偏差。

第三步是設置一個ROPE,以明確特定的假設是否可信。這隻裏規定了在置信區間爲95%的HDI邊緣考慮正確的猜測是否可信。

誠然,這一步確實相當武斷,但每個統計模型都存在這個問題,它非貝葉斯統計所獨有,在現實生活中也不是一個典型的問題。如果某件事離HDI太近,那麼可能需要更多的數據。

如果你是一名科學家,那麼就應重新做實驗,或者你得承認,這可能會得出另一種結果。

原文標題:

What is Bayesian Statistics?

原文鏈接:

https://medium.com/cantors-paradise/what-is-bayesian-statistics-3bc39b19c45f

offrey-hinton-deep-learning-will-do-everything/

編輯:黃繼彥

校對:楊學俊

譯者簡介

陳之炎,北京交通大學通信與控制工程專業畢業,獲得工學碩士學位,歷任長城計算機軟件與系統公司工程師,大唐微電子公司工程師,現任北京吾譯超羣科技有限公司技術支持。目前從事智能化翻譯教學系統的運營和維護,在人工智能深度學習和自然語言處理(NLP)方面積累有一定的經驗。業餘時間喜愛翻譯創作,翻譯作品主要有:IEC-ISO 7816、伊拉克石油工程項目、新財稅主義宣言等等,其中中譯英作品“新財稅主義宣言”在GLOBAL TIMES正式發表。能夠利用業餘時間加入到THU 數據派平臺的翻譯志願者小組,希望能和大家一起交流分享,共同進步。

翻譯組招募信息

工作內容:需要一顆細緻的心,將選取好的外文文章翻譯成流暢的中文。如果你是數據科學/統計學/計算機類的留學生,或在海外從事相關工作,或對自己外語水平有信心的朋友歡迎加入翻譯小組。

你能得到:定期的翻譯培訓提高志願者的翻譯水平,提高對於數據科學前沿的認知,海外的朋友可以和國內技術應用發展保持聯繫,THU數據派產學研的背景爲志願者帶來好的發展機遇。

其他福利:來自於名企的數據科學工作者,北大清華以及海外等名校學生他們都將成爲你在翻譯小組的夥伴。

點擊文末“閱讀原文”加入數據派團隊~

轉載須知

如需轉載,請在開篇顯著位置註明作者和出處(轉自:數據派ID:DatapiTHU),並在文章結尾放置數據派醒目二維碼。有原創標識文章,請發送【文章名稱-待授權公衆號名稱及ID】至聯繫郵箱,申請白名單授權並按要求編輯。

發佈後請將鏈接反饋至聯繫郵箱(見下方)。未經許可的轉載以及改編者,我們將依法追究其法律責任。


點擊“閱讀原文”擁抱組織

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章