概率與分佈密度 貝葉斯理論入門 數據挖掘基礎入門

概率Probability,先驗概率Prior,後驗概率Posterior

  • 概率是一個衡量不確定性的工具。

一個例子:我們來估測某一個人的生日是十月份的概率,在沒有任何數據樣本的情況下,我們可以估計這個概率是Pr(October)=1128.3Pr(October) = \frac{1}{12}\approx8.3%.

現在假設我們有了幾萬個樣本,通過統計這幾萬個樣本的生日月份,繪製出數據分佈圖:
在這裏插入圖片描述

然後通過計算,根據這個數據樣本,發現總共有7%的人的生日是十月份的,這就與沒有數據的8.3%的估計不同了。Pr(OctoberD)=7%Pr(October|D)=7\%


  • 這裏的先驗概率Prior,就是沒有數據樣本時候的估計概率,就是8.3%;
  • 後驗概率Posterior,就是有了數據樣本的估計概率7%。

概率分佈

  • 概率分佈就是probability distribution
  • 如果這個隨機變量X是離散的,就是像上面的例子一樣,一月二月三月這樣離散的,那麼就叫做概率分佈probability distribution
  • 如果這個隨機變量X是一個連續變量,那麼就叫做概率密度分佈probability density function

累積分佈函數CDF

  • Cumulative distribution function累積分佈函數
  • 按照上面生日的例子來說,累積分佈函數就是前面概率的累加,Pr(XOctober)Pr(X\leq October),就是這個人的出生的月份在1月到10月之間的概率,就是把概率分佈累加起來了。

多元隨機變量Multivariate Random Variable

  • 對於多元隨機變量,概率分佈就叫做聯合概率分佈joint distribution。如果多元隨機變量是連續的,那麼就是聯合概率密度分佈Joint density distribution.

獨立independent

對於多元隨機變量而言,隨機變量之間是要考慮是否獨立。兩個變量之間沒有關係,就是獨立。

  • If there is no relationship between two random variables, they are called independent.
    在這裏插入圖片描述
  • 條件獨立conditionally independent就是給定一個條件Z,X和Y纔是獨立的。

這裏注意幾個概念:

  • Correlation和relationship不一樣,relationship一般就是指是否獨立independence。
  • Correlation是指兩個變量之間的相關性,與獨立沒有必然聯繫。
  • 因果性causaation,一般也是指relationship和independence。
  • Correlation可能存在,但是因果性不存在;correlation可能不存在,但是因果性存在,兩者之間不存在必然關係。但是一般來說因果性存在,那麼correlation應該是存在。

模型與樣本

在這裏插入圖片描述
從數據挖掘的角度來說,我們並不是用線性迴歸、神經網絡這些模型去擬合樣本。上圖中的MODEL不是指線性歸回這些的模型,而是一種更加本質的東西,是萬物運行的機理。我們這些樣本就是從這萬物機理中獲得到的觀測數據,我們無法直接獲得到這個本質的機理,所以只能通過觀測獲取樣本,然後用樣本訓練模型去擬合這個本質的機理。

每一個本質都看作一個概率密度,每一個樣本其實可以看做從本質中的採樣。樣本通過概率從本質中進行採樣,然後通過樣本的數據描述Statistical inference來對本質進行描述。而這個Statistical inference就是我們使用的線性迴歸,貝葉斯理論,神經網絡這些模型。

貝葉斯理論Bayes theorem

考慮上面的例子,想要判斷一個人的生日是那個月份。我們提出了一個假設,假設這個人的生日是十月份的,如何驗證這個假設呢?

  • 通常我們使用貝葉斯理論Bayes theorem去驗證一個假設,再給出一個數據庫的情況下。
  • 假設假設這個人的生日是十月份的θ\theta來表示,
  • 所以之前提到的先驗概率Prior:Pr(θ)=1128.3Pr(\theta)=\frac{1}{12}\approx8.3%
  • 後驗概率Posterior:Pr(θD)=7%Pr(\theta|D)=7\%,就是給出了數據庫的概率。
  • 似然Likelihood:Pr(Dθ)Pr(D|\theta),就是後驗概率的反過來的概率。
  • 貝葉斯理論就是將上面三個概率結合起來:Pr(θD)=Pr(Dθ)Pr(θ)Pr(D)Pr(\theta|D)=\frac{Pr(D|\theta)*Pr(\theta)}{Pr(D)}

按照上面的例子,這個人的生日的月份,我們給出的答案應該是Pr(θD)Pr(\theta|D)最大的那個假設,Pr(OctoberD)=7%Pr(October|D)=7\%,所以生日是十月份的概率是7%。所以我們可以得到下面的公式,一般也叫做天真貝葉斯分類器:
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章