概率Probability,先驗概率Prior,後驗概率Posterior
- 概率是一個衡量不確定性的工具。
一個例子:我們來估測某一個人的生日是十月份的概率,在沒有任何數據樣本的情況下,我們可以估計這個概率是.
現在假設我們有了幾萬個樣本,通過統計這幾萬個樣本的生日月份,繪製出數據分佈圖:
然後通過計算,根據這個數據樣本,發現總共有7%的人的生日是十月份的,這就與沒有數據的8.3%的估計不同了。。
- 這裏的先驗概率Prior,就是沒有數據樣本時候的估計概率,就是8.3%;
- 後驗概率Posterior,就是有了數據樣本的估計概率7%。
概率分佈
- 概率分佈就是probability distribution
- 如果這個隨機變量X是離散的,就是像上面的例子一樣,一月二月三月這樣離散的,那麼就叫做概率分佈probability distribution
- 如果這個隨機變量X是一個連續變量,那麼就叫做概率密度分佈probability density function
累積分佈函數CDF
- Cumulative distribution function累積分佈函數
- 按照上面生日的例子來說,累積分佈函數就是前面概率的累加,,就是這個人的出生的月份在1月到10月之間的概率,就是把概率分佈累加起來了。
多元隨機變量Multivariate Random Variable
- 對於多元隨機變量,概率分佈就叫做聯合概率分佈joint distribution。如果多元隨機變量是連續的,那麼就是聯合概率密度分佈Joint density distribution.
獨立independent
對於多元隨機變量而言,隨機變量之間是要考慮是否獨立。兩個變量之間沒有關係,就是獨立。
- If there is no relationship between two random variables, they are called independent.
- 條件獨立conditionally independent就是給定一個條件Z,X和Y纔是獨立的。
這裏注意幾個概念:
- Correlation和relationship不一樣,relationship一般就是指是否獨立independence。
- Correlation是指兩個變量之間的相關性,與獨立沒有必然聯繫。
- 因果性causaation,一般也是指relationship和independence。
- Correlation可能存在,但是因果性不存在;correlation可能不存在,但是因果性存在,兩者之間不存在必然關係。但是一般來說因果性存在,那麼correlation應該是存在。
模型與樣本
從數據挖掘的角度來說,我們並不是用線性迴歸、神經網絡這些模型去擬合樣本。上圖中的MODEL不是指線性歸回這些的模型,而是一種更加本質的東西,是萬物運行的機理。我們這些樣本就是從這萬物機理中獲得到的觀測數據,我們無法直接獲得到這個本質的機理,所以只能通過觀測獲取樣本,然後用樣本訓練模型去擬合這個本質的機理。
每一個本質都看作一個概率密度,每一個樣本其實可以看做從本質中的採樣。樣本通過概率從本質中進行採樣,然後通過樣本的數據描述Statistical inference來對本質進行描述。而這個Statistical inference就是我們使用的線性迴歸,貝葉斯理論,神經網絡這些模型。
貝葉斯理論Bayes theorem
考慮上面的例子,想要判斷一個人的生日是那個月份。我們提出了一個假設,假設這個人的生日是十月份的,如何驗證這個假設呢?
- 通常我們使用貝葉斯理論Bayes theorem去驗證一個假設,再給出一個數據庫的情況下。
- 假設假設這個人的生日是十月份的用來表示,
- 所以之前提到的先驗概率Prior:
- 後驗概率Posterior:,就是給出了數據庫的概率。
- 似然Likelihood:,就是後驗概率的反過來的概率。
- 貝葉斯理論就是將上面三個概率結合起來:
按照上面的例子,這個人的生日的月份,我們給出的答案應該是最大的那個假設,,所以生日是十月份的概率是7%。所以我們可以得到下面的公式,一般也叫做天真貝葉斯分類器: