深度學習和機器學習中的數學(二)——概率統計

一、概述

  1. 基本概念

在這裏插入圖片描述
2. 事件的運算關係

在這裏插入圖片描述4. 事件的運算

交換律: A U B = B U A AB = BA
結合律:(A U B) U C = A U (B U C)
分配律: A U (BC) = (A U B)(A U C); A (B U C) = (AB) U (AC)

5.   排列組合     

排列:從給定個數的元素中取出指定個數的元素進行排序
在這裏插入圖片描述

組合:從給定個數的元素中取出指定個數的元素,不考慮排序
在這裏插入圖片描述

二、概率

1. 古典概率

古典概率:古典概率通常又叫事前概率,是指隨機事件中各種可能發生的結果及其出現的次數都可以由演繹和外推法得知,而無需經過任何統計試驗即可計算各種可能發生結果的概率。

P(A) = 事件A包含的基本事件數 / 全部可能的基本事件

或:

P(A) = 事件A所佔區域大小 / 樣本空間所佔區域大小

大數定理:在試驗不變的條件下,重複試驗次數越多,隨機事件的頻率近似於它的概率。重複次數越多,概率越準確。

2. 條件概率

事件A在另一個事件B已經發生條件下發生的概率,記作 P(A | B)

3. 聯合概率

事件A和事件B同時發生的概率,記作 P(AB)

4. 邊緣概率

在多元的概率分佈中,單個隨機變量的概率,記爲P(A)

聯合概率和邊緣概率:
在這裏插入圖片描述

5. 判別模型和生成模型

判別模型:—— 條件概率
生成模型:—— 聯合概率

6. 概率運算公式

在這裏插入圖片描述幾種變形公式:

P(AB) = P(A | B ) P(B)
P(A | B ) = P(AB) / P(B)
P(B) = P(AB) / P(A | B )

一般常見的公式如下(這也是生成模型設計的思想): 其中:B 表示隱變量,也是原因,控制A生成的條件。

在這裏插入圖片描述

7. 事件獨立性

事件同時發生的概率等於各自發生概率的乘積。
P(AB) = P(A)P(B)

8. 事件互斥性

事件A或事件B發生的概率等於分別發生概率的和,則A,B 互斥。
P(A +B ) =P(A) + P(B)

9、全概率

定義:

若事件A1,A2,…An構成一個完備事件組,且都有正概率,則對任意一個事件B,有如下公式成立:

在這裏插入圖片描述

例題:有三個箱子,第一個箱子中有4個黑球,1個白球;第二個箱子中有3個黑球,3個白球;第三個箱子中有3個黑球,5個白球。現在隨機選取一個箱子,再從裏面取一個求,求取出的是白球的概率。
解: 設A表示取出的是白球,Bi(i=1,2,3)表示球是從第i個箱子中取出的,很明顯B1,B2,B3是一個完備事件組,其P(Bi)=1 /3, 則:
P(A) = P(A| B1)P(B1)+
P(A| B2)P(B2)+ P(A| B3)P(B3)
=1 /5 * 1 /3 + 3/6 * 1/3 + 5/8 * 1/3
= 53 / 120

10、貝葉斯定理
  1. 貝葉斯公式
    在這裏插入圖片描述
  2. 貝葉斯公式推導過程:
    在這裏插入圖片描述
    將全概率公式帶入貝葉斯公式(將上面P(A)替換成下面公式):
    在這裏插入圖片描述
  3. 貝葉斯解釋AI學習過程:

在這裏插入圖片描述

  1. 垃圾郵件分類

假設:總郵件有10000份,垃圾郵件2000份,現在用一些詞來判段是垃圾郵件的概率是多少?
P(B|A) 其中:B 表示類別(垃圾郵件和不是垃圾郵件) A 代表詞。 總體表示在該詞出現的情況下郵件屬於哪類郵件的概率。
在這裏插入圖片描述但是這裏給了一個詞進行預測,這肯定不合理。一般都會有多個詞同時出現才能進行分類。比如現在有A1,A2,A3,A4…這麼多的詞。將其帶入上述公式即可,可得到:p(B | A1,A2,A3…An),現在這樣很難計算,所以要假設各個樣本相互獨立,利用樸素貝葉斯公式計算。(一般詞與詞之間是有聯繫的,所以假設各個詞相互獨立,會使得準確率有所下降)

11、樸素貝葉斯

樸素貝葉斯方法是在貝葉斯算法的基礎上進行了相應的簡化,即假定給定目標值時屬性之間相互條件獨立。也就是說沒有哪個屬性變量對於決策結果來說佔有着較大的比重,也沒有哪個屬性變量對於決策結果佔有着較小的比重。雖然這個簡化方式在一定程度上降低了貝葉斯分類算法的分類效果,但是在實際的應用場景中,極大地簡化了貝葉斯方法的複雜性。(百度百科)

在這裏插入圖片描述

三、概率分佈

概率分佈:表述隨機變量取值的概率規律,隨機變量取值的範圍是[0,1], 所有取值概率的和必須爲1 。

1. 六個重要的概率分佈
a. 離散分佈
  • 伯努利分佈(兩點分佈 0-1分佈)

伯努利試驗是單次隨機試驗,只有"成功(值爲1)"或"失敗(值爲0)"這兩種結果,是由瑞士科學家雅各布·伯努利(1654 -1705)提出來的。

在這裏插入圖片描述

  • 二項分佈

二項分佈(Binomial distribution)是n重伯努利試驗成功次數的離散概率分佈。假設某個試驗是伯努利試驗,其成功概率用p表示,那麼失敗的概率爲q=1-p。進行n次這樣的試驗,成功了k次,則失敗次數爲n-k,發生這種情況的概率可用下面公式來計算:

在這裏插入圖片描述

  • 泊松分佈

泊松分佈是二項分佈的極限形式,是由二項分佈的公式取極限推導而來。 因爲在計算二項分佈的時候需要知道總的試驗次數n. 但是一般情況下總的試驗次數n很難統計,將n–>無窮取極限後可得到泊松分佈。(具體推導可參考這篇博客)https://blog.csdn.net/cherrylvlei/article/details/82081387

在這裏插入圖片描述

b. 連續分佈
  1. 期望

在概率論和統計學中,數學期望(mean)(或均值,亦簡稱期望)是試驗中每次可能結果的概率乘以其結果的總和,是最基本的數學特徵之一。它反映隨機變量平均取值的大小。
注意:期望是加權平均,平均值是期望的一種特殊情況。

在這裏插入圖片描述

  1. 方差

方差(variance)是衡量隨機變量或一組數據時離散程度的度量。概率論中方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度。統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。
方差在物理上衡量它的魯棒性。

在這裏插入圖片描述

  1. 協方差

協方差:衡量這兩個事件的相關性。
如果Cov(X,Y) >0 表示正相關, Cov(X,Y) <0 表示負相關, Cov(X,Y)=0表示不相關

在這裏插入圖片描述

  • 均勻分佈

連續分佈取值是連續的,它的概率就是如圖所示的面積。

在這裏插入圖片描述均勻分佈的概率密度函數是:f(x) = 1 / (b-a) ,它圍成的面積就是其概率。
在這裏插入圖片描述

  • 正態分佈

在自然界與生產中,一些現象受到許多相互獨立的隨機因素的影響,如果每個因素所產生的影響都很微小時,總的影響可以看作是服從正態分佈的。

在這裏插入圖片描述 1. 正態分佈的均值決定中軸線,方差決定離散程度。(注意正態分佈3q原則,一般在採樣時進行截斷採樣)
2.期望爲0,方差爲1則爲標準正態分佈 。
3.標準正態分佈和正態分佈相互轉換的公式:

在這裏插入圖片描述

下圖可以看出,圖像越緊密說明數據相關性越高,相應的方差就小。反之數據間的關聯越離散,那麼方差越大。
在這裏插入圖片描述
多維高斯分佈密度函數:
在這裏插入圖片描述在這裏插入圖片描述

  • 指數分佈

指數分佈是兩件事件發生的平均時間間隔,時間是連續變量。

常見分佈的期望方差和概率密度函數

在這裏插入圖片描述
**** 標準化與歸一化的區別 ****

  1. 標準化是把數據規範到標準正態分佈上。
    在這裏插入圖片描述
  2. 歸一化是把數據規範到[-1,1]上面。

四、參數估計

參數估計是機器學習的目標,就是通過樣本來對參數進行估計。

根據從總體中抽取的隨機樣本來估計總體分佈中未知參數的過程。從估計形式看,區分爲點估計與區間估計:從構造估計量的方法講,有矩法估計、最小二乘估計、似然估計、貝葉斯估計等。要處理兩個問題:(1)求出未知參數的估計量;(2)在一定信度(可靠程度)下指出所求的估計量的精度。

1. 點估計

點估計(point estimation)是用樣本統計量來估計總體參數,因爲樣本統計量爲數軸上某一點值,估計的結果也以一個點的數值表示,所以稱爲點估計。

2. 區間估計

通過從總體中抽取的樣本,根據一定的正確度,精度的要求,構造出適當的區間,以作爲總體的分佈參數(或參數的函數)的真值所在範圍的估計。

2. 矩估計

在這裏插入圖片描述
在這裏插入圖片描述

3. 極大似然法

核心思想:如果在一次試驗中,該事件發生了,這時候參數值應該是使得概率發生最大的那個值。簡單的說就是:如果這件事發生了,那麼這時候的參數就是概率發生最大的那個值。
極大似似然估計出的值一般比正常的值偏大,導致的問題就是過擬合,因爲它缺乏先驗。
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章