擬合改高斯分佈
什麼叫概率密度
連續型隨機變量的概率密度函數是描述這個變量的輸出值,在某個確定的取值點附近的可能性的函數
的長度是個常數,由人來定義的。所以概率密度也可以算作是概率
概率密度的積分表示什麼
隨機變量的取值落在某個區域內的概率則爲概率密度函數在這個區域的積分
分佈函數F(x)又是什麼
F(X)=P(X<=x);也就等於概率密度函數在負無窮到x上的積分
現在假設我們有一組訓練集X_train,y_train,通過畫圖發現分佈趨勢如下所示
從圖中可以發現這種圖形可以使用高斯函數擬合,如何得到該高斯函數呢?
高斯函數本質上就只有兩個參數,標準差和均值
因此我們只需要計算出訓練集的均值和標準差,一個初步的高斯函數就有了
下面就可以通過模型優化進一步調整該高斯函數,使得模型的代價函數最小
滿足高斯分佈的樸素貝葉斯分類器
假設數據集如下所示
其中X表示特徵空間,y表示分類結果
不妨假設y的取值只有C1,C2兩類
第一步,首先把同類別的X實例放入列表中,和類別組成字典,如下圖所示
X1,X2,X3,X4均假設滿足高斯分佈
那麼我們首先需要計算X1,X2,X3,X4的高斯分佈公式
假設結果爲
假設有一個測試機數據X(x1,x2,x3,x4),求該X屬於哪一類
只需把對應變量帶入分佈中,在各類別中取最大概率的那一類即可