Bayes
-
已知樣本的某些特性,求解該樣本屬於某個類別的後驗概率P(Y|X=x)
-
先驗概率、條件概率、後驗概率
先驗概率:是指根據以往經驗和分析得到的概率.
後驗概率:事情已經發生,要求這件事情發生的原因是由某個因素引起的可能性的大小 -
貝葉斯定理:
P(A|B)= P(A) * P(B|A) / P(B) -
理解:
樸素貝葉斯是有訓練數據學習聯合概率分佈P(X,Y),然後求得後驗概率分佈P(Y|X)。具體說就是 利用訓練集學習條件概率和先驗概率的估計,得到聯合概率分佈:
P(X,Y) = P(Y) * P(X|Y)
概率估計的方法是最大似然估計或者貝葉斯估計 -
推導
看手機圖片 -
拉普拉斯平滑
用極大似然估計可能會出現要估計的概率爲0的情況,可能使分類產生偏差,爲解決零概率問題
,引入參數lambda (該方法即貝葉斯估計)
當lambda=1時,稱爲拉普拉斯平滑,也稱加1平滑。 -
優缺點
優點:條件獨立性雞舍使條件概率的數量大量減少,簡化了學習過程,易於實現;
缺點:分類性能不一定很高
KNN
- 原理:
K近鄰算法,即是給定一個訓練數據集,對新的輸入實例,在訓練數據集中找到與該實例最鄰近的K個實例(也就是上面所說的K個鄰居), 這K個實例的多數屬於某個類,就把該輸入實例分類到這個類中。 - 特點:
1)不具有顯示的學習過程,僅僅利用訓練集對特徵空間劃分,並將其作爲分類的‘模型’
2)由於不需要模型訓練,訓練時間複雜度爲0,計算複雜度和訓練集中文檔數目成正比,即:如果訓練集中文檔總數爲n,那麼它的分類時間複雜度爲o(n) - 基本要素
k值的選擇,距離度量(歐氏距離),分類決策規則 - k值的選擇
k值過小,意味着整體模型變得複雜,容易過擬合;
k值過打,意味着整體模型變得簡單,缺點是學習的近似誤差會增大;
通常採用交叉驗證來選取k值 - 距離度量:
歐氏距離 - 分類決策規則:
多數表決,即由輸入實例的k個臨近的訓練實例中的多數類決定輸入實例的類 - 不足
1)可能會忽略掉樣本容量很小的類
2)計算量大,對每一個待分類的樣本都要計算它到全體已知樣本的距離,才能求得它的K個最近鄰點(線性掃描法找k近鄰,耗時,不推薦)。 - K近鄰法實現
主要問題在於如何對數據集進行快速的k近鄰搜索。
推薦搜索方法:kd樹 - kd樹(本質是
二叉樹
)
kd樹(K-dimension tree)是一種對k維空間中的實例點進行存儲以便對其進行快速檢索的樹形數據結構。
kd樹是是一種二叉樹,表示對k維空間的一個劃分,構造kd樹相當於不斷地用垂直於座標軸的超平面將K維空間切分
,構成一系列的K維超矩形區域。kd樹的每個結點對應於一個k維超矩形區域。利用kd樹可以省去對大部分數據點的搜索,從而減少搜索的計算量。
PCA
-
降維
PCA是一種降維技術,其做法是尋找最小均方誤差下,最能代表原始數據的投影方法。改變了原有的特徵空間。 -
爲什麼正交?
正交是爲了數據有效性損失最小
正交的一個原因是特徵值的特徵向量是正交的 -
PCA 優缺點
優點:降低數據的複雜性,識別最重要的多個特徵。
缺點:不一定需要,且可能損失有用信息。適用數據類型:數值型數據 -
步驟
PCA的主要步驟有:去均值、求協方差、將協方差特徵分解(奇異值分解)、將特徵值從大到小排序、數據轉換、重構數據。