Bayes、KNN、PCA和異常檢測基礎

Bayes

  • 已知樣本的某些特性,求解該樣本屬於某個類別的後驗概率P(Y|X=x)

  • 先驗概率、條件概率、後驗概率
    先驗概率:是指根據以往經驗和分析得到的概率.
    後驗概率:事情已經發生,要求這件事情發生的原因是由某個因素引起的可能性的大小

  • 貝葉斯定理:
    P(A|B)= P(A) * P(B|A) / P(B)

  • 理解:
    樸素貝葉斯是有訓練數據學習聯合概率分佈P(X,Y),然後求得後驗概率分佈P(Y|X)。具體說就是 利用訓練集學習條件概率和先驗概率的估計,得到聯合概率分佈:
    P(X,Y) = P(Y) * P(X|Y)
    概率估計的方法是最大似然估計或者貝葉斯估計

  • 推導
    看手機圖片

  • 拉普拉斯平滑
    用極大似然估計可能會出現要估計的概率爲0的情況,可能使分類產生偏差,爲解決零概率問題,引入參數lambda (該方法即貝葉斯估計)
    當lambda=1時,稱爲拉普拉斯平滑,也稱加1平滑。

  • 優缺點
    優點:條件獨立性雞舍使條件概率的數量大量減少,簡化了學習過程,易於實現;
    缺點:分類性能不一定很高

KNN

  • 原理:
    K近鄰算法,即是給定一個訓練數據集,對新的輸入實例,在訓練數據集中找到與該實例最鄰近的K個實例(也就是上面所說的K個鄰居), 這K個實例的多數屬於某個類,就把該輸入實例分類到這個類中。
  • 特點:
    1)不具有顯示的學習過程,僅僅利用訓練集對特徵空間劃分,並將其作爲分類的‘模型’
    2)由於不需要模型訓練,訓練時間複雜度爲0,計算複雜度和訓練集中文檔數目成正比,即:如果訓練集中文檔總數爲n,那麼它的分類時間複雜度爲o(n)
  • 基本要素
    k值的選擇,距離度量(歐氏距離),分類決策規則
  • k值的選擇
    k值過小,意味着整體模型變得複雜,容易過擬合;
    k值過打,意味着整體模型變得簡單,缺點是學習的近似誤差會增大;
    通常採用交叉驗證來選取k值
  • 距離度量:
    歐氏距離
  • 分類決策規則:
    多數表決,即由輸入實例的k個臨近的訓練實例中的多數類決定輸入實例的類
  • 不足
    1)可能會忽略掉樣本容量很小的類
    2)計算量大,對每一個待分類的樣本都要計算它到全體已知樣本的距離,才能求得它的K個最近鄰點(線性掃描法找k近鄰,耗時,不推薦)。
  • K近鄰法實現
    主要問題在於如何對數據集進行快速的k近鄰搜索。
    推薦搜索方法:kd樹
  • kd樹(本質是二叉樹
    kd樹(K-dimension tree)是一種對k維空間中的實例點進行存儲以便對其進行快速檢索的樹形數據結構。
    kd樹是是一種二叉樹,表示對k維空間的一個劃分,構造kd樹相當於不斷地用垂直於座標軸的超平面將K維空間切分,構成一系列的K維超矩形區域。kd樹的每個結點對應於一個k維超矩形區域。利用kd樹可以省去對大部分數據點的搜索,從而減少搜索的計算量。

PCA

  • 降維
    PCA是一種降維技術,其做法是尋找最小均方誤差下,最能代表原始數據的投影方法。改變了原有的特徵空間。

  • 爲什麼正交?
    正交是爲了數據有效性損失最小
    正交的一個原因是特徵值的特徵向量是正交的

  • PCA 優缺點
    優點:降低數據的複雜性,識別最重要的多個特徵。
    缺點:不一定需要,且可能損失有用信息。適用數據類型:數值型數據

  • 步驟
    PCA的主要步驟有:去均值、求協方差、將協方差特徵分解(奇異值分解)、將特徵值從大到小排序、數據轉換、重構數據。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章