Bayes

已知樣本的某些特性，求解該樣本屬於某個類別的後驗概率P(Y|X=x)
先驗概率、條件概率、後驗概率
先驗概率:是指根據以往經驗和分析得到的概率.
後驗概率:事情已經發生，要求這件事情發生的原因是由某個因素引起的可能性的大小
貝葉斯定理：
P(A|B)= P(A) * P(B|A) / P(B)
理解：
樸素貝葉斯是有訓練數據學習聯合概率分佈P(X,Y),然後求得後驗概率分佈P(Y|X)。具體說就是利用訓練集學習條件概率和先驗概率的估計，得到聯合概率分佈：
P(X,Y) = P(Y) * P(X|Y)
概率估計的方法是最大似然估計或者貝葉斯估計
推導
看手機圖片
拉普拉斯平滑
用極大似然估計可能會出現要估計的概率爲0的情況，可能使分類產生偏差，爲解決零概率問題，引入參數lambda （該方法即貝葉斯估計）
當lambda=1時，稱爲拉普拉斯平滑，也稱加1平滑。
優缺點
優點：條件獨立性雞舍使條件概率的數量大量減少，簡化了學習過程，易於實現；
缺點：分類性能不一定很高

KNN

原理：
K近鄰算法，即是給定一個訓練數據集，對新的輸入實例，在訓練數據集中找到與該實例最鄰近的K個實例（也就是上面所說的K個鄰居），這K個實例的多數屬於某個類，就把該輸入實例分類到這個類中。
特點：
1）不具有顯示的學習過程，僅僅利用訓練集對特徵空間劃分，並將其作爲分類的‘模型’
2）由於不需要模型訓練，訓練時間複雜度爲0，計算複雜度和訓練集中文檔數目成正比，即：如果訓練集中文檔總數爲n，那麼它的分類時間複雜度爲o(n)
基本要素
k值的選擇，距離度量（歐氏距離），分類決策規則
k值的選擇
k值過小，意味着整體模型變得複雜，容易過擬合；
k值過打，意味着整體模型變得簡單，缺點是學習的近似誤差會增大；
通常採用交叉驗證來選取k值
距離度量：
歐氏距離
分類決策規則：
多數表決，即由輸入實例的k個臨近的訓練實例中的多數類決定輸入實例的類
不足
1）可能會忽略掉樣本容量很小的類
2）計算量大，對每一個待分類的樣本都要計算它到全體已知樣本的距離，才能求得它的K個最近鄰點（線性掃描法找k近鄰，耗時，不推薦）。
K近鄰法實現
主要問題在於如何對數據集進行快速的k近鄰搜索。
推薦搜索方法：kd樹
kd樹（本質是二叉樹）
kd樹(K-dimension tree)是一種對k維空間中的實例點進行存儲以便對其進行快速檢索的樹形數據結構。
kd樹是是一種二叉樹，表示對k維空間的一個劃分，構造kd樹相當於不斷地用垂直於座標軸的超平面將K維空間切分，構成一系列的K維超矩形區域。kd樹的每個結點對應於一個k維超矩形區域。利用kd樹可以省去對大部分數據點的搜索，從而減少搜索的計算量。

PCA

降維
PCA是一種降維技術，其做法是尋找最小均方誤差下，最能代表原始數據的投影方法。改變了原有的特徵空間。
爲什麼正交？
正交是爲了數據有效性損失最小
正交的一個原因是特徵值的特徵向量是正交的
PCA 優缺點
優點：降低數據的複雜性，識別最重要的多個特徵。
缺點：不一定需要，且可能損失有用信息。適用數據類型：數值型數據
步驟
PCA的主要步驟有：去均值、求協方差、將協方差特徵分解（奇異值分解）、將特徵值從大到小排序、數據轉換、重構數據。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Bayes、KNN、PCA和異常檢測基礎

Bayes

KNN

PCA

關於遊戲付費的一點想法

我通過CKA和CKS啦！

DataFrame按列的unique值劃分源數據爲unique個子數據DataFrame

關於遞歸（轉）

python基礎8：%格式化和format格式化--python

anaconda歷史版本鏈接及python版本對應關係

fork後保持與源倉的同步

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結