常見分類算法應用範圍/數據要求

是的,下面有幾個其他算法的具體介紹

單一的分類算法:決策樹、貝葉斯、人工神經網絡、K-近鄰、支持向量機和基於關聯規則的分類,HMM

組合分類算法:Bagging和Boosting

k-近鄰(kNN,k-Nearest Neighbors)算法

找出與未知樣本x距離最近的k個訓練樣本,看這k個樣本中多數屬於哪一類,就把x歸爲那一類。

模型輸入要求:連續值,類別型變量需進行one-hot編碼,由於是計算距離,有必要對數據進行歸一化

模型重要參數:K值及距離的定義

優點:易於理解和實現

缺點:計算量大,複雜度高,不適合實時場景

應用場景:圖像壓縮

   2.樸素貝葉斯

利用Bayes定理來預測一個未知類別的樣本屬於各個類別的可能性,選擇其中可能性較大的一個類別作爲該樣本的最終類別

模型輸入要求:連續值需離散化成概率密度,如高斯模型 http://blog.csdn.net/u012162613/article/details/48323777,同時貝葉斯的輸入爲概率,因此需要非負

模型重要參數:

優點:生成式模型,通過計算概率來進行分類,可以用來處理多分類問題,對小規模的數據表現很好,適合多分類任務,適合增量式訓練,算法也比較簡單。

缺點:需要一個很強的條件獨立性假設前提

應用場景:文本分類(如:垃圾郵件識別)

3.神經網絡

神經網絡(Artificial Neural Networks,ANN)是一種應用類似於大腦神經突觸聯接的結構進行信息處理的數學模型

模型輸入要求:歸一化特徵

模型重要參數:網絡層數及節點數

優點:具有實現任何複雜非線性映射的功能

缺點:收斂速度慢、計算量大、訓練時間長,易收斂到局部最優

應用場景:圖像處理,模式識別

4.支持向量機

根據結構風險最小化準則,以較大化分類間隔構造最優分類超平面來提高學習機的泛化能力

模型輸入:二分類,歸一化

模型重要參數:核函數

優點:可以解決小樣本情況下的機器學習問題,可以解決高維問題 可以避免神經網絡結構選擇和局部極小點問題

缺點:核函數敏感,不加修改的情況下只能做二分類

應用場景:高維文本分類,小樣本分類

 5.決策樹

決策樹(decision tree)是一個樹結構(可以是二叉樹或非二叉樹)。其每個非葉節點表示一個特徵屬性上的測試,每個分支代表這個特徵屬性在某個值域上的輸出,而每個葉節點存放一個類別

模型輸入:可處理連續值,類別型變量需one-hot

模型重要參數:樹的高度

優點:超強的學習能力和泛化能力,訓練速度快

缺點:易過擬合,改進爲隨機森林(Random Forest, RF)

應用場景:搜索排序

 6.LR

根據現有數據對分類邊界線建立迴歸公式,依次進行分類

模型輸入:連續值需離散化,類別型變量需one-hot

模型重要參數:輸入特徵離散化

優點:訓練速度快,適合實時場景

缺點:擬合能力較差,不能處理非線下場景,需要人爲設置組合特徵

應用場景:各種實時系統:如ctr 預估
轉自 http://f.dataguru.cn/thread-896022-1-1.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章