HCIE-BigData學習筆記-支持向量機

1、華爲MLS分類模型中數據的查看
分類模型評估輸出結果數據
分類模型評估輸出結果數據
使用工作流流程(含有數據拆分節點):
數據總數:45211條,其中,訓練數據:29892條,預測數據:15319條
預測結果輸出數據:15319條
分類模型評估輸出結果數據:15319條
分類模型評估可視化混淆矩陣數據:1687條,佔實際預測數據量約11%
1.設置閾值=0.5,根據預測結果統計的混淆矩陣爲:
真陽性 13541(0+0+4394+9014+133)
僞陰性0(0+0+0+0+0)
僞陽性1778(0+0+293+1420+65)
真陰性0(0+0+0+0+0)
2.設置閾值=0.7,根據預測結果統計的混淆矩陣爲:
真陽性 4394(0+0+4394)
僞陰性9147(9014+133+0+0+0+0+0)
僞陽性293(0+0+293)
真陰性1485(1420+65+0+0+0+0+0)
故,分類模型評估的的查看矩陣如下:

真陽 僞陽
僞陰 真陰

可視化與實際數據條數不一致是因爲可視化採用的只有部分數據

2、要將所要結果輸出爲目標

3、懲罰係數
當我們構建出最大超平面的時候,本來是輸入屬性,經過判斷之後,它是屬於不存款的一邊,但是真實是存款的,我們就可以改變懲罰係數來將本來落在不存款一邊的數據變成存款的,懲罰係數越大,擬合的越多,參數調整的好,可以解決欠擬合(over-fitting )問題,調整太多,可能出現過擬合(under-fitting)

4、欠擬合
欠擬合指的是模型在訓練和預測時表現都不好的情況。一個欠擬合的機器學習模型不是一個良好的模型並且由於在訓練數據上表現不好這是顯然的。欠擬合通常不被討論,因爲給定一個評估模型表現的指標的情況下,欠擬合很容易被發現。矯正方法是繼續學習並且試着更換機器學習算法。

5、過擬合
過擬合指的是模型對於訓練數據擬合程度過當的情況。當某個模型過度的學習訓練數據中的細節和噪音,以至於模型在新的數據上表現很差,我們稱過擬合發生了。這意味着訓練數據中的噪音或者隨機波動也被當做概念被模型學習了。而問題就在於這些概念不適用於新的數據,從而導致模型泛化性能的變差。過擬合更可能在無參數非線性模型中發生,因爲學習目標函數的過程是易變的具有彈性的。同樣的,許多的無參數器學習算法也包括限制約束模型學習概念多少的參數或者技巧。例如,決策樹就是一種無參數機器學習算法,非常有彈性並且容易受過擬合訓練數據的影響。這種問題可以通過對學習過後的樹進行剪枝來解決,這種方法就是爲了移除一些其學習到的細節。

6、ROC
受試者工作特徵曲線 (receiver operating characteristic curve,簡稱ROC曲線),又稱爲感受性曲線(sensitivity curve)。得此名的原因在於曲線上各點反映着相同的感受性,它們都是對同一信號刺激的反應,只不過是在兩種不同的判定標準下所得的結果而已。受試者工作特徵曲線就是以假陽性概率(False positive rate)爲橫軸,真陽性(True positive rate)爲縱軸所組成的座標圖,和受試者在特定刺激條件下由於採用不同的判斷標準得出的不同結果畫出的曲線。1

https://www.cnblogs.com/gatherstars/p/6084696.html

7、AUC解釋
ROC 曲線下的面積就是 AUC 面積,所以 ROC 曲線約拱,AUC 面積越大,AUC 的面積就是真陽率乘以僞陽率。
AUC=1,完美分類器,採用這個預測模型時,不管設定什麼閾值都能得出完美預測。絕大多數預測的場合,不存在完美分類器。
0.5<AUC<1,優於隨機猜測。這個分類器(模型)妥善設定閾值的話,能有預測價值。
AUC=0.5,跟隨機猜測一樣(例:丟銅板),模型沒有預測價值。
AUC<0.5,比隨機猜測還差;但只要總是反預測而行,就優於隨機猜測,因此不存在。

8、各率解釋
準確率:(真陽+真陰) /樣本總數
召回率:真陽/真陽樣本總數
精確率:真陽/(真陽+僞陽)


  1. ROC曲線最早是運用在軍事上,後來逐漸運用到醫學領域。相傳在第二次世界大戰期間,雷達兵的任務之一就是死死地盯住雷達顯示器,觀察是否有敵機來襲。理論上講,只要有敵機來襲,雷達屏幕上就會出現相應的信號,但是實際上,有時如果有飛鳥出現在雷達掃描區域時,雷達屏幕上有時也會出現信號。這種情況令雷達兵煩惱不已:如果過於謹慎,凡是有信號就確定爲敵機來襲,顯然會增加誤報風險;如果過於大膽,凡是信號都認爲飛鳥,又會增加漏報的風險。每個雷達兵都竭盡所能地研究飛鳥信號和飛機信號之間的區別,以便增加預報的準確性。但問題在於,每個雷達兵都有自己的判別標準,有的雷達兵比較謹慎,容易出現誤報;有的雷達兵則比較膽大,容易出現漏報。爲了研究每個雷達兵預報的準確性,雷達兵的管理者彙總了所有雷達兵的預報特點,特別是他們漏報和誤報的概率,並將這些概率畫到一個二維座標裏面。這個二維座標的縱座標爲敏感性,即在所有敵機來襲的事件中,每個雷達兵準確預報的概率。而橫座標則特1-特異性,表示了在所有非敵機來襲信號中,雷達兵預報錯誤的概率。由於每個雷達兵的預報標準不同,且得到的敏感性和特異性的組合也不同。將這些雷達兵的預報性能進行彙總後,雷達兵管理員發現他們剛好在一條曲線上,這條曲線就是我們經常在醫學雜誌上看見的ROC曲線。 ↩︎

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章