Feature analysis-基於模型自適應方法的特徵選擇方法-論文解析

Feature analysis of encrypted malicious traffic
18年發表於ESWA的一篇論文
論文鏈接:https://www.sciencedirect.com/science/article/pii/S095741741930082X

基於模型自適應和機器學習方法的加密惡意流量檢測相關的論文。

論文主旨

這篇論文主要重點在於通過機器學習分類器來選擇對應的特徵屬性,而非先通過特徵選擇器選擇特徵,再來訓練分類器得到分類結果。基於模型自適應的方法來進行特徵選擇過程。

背景

背景在於,目前機器學習方法被廣泛應用到加密流量領域,用於加密流量的識別和分類。除了機器學習之外,深度學習也被應用到該領域。兩種方法的區別主要在於,對於特徵的建模存在明顯的差異性,對於特徵提取的方式也完全不同。首先是機器學習的方法,要設計合理有效的特徵集作爲機器學習分類器的訓練數據。如何設計一個能夠表徵網絡流量的特徵集是目前非常困難的問題。通常需要提取大量的時空,背景和證書等特徵作爲初始的特徵集,但是特徵集裏面的特徵的冗餘度和不相關性比較高,會影響分類準確率。所以需要精簡特徵集,構建最優特徵子集。當前流行的方法在於通過機器學習的特徵選擇的方法,例如相關性,信息增益,一致性等等。但是度量標準比較單一,很難對特徵集進行整體性評估。從集成學習的思想上出發,也出現了通過選擇性集成的方法來進行特徵選擇,在於將多種特徵選擇器集成,通過多種度量標準,遞歸的減少特徵,構建最優特徵子集。但是選擇性集成的方法通常通過一種分類器的分類準確率作爲終止準則,這使得構建的最優特徵子集並不能保證其在其他分類器也能達到最好的效果,所以便引申出本文的模型自適應方法。對於深度學習的方法,省去了特徵設計的過程,自動提取特徵。但是目前大多數深度學習的方法都是通過CNN+LSTM來提取時空特徵,很少有利用極爲重要的證書特徵的。而且大多都是字節流->灰度圖片,感覺有點強行深度學習的意味在裏面。所以機器學習方法在該領域目前應該還是強於深度學習方法的。

研究內容

這篇文章的優勢在於特徵集覆蓋面比較廣泛,包括流量連接時產生的時空特徵,SSL/TLS握手信息和X509證書信息等等。選擇了SVM+核函數,RF(隨機森林),XGBoost三種比較有代表性的方法。以SVM+線性核爲例,首先訓練SVM分類器,得到最終的權重係數,進行排序得到特徵集合的重要性排名。然後採用SVM+RFE的方法重新訓練,得到通過RFE排序得到的特徵排名。(在這裏注意SVM方法是按照最後每個權重參數分量大小排序的。SVM+RFE是利用RFE(遞歸特徵消除)每一輪通過權重參數的平方消除最小特徵,進行排序的)通過SVM排序和SVM+RFE排序的特徵存在差異,作者認爲RFE的結果更有參考價值,所以在之後的所有分類器的實驗當中,都使用了RFE進行特徵排序。由於SVM+線性核/高斯核/多項式核的分類結果差距不大,作者最終是在SVM+線性核上對比的。最終通過三種分類器得到的特徵集合,明顯存在差異性。通過論文得出對於不同類型的分類器而言,其對應的最優特徵子集是不同的。所以通過模型自適應的方法來選擇特徵最優子集而不是優先選擇好特徵,是一個實際並有效的方法。本文的優勢主要在於提供了一組很好的異構性特徵集合來分類SSL/TLS類型的加密流量,另外介紹了模型自適應的特徵選擇方法。畢竟機器學習方法分類效果的關鍵還是在於數據集。

個人理解,僅供參考。

發佈了30 篇原創文章 · 獲贊 9 · 訪問量 5971
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章