Random Forest（隨機森林）在軟件缺陷預測領域的應用及其特點

原創

2020-06-21 10:27

這篇博客也就簡單總結一些基礎知識。從我個人的經驗和別人的論文來看，Random Forest是最適用於軟件缺陷預測的機器學習算法。例如這篇文章：

Osman, Haidar, Mohammad Ghafari, Oscar Nierstrasz, and Mircea Lungu. "An extensive analysis of efficient bug prediction configurations." In Proceedings of the 13th International Conference on Predictive Models and Data Analytics in Software Engineering, pp. 107-116. ACM, 2017.

裏介紹，他們經過Extensive的分析，認爲：“Random Forest results is the best machine learning model, followed by Support Vector Machines.”

另外，Random Forest還有兩個比較好的特性：

1.不需要做特徵歸一化處理，通常來講，由於各維特徵的維度不同，需要進行歸一化處理，但是如這裏介紹的：“對於決策樹和隨機森林以及XGboost算法而言，特徵縮放對於它們沒有什麼影響。”

2.不需要做特徵選擇，並不是說特徵選擇不重要，如上面這篇論文中所說：“We do not apply feature selection for RF because it performs feature selection internally.”

有這兩點，就使Random Forest使用起來很方便。想想看RF是2001年提出的方法了（Breiman, Leo. "Random forests." Machine learning 45, no. 1 (2001): 5-32.），都這麼多年了，竟然也沒有什麼好的替代算法，真是讓人捉急啊。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

基於PyTorch的Seq2Seq翻譯模型詳細註釋介紹（二）

這篇博客並不準備做詳細介紹，只是簡單總結一下問題： https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html 這裏給出的Decoder Att

2020-06-21 10:27:58

OpenNMT訓練過程中的命令行輸出信息解釋

這個問題很簡單，但是這麼簡單的問題，OpenNMT也能讓人產生誤解，也算是本事啦。我們在訓練模型的時候，可以看到OpenNMT會不斷生成類似： Step 50/400; acc:11.54; ppl:1714.07; xent:7.4

2020-06-21 10:27:58

給LaTeX表格加腳註時的奇怪問題（使用PDFLaTeX）

這個問題真的很莫名其妙，簡單記錄一下：按照其他朋友的介紹，LaTeX中增加表格腳註實際上是很簡單的，例如這裏介紹的：https://www.jianshu.com/p/110714b2a535 但我在使用的時候發現一個小問題，所以記錄一

2020-06-21 10:27:47

用Springer LaTeX模板時使用BibTeX遇到的問題和解決過程

這幾天想投一篇Springer出版社的EMSE，這是我第一次投這個期刊（和很多大牛比不了啊），在這裏：https://www.springer.com/journal/10664/submission-guidelines 下載了其LaT

2020-06-21 10:27:47

調試OpenNE的時候報：Attempted relative import in non-package

這兩天做實驗的時候，發現要調試OpenNE的代碼（其實是我自己很粗心的問題，但是總得跟蹤調試一下才能發現問題在哪）。從頭開始敘述一下過程：因爲已經在Python 2.7中以egg方式安裝了OpenNE，如果調試的話，需要直接下載源碼，

2020-06-21 10:27:47

安卓惡意代碼數據集（Android Malware and Benign apps）整理

因爲最近想做一些簡單的實驗，而自己之前收集的數據找不着了，所以又看了看別人的推薦，發現ResearchGate上這個討論裏有些回答還是總結得很好的： https://www.researchgate.net/post/Where_can_

2020-06-21 10:27:47

基於PyTorch的Seq2Seq翻譯模型詳細註釋介紹（一）

2020-05-31 17:27:55

AST快捷分析工具codesensor的使用方法總結

2020-05-31 17:27:45

用astminer生成code2vec輸入數據格式的方法

2020-05-24 17:02:38

如何運行Joern中的script

2020-04-21 06:30:38

Matlab Plot畫圖時設置marker實心並且和線條一樣顏色的方法

2020-02-24 21:53:25

基於PyTorch的Seq2Seq翻譯模型詳細註釋介紹（二）

這篇博客並不準備做詳細介紹，只是簡單總結一下問題： https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html 這裏給出的Decoder Att

2020-06-21 10:27:58

OpenNMT訓練過程中的命令行輸出信息解釋

這個問題很簡單，但是這麼簡單的問題，OpenNMT也能讓人產生誤解，也算是本事啦。我們在訓練模型的時候，可以看到OpenNMT會不斷生成類似： Step 50/400; acc:11.54; ppl:1714.07; xent:7.4

2020-06-21 10:27:58

給LaTeX表格加腳註時的奇怪問題（使用PDFLaTeX）

這個問題真的很莫名其妙，簡單記錄一下：按照其他朋友的介紹，LaTeX中增加表格腳註實際上是很簡單的，例如這裏介紹的：https://www.jianshu.com/p/110714b2a535 但我在使用的時候發現一個小問題，所以記錄一

2020-06-21 10:27:47

用Springer LaTeX模板時使用BibTeX遇到的問題和解決過程

這幾天想投一篇Springer出版社的EMSE，這是我第一次投這個期刊（和很多大牛比不了啊），在這裏：https://www.springer.com/journal/10664/submission-guidelines 下載了其LaT

2020-06-21 10:27:47

24小時熱門文章

最新文章

最新評論文章