Random Forest（随机森林）在软件缺陷预测领域的应用及其特点

原創

2020-06-21 10:27

这篇博客也就简单总结一些基础知识。从我个人的经验和别人的论文来看，Random Forest是最适用于软件缺陷预测的机器学习算法。例如这篇文章：

Osman, Haidar, Mohammad Ghafari, Oscar Nierstrasz, and Mircea Lungu. "An extensive analysis of efficient bug prediction configurations." In Proceedings of the 13th International Conference on Predictive Models and Data Analytics in Software Engineering, pp. 107-116. ACM, 2017.

里介绍，他们经过Extensive的分析，认为：“Random Forest results is the best machine learning model, followed by Support Vector Machines.”

另外，Random Forest还有两个比较好的特性：

1.不需要做特征归一化处理，通常来讲，由于各维特征的维度不同，需要进行归一化处理，但是如这里介绍的：“对于决策树和随机森林以及XGboost算法而言，特征缩放对于它们没有什么影响。”

2.不需要做特征选择，并不是说特征选择不重要，如上面这篇论文中所说：“We do not apply feature selection for RF because it performs feature selection internally.”

有这两点，就使Random Forest使用起来很方便。想想看RF是2001年提出的方法了（Breiman, Leo. "Random forests." Machine learning 45, no. 1 (2001): 5-32.），都这么多年了，竟然也没有什么好的替代算法，真是让人捉急啊。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

基于PyTorch的Seq2Seq翻译模型详细注释介绍（二）

這篇博客並不準備做詳細介紹，只是簡單總結一下問題： https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html 這裏給出的Decoder Att

2020-06-21 10:27:58

OpenNMT训练过程中的命令行输出信息解释

這個問題很簡單，但是這麼簡單的問題，OpenNMT也能讓人產生誤解，也算是本事啦。我們在訓練模型的時候，可以看到OpenNMT會不斷生成類似： Step 50/400; acc:11.54; ppl:1714.07; xent:7.4

2020-06-21 10:27:58

给LaTeX表格加脚注时的奇怪问题（使用PDFLaTeX）

這個問題真的很莫名其妙，簡單記錄一下：按照其他朋友的介紹，LaTeX中增加表格腳註實際上是很簡單的，例如這裏介紹的：https://www.jianshu.com/p/110714b2a535 但我在使用的時候發現一個小問題，所以記錄一

2020-06-21 10:27:47

用Springer LaTeX模板时使用BibTeX遇到的问题和解决过程

這幾天想投一篇Springer出版社的EMSE，這是我第一次投這個期刊（和很多大牛比不了啊），在這裏：https://www.springer.com/journal/10664/submission-guidelines 下載了其LaT

2020-06-21 10:27:47

调试OpenNE的时候报：Attempted relative import in non-package

這兩天做實驗的時候，發現要調試OpenNE的代碼（其實是我自己很粗心的問題，但是總得跟蹤調試一下才能發現問題在哪）。從頭開始敘述一下過程：因爲已經在Python 2.7中以egg方式安裝了OpenNE，如果調試的話，需要直接下載源碼，

2020-06-21 10:27:47

安卓恶意代码数据集（Android Malware and Benign apps）整理

因爲最近想做一些簡單的實驗，而自己之前收集的數據找不着了，所以又看了看別人的推薦，發現ResearchGate上這個討論裏有些回答還是總結得很好的： https://www.researchgate.net/post/Where_can_

2020-06-21 10:27:47

基于PyTorch的Seq2Seq翻译模型详细注释介绍（一）

2020-05-31 17:27:55

AST快捷分析工具codesensor的使用方法总结

2020-05-31 17:27:45

用astminer生成code2vec输入数据格式的方法

2020-05-24 17:02:38

如何运行Joern中的script

2020-04-21 06:30:38

Matlab Plot画图时设置marker实心并且和线条一样颜色的方法

2020-02-24 21:53:25

基于PyTorch的Seq2Seq翻译模型详细注释介绍（二）

這篇博客並不準備做詳細介紹，只是簡單總結一下問題： https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html 這裏給出的Decoder Att

2020-06-21 10:27:58

OpenNMT训练过程中的命令行输出信息解释

這個問題很簡單，但是這麼簡單的問題，OpenNMT也能讓人產生誤解，也算是本事啦。我們在訓練模型的時候，可以看到OpenNMT會不斷生成類似： Step 50/400; acc:11.54; ppl:1714.07; xent:7.4

2020-06-21 10:27:58

给LaTeX表格加脚注时的奇怪问题（使用PDFLaTeX）

這個問題真的很莫名其妙，簡單記錄一下：按照其他朋友的介紹，LaTeX中增加表格腳註實際上是很簡單的，例如這裏介紹的：https://www.jianshu.com/p/110714b2a535 但我在使用的時候發現一個小問題，所以記錄一

2020-06-21 10:27:47

用Springer LaTeX模板时使用BibTeX遇到的问题和解决过程

這幾天想投一篇Springer出版社的EMSE，這是我第一次投這個期刊（和很多大牛比不了啊），在這裏：https://www.springer.com/journal/10664/submission-guidelines 下載了其LaT

2020-06-21 10:27:47

24小時熱門文章

最新文章

最新評論文章