原文鏈接:http://tecdat.cn/?p=13546
變量重要性圖是查看模型中哪些變量有趣的好工具。由於我們通常在隨機森林中使用它,因此它看起來非常適合非常大的數據集。大型數據集的問題在於許多特徵是“相關的”,在這種情況下,很難比較可變重要性圖的值的解釋。例如,考慮一個非常簡單的線性模型
在這裏,我們使用一個隨機森林的特徵之間的關係模型,但實際上,我們考慮另一個特點-不用於產生數據- ,即相關 。我們考慮這三個特徵的隨機森林 。
爲了獲得更可靠的結果,我生成了100個大小爲1,000的數據集。
library(mnormt)
RF=randomForest(Y~.,data=db)
plot(C,VI[1,],type="l",col="red")
lines(C,VI[2,],col="blue")
lines(C,VI[3,],col="purple")
頂部的紫色線是的可變重要性值 ,該值相當穩定(作爲一階近似值,幾乎恆定)。紅線是的變量重要性函數, 藍線是的變量重要性函數 。例如,具有兩個高度相關變量的重要性函數爲
看起來 比其他兩個 要 重要得多,但事實並非如此。只是模型無法在 和 之間選擇 :有時會 被選擇,有時會被選擇。我想我發現圖形混亂,因爲我可能會想到的 重要性 的 恆定。考慮到其他變量的存在,我們已經掌握了每個變量的重要性。
實際上,我想到的是當我們考慮逐步過程時以及從集合中刪除每個變量時得到的結果,
apply(IMP,1,mean)}
在這裏,如果我們使用與以前相同的代碼,
我們得到以下圖
plot(C,VI[2,],type="l",col="red")
lines(C,VI2[3,],col="blue")
lines(C,VI2[4,],col="purple")
刪除時會顯示紫線 :這是最差的模型。我們保持 和時 ,我們得到了藍線。而且這條線是恆定的:並不取決於 (這在上一張圖中,有 確實會對重要性產生影響)。紅線是移除後得到的 。關聯爲0時,它與紫色線相同,因此模型很差。關聯度接近1時,與具有相同 ,並且與藍線相同。
然而,當我們擁有很多相關特徵時,討論特徵的重要性並不是那麼直觀。