利用聚類優化分類器

利用聚類優化分類器

當你面臨的問題非常複雜時,設計一個general的分類器可能效果不佳。 如果能通過一些方式,把問題拆分,然後在每個子集上分別訓練分類器,一般效果會更好。 The Analytics Edge在講聚類的時候,就以心臟病預測爲例,講述了一下這樣做的好處。我覺得主要可以借鑑的有2點:

1. 先簡單根據醫療花銷(cost)把病人分成3組。因爲通過這個簡單特徵可以有效的把病人粗略分類,實際看也是非常合理的。

2. 然後在每個分組裏面,再進行kmeans聚類。聚類數根據經驗選10
這樣,最終模型的架構如下:首先cost bucket是一層,然後每層裏面又進行了聚類,每個聚類最終使用RF(Random Forest)做分類器,相當於一個2層的組合模型。具體分析見我的blog:利用聚類優化分類器


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章