ML binning

一、分箱

:數據分箱(也稱爲離散分箱或者分段)是一種數據預處理的方法,用於減少次要觀察誤差的影響,是一種將多個連續值分爲較少數量的分箱的方法。

1.1離散化:

,把無限空間中有限的個體映射到有限的空間中去,以此提高算法的時空效率。
通俗的說,離散化是在不改變數據相對大小的條件下,對數據進行相應的縮小。例如:
原數據:1,999,100000,15;處理後:1,3,4,2;
原數據:{100,200},{20,50000},{1,400};
處理後:{3,4},{2,6},{1,5};

1.2一般在建立分類模型時,需要對連續變量離散化,特徵離散化後,模型會更穩定,降低了模型過擬合的風險。
具體來說:

  • 離散特徵的增加和減少都很容易,易於模型的快速迭代
  • 稀疏向量內乘積運算速度快,
  • 離散化後特徵對異常值數據有很強的魯棒性Robust:比如一個特徵年齡>30是1,否則是0.如果特徵沒有離散化,一個異常值數據‘年齡300歲’會給模型造成很大的干擾
  • 邏輯回歸屬於廣義的線性模型,表達能力受限;單變量離散化爲N個後,每個變量有單獨的權重,相當於爲模型引入了非線性,能夠提升模型表達能力,加大擬合
  • 離散化後可以進行特徵交叉,由M+N個變量,進一步引入非線性,提升表達能力;

二、分箱方法:

2.1有監督分箱

  • 卡方分箱:自底向上的()
  • 最小熵分箱

2.2無監督分箱

  • 等距分箱:從最小值到最大值之間,均分爲N等份,這樣,如果A,B爲最小值最大值,則每個區間的長度爲W=(B-A)/N,這裏只考慮邊界,每個等分裏面的實力數量可能不等
  • 等頻分箱:區間的邊界值要經過選擇,使得每個區間包含大致相等的實例數量。比如說 N=10 ,每個區間應該包含大約10%的實例。

https://www.jianshu.com/p/0805f185ecdf

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章