分箱问题

问题

假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?等宽划分时在第几个箱?

分箱问题分为有监督分箱和无监督分箱。

无监督分箱

  1. 等宽分箱
         将变量的取值范围分为k个等宽的区间,每个区间当作一个分箱。
         在本问题中变量的取值范围为5–215,k为4.(215-5)/4=52.5划分点为57.5,110,162.5,4个箱中数据为
         A箱:5, 10, 11, 13, 15,35, 50, 55
         B箱:72, 92
         C箱:空
         D箱:204, 215
  2. 等频(等深)分箱
         把观测值按照从小到大的顺序排列,根据观测的个数等分为k部分,每部分当作一个分箱,例如,数值最小的1/k比例的观测形成第一个分箱,等等。
         在本问题中观测个数为12.k=4.每箱里有3个数据。
         A箱:5, 10, 11,
    B箱:13, 15,35
    C箱: 50, 55,72
    D箱:92
    ,204, 215 
  3. k聚类分箱
         用k均值聚类法将观测值聚为k类,但在聚类过程中需要保证分箱的有序性:第一个分箱中所有观测值都要小于第二个分箱中的观测值,第二个分箱中所有观测值都要小于第三个分箱中的观测值。手算太费时间,笔试中应该不会出现。

有监督分箱

在分箱时考虑因变量的取值,使得分箱后达到最小(minimumentropy)或最小描述长度(minimumdescriptionlength)。

(1)假设因变量为分类变量,可取值1,…,J。令pl(j)表示第l个分箱内因变量取值为j的观测的比例,l=1,…,k,j=1,…,J;那么第l个分箱的熵值为Jj=1[-pl(j)×log(pl(j))]。如果第l个分箱内因变量各类别的比例相等,即pl(1)=…=pl(J)=1/J,那么第l个分箱的熵值达到最大值;如果第l个分箱内因变量只有一种取值,即某个pl(j)等于1而其他类别的比例等于0,那么第l个分箱的熵值达到最小值。

(2)令rl表示第l个分箱的观测数占所有观测数的比例;那么总熵值为kl= 1rl×Jj=1[-pl(j)×log(pl(j ))]。需要使总熵值达到最小,也就是使分箱能够最大限度地区分因变量的各类别。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章