數據挖掘和數據分析之數據中位數和衆數

中位

    中位數是指將數據按大小順序排列起來,形成一個數列,居於數列中間位置的那個數據。中位數用Me表示。

   從中位數的定義可知,所研究的數據中有一半小於中位數,一半大於中位數。中位數的作用與算術平均數相近,也是作爲所研究數據的代表值。在一個等差數列或一個正態分佈數列中,中位數就等於算術平均數。

在數列中出現了極端變量值的情況下,用中位數作爲代表值要比用算術平均數更好,因爲中位數不受極端變量值的影響;如果研究目的就是爲了反映中間水平,當然也應該用中位數。在統計數據的處理和分析時,可結合使用中位數。

     中位數的計算:確定中位數,必須將總體各單位的標誌值按大小順序排列,最好是編制出變量數列。這裏有兩種情況:

     1、對於未分組的原始資料,首先必須將標誌值按大小排序。設排序的結果爲:

      

     則中位數就可以按下面的方式確定:

     

   例如,根據下表的數據,計算50名工人日加工零件數的中位數。

    

    中位數的位置在(50+1)/2 = 25.5,中位數在第25個數值(123)和第26個數值(123)之間,即Me = (123+123)/2=123(件)。

     2、由分組資料確定中位數

     由組距數列確定中位數,應先按的公式求出中位數所在組的位置,然後再按下限公式或上限公式確定中位數。

     

     公式中:

         Me——中位數;

         L——中位數所在組下限;

         U——中位數所在組上限;

         fm——爲中位數所在組的次數;

        ——總次數;

        d——中位數所在組的組距;

        Sm − 1——中位數所在組以下的累計次數;

        Sm + 1——中位數所在組以上的累計次數。

    例:根據上面例表的數據,計算50名工人日加工零件數的中位數。

  解(某企業50名工人加工零件中位數計算表):

     

    由上表可知,中位數的位置=50/2=25,即中位數在120~125這一組,L=120,Sm − 1 = 16,U=125,Sm + 1 = 20,fm = 14,d=5,根據中位數公式得:

    

 

   3

     衆數是指一組數據中出現次數最多的那個數據,一組數據可以有多個衆數,也可以沒有衆數。衆數是由英國統計學家皮爾生首先提出來的。所謂衆數是指社會經濟現象中最普遍出現的標誌值。從分佈角度看,衆數是具有明顯集中趨勢的數值。

    統計上把這種在一組數據中出現次數最多的變量值叫做衆數。用Mo表示。它主要用於定類(品質標誌)數據的集中趨勢,當然也適用於作爲定序(品質標誌)數據以及定距和定比(數量標誌)數據集中趨勢的測度值。

     衆數的計算:一般情況下,找出一組數據中出現次數最多的數值即可。但若所掌握的資料是組距式數列,則只能按一定的方法來推算衆數的近似值。計算公式爲:

     

    公式中:

       L——衆數所在組下限;

       U——衆數所在組上限;

       ——衆數所在組次數與其下限的鄰組次數之差;

       ——衆數所在組次數與其上限的鄰組次數之差;

       d——衆數所在組組距。

  例:根據下表的數據,計算50名工人日加工零件數的衆數。

       

     解:從表中的數據可以看出,最大的頻數值是14,即衆數組爲120~125這一組,根據公式得50名工人日加工零件的衆數爲:

       

       衆數是一種位置平均數,是總體中出現次數最多的變量值,因而在實際工作中有時有它特殊的用途。諸如,要說明一個企業中工人最普遍的技術等級,說明消費者需要的內衣、鞋襪、帽子等最普遍的號碼,說明農貿市場上某種農副產品最普遍的成交價格等,都需要利用衆數。但是必須注意,從分佈的角度看,衆數是具有明顯集中趨勢點的數值,一組數據分佈的最高峯點所對應的數值即爲衆數。當然,如果數據的分佈沒有明顯的集中趨勢或最高峯點,衆數也可能不存在;如果有兩個最高峯點,也可以有兩個衆數。只有在總體單位比較多,而且又明顯地集中於某個變量值時,計算衆數纔有意義。

       如果一組數據中存在離羣值,中位數和衆數一般不受離羣值的影響,算術平均數容易受到離羣值的影響。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章