商務統計_10 數據描述度量 分佈形態、相對位置及異常值

目錄

  • 分佈形態的度量
    原點矩、中心矩、偏態係數、峯度係數
  • 相對位置
    分位數(百分位、十分位、四分位、四分位離差)、五數概括法、箱形圖
  • 異常值
    定義、產生的原因、檢測


分佈形態的度量

集中趨勢與離散程度是數據分佈的重要特徵,接下來近一步全面瞭解數據分佈的特點。

1.原點矩 & 中心矩


  • 又稱動差,源於物理學中的“力矩”。力矩用於測定轉動趨勢,受作用力的大小和力臂的長度影響
    統計學中的矩,是具有廣泛意義的隨機變量的數字特徵

  • 原點矩

    • 一階原點矩
      以標誌值0點爲原點(支點),以各點標誌值xix_i爲力臂的長度,以fii=1nfi\frac{f_i}{\displaystyle{\sum^{n}_{i=1}{f_i}}}爲作用力的大小,構成統計的一階原點矩u1u_1,即u1=i=1nfixii=1nfiu_1=\frac{\displaystyle{\sum^{n}_{i=1}{f_ix_i}}}{\displaystyle{\sum^{n}_{i=1}{f_i}}}.
    • K階原點矩
      將作用力臂長度分別採用各變量值的不同次方。
      uk=i=1nfixiki=1nfiu_k=\frac{\displaystyle{\sum^{n}_{i=1}{f_ix_i^k}}}{\displaystyle{\sum^{n}_{i=1}{f_i}}}.
  • 中心矩

    • K階中心矩
      若將原點移到算術平均值處,以(xixˉ)(x_i-\bar{x})的各次方作爲力臂的長度,以fii=1nfi\frac{f_i}{\displaystyle{\sum^{n}_{i=1}{f_i}}}爲力的大小,則構成統計的K階中心矩υkυ_k,即υk=n=1n(xixˉ)kfii=1nfiυ_k=\frac{\displaystyle{\sum^{n}_{n=1}{(x_i-\bar{x})^kf_i}}}{\displaystyle{\sum^{n}_{i=1}{f_i}}}.

2.偏態係數
測量數據分佈的偏斜方向及程度,記作SKSK

判斷數據分佈的偏度並不困難,因爲數據對稱、左偏和右偏可以決定衆數、中位數和平均數之間的關係,反之,可以利用衆數、中位數、平均數的關係來判定數據是對稱、左偏和右偏。
偏態係數主要用於衡量偏斜的程度

  • 計算
    SK=i=1n(xIxˉ)3fins3;s33SK=\frac{\displaystyle{\sum^{n}_{i=1}{(x_I-\bar{x})^3f_i}}}{n*s^3};s^3-樣本標準差的3次方
    偏態係數SK的數值一般在[-3, 3]之間,SK=0時,分佈對稱;越接近兩邊,偏度越大。

    除以s3s^3是爲了統一量綱。

3.峯度係數
衡量分佈集中趨勢高峯的形狀,計作KUKU
通常以正態分佈爲標準,觀察曲線頂峯的尖平程度。比正態曲線高且瘦,則稱尖峯分佈。比正態曲線矮且平,則稱平峯分佈

  • 計算
    一般用四階中心矩與標準差的四次方對比。
    KU=i=1n(xixˉ)4fins43KU=\frac{\displaystyle{\sum^{n}_{i=1}{(x_i-\bar{x})^4f_i}}}{ns^4}-3
    正態分佈,KUKU=0;尖峯分佈,KUKU>0;平峯分佈,KUKU<0。

    峯度係數,測定鄰近數值周圍變量值的集中與分散程度。
    以四階中心矩爲測量標準,除以標準差的4次方,是爲了消除單位量綱的影響。
    "-3"是爲了讓正態分佈的峯度爲0.

相對位置

指出某個測量值在整個數據集中的相對位置
1.分位數
也叫分位點,指將一個數據集分爲幾個等份的數值點。

  • 百分位數
    把一個數據集排序後,等分爲100份。
    常用於教育和保健領域
    記號是P,如P10表示第10百分位數,P20表示第20百分位數,P50是中位數。百分位數對應的位置就是百分位。

    • 計算
      =x+0.5100百分位 = \frac{比x小的個數 + 0.5}{總個數}*100

    eg. 下列數據是10個學生在滿分20分考試中的成績,找出12分的百分位.
    18,15,12,6,8,2,3,5,20,10
    解:第一步:從小到大排序.
    2,3,5,6,8,10,12,15,18,20
    第二步:代入公式有
    60.510100\frac{6*0.5}{10}*100
    所以,成績爲12分的學生的百分位爲第65百分位,即65%的學生成績比他差,而有35%的學生成績要比他好.

  • 十分位數
    將一個數據集排序後,等分爲10份。
    記號D,如D2表示第2個十分位數,D2=P20。十分位數對應的位置就是十分位。

  • 四分位數 & 四分位極差
    四分位數,即將數據等分爲4份。
    記號Q。已知Q1=P25Q_1=P_{25}.
    第1個四分位數,也稱下四分位數,第2個四分位數即中位數,第3個四分位數,也稱上四分位數一般使用計算中位數的方法來計算四分位數

    • 四分位極差
      Q,Q,來表示,Q,=Q3Q1Q,=Q3-Q1.
      四分位極差反映了中間50%數值的離散程度。數值越小,越集中;數值越大,越分散。
      四分位極差不受極值的影響,在某種程度上彌補了極差的缺陷。

2.五數概括法 & 箱形圖

  • 五數
    最大、最小、中位數、下四分位數、上四分位數。
  • 箱形圖
    也稱盒形圖、盒須圖、盒式圖。
    用作顯示一組數據的分散情況
    常用於品質管理
    在這裏插入圖片描述

    • 1.一般情況,上鄰近值=1.5Q31.5Q_3,下鄰近值=1.5Q11.5Q_1
      2.異常值,>1.5Q3>1.5Q_3<1.5Q1<1.5Q_1,用圓點或其它符號標記出。
      3.最大、最小值不顯示出。

3.標準化
當計算了均值和標準差之後,可以對一組數據進行標準化處理,用來測度每個數據在數據集中的相對位置,並判定是否有異常值。

  • 標準分數(z分數)
    變量值與均值的離差除以標準差。
    z=xiμσz=xixˉsz=\frac{x_i-μ}{σ}或z=\frac{x_i-\bar{x}}{s}

    eg. 某班級有30人,數學成績:μ=70,σ=15.如有幾個學生成績爲:99,85,73,60,45,16.則z值爲:1.93,1.00,0.20,-0.67,-1.61,-3.60.
    標準分數給出了數值在數據集中的相對位置。如99對應1.93,其值高於算術平均值1.93倍標準差。
    一般情況下,高於3倍標準差的值是非常少的,在算術平均值加減3倍標準差的範圍內包含了99.7%的數據。超出範圍之外的數據統計上稱異常值。

    注:標準化後,數據就沒有量綱了,但不改變其相對位置。面對不同量綱的變量處理時,常需要標準化處理。

異常值

一般情況下,將一組數據中偏離均值兩倍標準差的值稱爲異常值偏離均值3倍標準差的值稱爲高度異常值
產生異常值的原因:

  • 記錄出錯,修正;
  • 數據不屬於數據集,刪除;
  • 正常發生的事件引起(如雙十一),保留。

2.異常值檢測
常用的兩種方法:

  • 如是正態分佈,由於正態分佈數據的99.7%的數據落在正負3個標準差範圍內,因此可用z分數,判定異常值:z小於-3,或大於3。如非正態分佈,則z分數不太適合
  • 可用箱形圖,判定異常值:大於1.5Q31.5Q_3,或小於1.5Q11.5Q_1

原點矩顧名思義,是隨機變量到原點的距離(這裏假設原點爲零點)。中心矩則類似於方差,先要得出樣本的期望即均值,然後計算出隨機變量到樣本均值的一種距離。
二階中心矩,也叫作方差,它告訴我們一個隨機變量在它均值附近波動的大小,方差越大,波動性越大。方差也相當於機械運動中以重心爲轉軸的轉動慣量。
三階中心矩告訴我們一個隨機密度函數向左或向右偏斜的程度。
在均值不爲零的情況下,原點矩只有純數學意義。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章