第一週:數據的描述性統計

學習計劃:第一週

一、本週學習內容:

    知識點: 數據的描述性統計
    主要包括:
           1、數據的集中趨勢:
             衆數、中位數、平均數、分位數、極差;
             算術平均數、加權平均數、幾何平均數;
           2、數據的離中趨勢:
             數值型數據:方差、標準差、極差、平均差;
             順序數據:四分位差;
             分類數據:異衆比率;
           3、相對離散程度:離散係數;
           4、分佈的形狀:偏態係數、峯態係數;

二、知識點概念

1、數據的集中趨勢

集中趨勢:集中趨勢有稱爲“數據的中心位置”、“集中量數”等。它是一組數據的代表值。集中趨勢的概念就是平均數的概念,它能夠對總體的某一特徵具有代表性,表明所研究的輿論現象在一定時間、空間條件下的共同性質和一般水平。就變量數列而言,由於整個變量數列是以平均數爲中心而上下波動的,所以平均數反映了總體分佈的集中趨勢,它是表名總體分佈的一個重要特徵值。根據變量數列的平均數,就可以瞭解所研究總體的集中趨勢和一般特徵。集中趨勢是用來描述輿論現象的重要統計分析指標,常用的有平均數、中位數和衆數等,它們在不同類型的分佈數列中有不同的測定方法。

衆數:是一組數據中出現次數最多的數值。

中位數:對於有限的數集,可以通過把所有觀察值高低排序後找出正中間的一個作爲中位數。如果觀察值有偶數個,通常取最中間的兩個

分位數:分位數是指將一個隨機變量的概率分佈範圍分爲幾個等分的數值點,常用的有中位數(即二分位數)、四分位數、百分位數等。

極差:又稱範圍誤差或全距,以R表示。是用來表示統計資料中的變異量數。其最大值與最小值之間的差距,即最大值減最小值後所得之數據。

算術平均數:又稱均值,是統計學中最基本、最常用的一種平均指標,分爲簡單算術平均數、加權算數

加權平均值:加權平均值即將各數值乘以相應的權數,然後加總求和得到總體值,再除以總的單位數。加權平均值的大小不僅取決於總體中各單位的數值的大小,而且取決於各數值出現的次數(頻數),由於各數值出現的次數對其在平均數中的影響起着權衡輕重的作用,因此叫做權數。

2、數據的離中趨勢

方差:方差是在概率論和統計方差衡量隨機變量或一組數據時離散程度的度量。概率論中方差用來度量隨機變量和數學期望(即均值)之間的偏離程度。統計中的方差是每個樣本值與全體樣本值的平均數之差的平均值的平均數。在許多實際問題中,研究方差即偏離程度有着重要意義。

標準差:又常稱均方差,是離均差平方的算術平均數的平方根,用σ表示。標準差是方差的算數平方根。標準差能反映一個數據集的離散程度。平均數相同的兩組數據,標準差未必相同。

平均差:表示各個變量值之間差異程度的數值之一。指各個變量值同平均數的離差絕對值的算術平均數。

四分位差:是上四分位數與下四分位數的差。

異衆比率:統計學名詞,是統計學當中研究現象離中趨勢的指標之一。異衆比率指的是總體中非衆數次數與總體全部次數之比。換句話說,異衆比率指非衆數組的頻數佔總頻數的比例。

離散係數:離散係數又稱變異係數,是統計學當中的常用統計指標。離散係數是測度數據離散程度的相對統計 量,主要是用於比較不同樣本數據的離散程度。離散係數大,說明數據的離散程度也大;離散係數小,說明數據的離散程度也小。

偏態係數:偏態係數又稱偏差係數,說明隨機系列分配不對稱程度的統計參數,用Cs表示。和Cv只能反映頻率密度分配曲線的平均情況和離散程度,而不能反映其對稱(即偏態)情況,所以必須再引入一個參數,即偏差係數Cso。偏態係數絕對值越大,偏斜越嚴重。

峯態:又稱峯態係數。表徵概率密度分佈曲線在平均值處峯值高低的特徵數。直觀看來,峯度反映了尾部的厚度。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章