統計學(一): Z 分數 & 正態分佈 (附 Python 實現代碼) --Z 檢驗先修; Z 分數與正態分佈兩者關係; Z 分數與百分位數的異同;面試要點(以心理學實驗爲舟)

在這裏插入圖片描述

背景介紹

  筆者的第一本心理學啓蒙教材《西奧蒂尼社會心理學》;揭開了自我、環境、羣體之間看不見的影響力。“ 行爲背後的目的到底是什麼?” “ 目的背後的人和環境發揮了怎樣的作用?” 是社會心理學探究的兩大核心問題。筆者從心理學網站中抽取了有一組關於說服者態度強硬指數的數據,爲了探究受試者態度強硬的程度與說服結果的關係,我們首先需要知道他們的強硬指數的 “ 段位 ”,即他們超過了羣體中百分之幾的人,又或者說羣體中有百分之幾的人在 TA 後/前面。不過爲了讓你對 z 分數有一個更加深刻的認識,請確保你已經掌握瞭如下的基礎概念和簡單的術語,它們在統計學實驗和文獻中會經常出現。
在這裏插入圖片描述



正式開始

z 分數

  z 分數是將個體分數,個體所在樣本或總體的平均值和標準差串在一起的一個概念,它是對普通數據進行轉換的結果,可以更好地描述數據在分佈中的位置,進而得出原始分數在數據集合中的百分等級,這樣便能讓一個統計學外行人也能完全聽懂;計算公式爲 Z = (X - M)/SD,用來描述某分數在其分佈中高於(或低於,如果它爲負)平均數的標準差數目;總的來說,可以確定該分數所在的位置(“段位”)
在這裏插入圖片描述
數據預覽 & 求解 z 分數

  我們現在隨機抽取一位同學,計算 TA 強硬指數的“段位”
在這裏插入圖片描述
求解 z 分數
在這裏插入圖片描述
  現在我們知道了 “石軍” 同學的 z 分數大約爲 -0.63,那接下來該如何判斷其“段位”呢?兩個方法:結合正態分佈曲線粗略標定法和直接查表法。

查表法:如下爲z 分數表

  通過上表不難看出,石軍的 z_score 爲 -0.63,根據正態曲線的 z 分數表可以找出精確的百分比爲 0.735(三位小數),即 73.5%,因爲其 z 分數爲負,所以我們可以這樣說:石軍同學的強硬指數低於 73.5% 的同學。

源代碼

def z_score(data, individual):
    """ 傳入這個樣本的所有數據 & 希望探究的個體的數據,
    打印其對應的 Z 分數 """
    # 求解平均值和方差, 並求解 z 分數
    mean = data.mean()
    std = data.std()
    z = (individual - mean) / std
    return {'原始分數': individual,
          'Mean': round(mean,3),
          'Standard deviation': round(std,3),
          'Z score': z}

粗略估計法則則可參照下圖的範圍區間(該圖非常常用,需要牢記)
在這裏插入圖片描述
  順便安利一個免費的提高效率的軟件,用後再不說自己忙了。Office Lens:掃描軟件,不多說,誰下誰知道。



正態曲線初探

  細心一點的朋友應該會發現,其實上面兩個方法(精確查表和粗略看分佈圖)的方法都是基於正態曲線來說的。其實數據的分佈情況並不會給 Z 分數的可信度造成很大影響。Z 分數有時候被稱作標準分佈,因爲 Z 分數相對於平均數和標準差有着標準值,而且它提供了測量任意變量的標準尺度(話雖如此,又是隻有當 Z 分數的分佈爲正態時,術語標準分數才能使用,後面會繼續更博)

爲什麼自然界中正態曲線如此常見?

常見的連續分佈的形式
在這裏插入圖片描述

  • 正態分佈(剛好處於一半的那個位置):一般自然界自然生長/自然而成的東西的分佈情況如人的身高 – 受到了多方面的影響,很難考量單一因素等。
  • 對數正態分佈:收入是對數正態。最高的藍線,最往右邊偏的。幾種分佈中:其中對數正態分佈在統計分析中運用最爲廣泛,顧名思義,這種類型的分佈在取對數之後服從正態分佈。因爲其具有這樣的良好屬性,在精確度要求並不嚴格的統計分析中。描述性統計分析 – 直接正態分佈描述就可以了;建模的時候才取對數。
  • 泊松分佈:網頁點擊量、隊伍長度 等符合泊松分佈
  • 伽馬分佈:災難給我們帶來的經濟損失,一旦到了理賠的方面,伽馬分佈就最常見了

  注意:數據分析中,一般情況下,右偏不嚴重的 – 當正態分佈用;右偏嚴重的 – 當對數正態用;做描述性統計分析的時候,中心水平通常用均值或者中位數來表示。如何在兩者中抉擇呢?偏度一般:均值;偏度比較大時,使用中位數。爲什麼不一直使用中位數?對老百姓來說不好理解

說服者態度強硬指數的分佈情況
在這裏插入圖片描述

如何一步到位的畫出複雜精美的圖片可以參考這篇博文

Python 數據可視化:seaborn displot 正態分佈曲線擬合圖代碼註釋超詳解(放入自寫庫,一行代碼搞定複雜細節繪圖)



模擬問答

  1. 談談你對平均數,方差和標準差的理解吧,他們之間的關係

  2. z 分數是什麼,計算公式?有什麼意義?

  3. z 分數與百分位數有什麼異同?計算公式與 numpy 中的 percentile 函數可當成是一體嗎
    percentile(百分位數)更接近順序變量,Z-score(標準分數)是連續變量。分佈正態時兩者無差別,偏態時用百分位數更好,不過還是要看具體情況。

  總而言之,瞭解 Z 分數,是入門統計學的開始,加油!



後記

  數據分析,商業實踐,數據可視化,網絡爬蟲,統計學,Excel,Word, 社會心理學,認知心理學,行爲科學,民族意志學 各種專欄後續瘋狂補充

  歡迎評論與私信交流!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章