統計學學習-Day1

樣本與總體

樣本:

  • 樣本是用來估計總體的
  • 樣本應與總體的情況相似(比如,利用埃菲爾鐵塔的模型去研究真正的埃菲爾鐵塔的結構。那麼這個樣本應該在結構上,比例上與原來的母體相似(總體 population)
  • 樣本應該是概率樣本,也就是說是隨機抽樣的,每個樣本被抽入的概率應該是等可能的。
  • 樣本的情況叫做樣本的統計值

變量

  • 變量是指因人而異的變
  • 分析變量的目的是探索日新月異的變化

量化是一個系統工程:

  • 抽樣、根據目的來確定某些個體的哪些屬性、測量工具應是有效、可靠的(Vaild and Values,比如性別,年齡)
  • 量化的實施過程:調查工具(問卷)的設計、調查工具的測試與調試、調查工具的操作、數據編碼(清理)、數據處理(重新編碼、取平方等)
  • 量化研究是實驗的代用品
  • 代用品是否可靠取決於量化的水平

數據分析

一、單變項分析(由點到線):

  1. 正態分佈:看標準差(坡度 slope)和期望(均值 Mean)

在這裏插入圖片描述
1、平方和(計算用平均值計算的總誤差,因爲可能直接計算出來的誤差有正有負,所以採用平方和來計算誤差):用每一個人測得的實際值減去求得的平均值的平方,再求和。
在這裏插入圖片描述

2、方差(方差越小越穩定):因爲當樣本量巨大的時候,所求得的平方和是也可能會是巨大的,因此難以反映母體的情況。所有要將平方和去除以案例數。

在這裏插入圖片描述
3、標準差(離標準情況的差距):比如我想要超越其他人,我要達到全球的前1%,那麼我要計算我比平均值高几個標準差。越往後,一個標準差拜託的人越多。
在這裏插入圖片描述

  1. 抽樣分佈:
    1、從一個總體裏簡單隨機抽取M組樣本,每組樣本爲N個人,對每一組N個人求平均值,然後觀察M組樣本均值的分佈,可以發現是服從正態分佈的。
    2、標準誤:抽樣分佈當中的標準差就叫標準誤。因爲我們是在研究樣本統計值的分佈,而樣本統計值與總體分佈總是存在誤差的,所以每個樣本統計值的分佈其實是誤差的分佈,誤差的分佈的標準差就是標準的誤差。

雙變項分析:由線到面

  1. 相關性分析:
    1、不相關:兩條平行線
    2、正相關是水漲船高,負相關是此消彼長
    3、曲線相關:U型觸底反彈(考研和激動程度的關係:考研初期很激動,到中期激動的程度越來越小,到後期又開始激動);倒U型(年齡和體力的關係:年幼時體力很差,到28左右體力達到峯值,然後逐漸又開始下降)
    在這裏插入圖片描述

  2. 顯著性檢驗(當檢測出兩個因素相關,然後要看到底是爲什麼相關,是隨機的相關還是背後有必然性的關係):
    1、顯著:顯著不是重要(Sign(信號:表達一種意思,指某些事)、Signify、Significant、Significance)。顯著就是某個聯繫背後是不是意味着什麼東西。
    2、顯著度檢驗的六步:
    1)研究假設 H1 (希望證實的對於總體假設)
    2)零假設 H0 (希望拋棄的那個對於總體的假設)
    3)根據變量類型選擇檢驗方法
    4)決定願意承擔多大的犯一類錯誤的風險
    5)根據樣本計算犯一類錯誤的風險
    6)參照第4-5步決定是否放棄零假設
    注:I類風險(可計算):(棄真)放棄了一個真的零假設;II類風險:(納僞)接受了一個假的零假設。
    解釋:假設我們要研究工資會不會隨着年齡的增加而升高。我們的零假設是工資不會隨着年齡的升高而升高。此時再次假設總體中有一組樣本它是接受零假設的,並且抽到這組樣本的概率是0.001%。接下來我們要從總體中抽一組樣本。假設我們剛好抽到了接受零假設的那一組樣本,同時我們不知道抽到這組的概率是多少。此時我們需要計算犯I類錯誤的風險。也就是說我們棄真的概率有多大。比如計算得出犯I類錯誤的概率爲4%,那麼如果我們的研究可以承擔5%犯I類風險的錯誤,那麼我們可以選擇繼續拋棄零假設,但是此時我們的研究就有一定的錯誤的可能性。但是這是沒有辦法的,不可能做到100%真。

  3. 迴歸分析:是預設因果關係的相關分析
    1、正態分佈時平均值是最準的猜測
    2、迴歸分析是根據自變量更準地猜因變量
    3、最小二乘迴歸(最小平方和,擬合度最高:比如我給你一件衣服來猜我的身高,你會先問問這件衣服合不合身,再去估計)就是把猜測準確度最大化。
    4、迴歸分析的顯著性檢驗與法庭審判類似
    注:
    迴歸分析結果分析:B是指未標準化的迴歸係數(單位是一樣的,不意味着任何事)。t值是指如果零假設是真的,那麼你要移動多少個標準差可以到達那個零假設。下圖可以看到,t值=B/Std_Error約爲19.115。也就是說如果零假設是真的那麼,要走19.115個標準差纔可以到那個可能,也就是抽到一組樣本滿足零假設的概率非常非常的小。這個時候就要看你能夠承擔多少犯I類風險的錯誤。
    在這裏插入圖片描述
    5、斜率計算公式:
    在這裏插入圖片描述
    6、最小二乘線性迴歸係數公式:根據這條線去推測總體的誤差是最小的。
    在這裏插入圖片描述
    7、ANOVA表告訴了我們減少了多少誤差:
    相較於原來13791092.340的誤差減少了601個億
    在這裏插入圖片描述
    8:R Square:誤差減少了43.6%。就好比我們這件衣服把測量的誤差擋掉了43.6%。
    在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章