樣本與總體

樣本：

樣本是用來估計總體的
樣本應與總體的情況相似（比如，利用埃菲爾鐵塔的模型去研究真正的埃菲爾鐵塔的結構。那麼這個樣本應該在結構上，比例上與原來的母體相似（總體 population）
樣本應該是概率樣本，也就是說是隨機抽樣的，每個樣本被抽入的概率應該是等可能的。
樣本的情況叫做樣本的統計值

變量

變量是指因人而異的變
分析變量的目的是探索日新月異的變化

量化是一個系統工程：

抽樣、根據目的來確定某些個體的哪些屬性、測量工具應是有效、可靠的（Vaild and Values，比如性別，年齡）
量化的實施過程：調查工具（問卷）的設計、調查工具的測試與調試、調查工具的操作、數據編碼（清理）、數據處理（重新編碼、取平方等）
量化研究是實驗的代用品
代用品是否可靠取決於量化的水平

數據分析

一、單變項分析（由點到線）：

正態分佈：看標準差（坡度 slope）和期望（均值 Mean）

1、平方和（計算用平均值計算的總誤差，因爲可能直接計算出來的誤差有正有負，所以採用平方和來計算誤差）：用每一個人測得的實際值減去求得的平均值的平方，再求和。

2、方差（方差越小越穩定）：因爲當樣本量巨大的時候，所求得的平方和是也可能會是巨大的，因此難以反映母體的情況。所有要將平方和去除以案例數。

3、標準差（離標準情況的差距）：比如我想要超越其他人，我要達到全球的前1%，那麼我要計算我比平均值高几個標準差。越往後，一個標準差拜託的人越多。

抽樣分佈：
1、從一個總體裏簡單隨機抽取M組樣本，每組樣本爲N個人，對每一組N個人求平均值，然後觀察M組樣本均值的分佈，可以發現是服從正態分佈的。
2、標準誤：抽樣分佈當中的標準差就叫標準誤。因爲我們是在研究樣本統計值的分佈，而樣本統計值與總體分佈總是存在誤差的，所以每個樣本統計值的分佈其實是誤差的分佈，誤差的分佈的標準差就是標準的誤差。

雙變項分析：由線到面

相關性分析：
1、不相關：兩條平行線
2、正相關是水漲船高，負相關是此消彼長
3、曲線相關：U型觸底反彈（考研和激動程度的關係：考研初期很激動，到中期激動的程度越來越小，到後期又開始激動）；倒U型（年齡和體力的關係：年幼時體力很差，到28左右體力達到峯值，然後逐漸又開始下降）
顯著性檢驗（當檢測出兩個因素相關，然後要看到底是爲什麼相關，是隨機的相關還是背後有必然性的關係）：
1、顯著：顯著不是重要（Sign(信號：表達一種意思，指某些事)、Signify、Significant、Significance)。顯著就是某個聯繫背後是不是意味着什麼東西。
2、顯著度檢驗的六步：
1）研究假設 H1 （希望證實的對於總體假設）
2）零假設 H0 （希望拋棄的那個對於總體的假設）
3）根據變量類型選擇檢驗方法
4）決定願意承擔多大的犯一類錯誤的風險
5）根據樣本計算犯一類錯誤的風險
6）參照第4-5步決定是否放棄零假設
注：I類風險（可計算）：（棄真）放棄了一個真的零假設；II類風險：（納僞）接受了一個假的零假設。
解釋：假設我們要研究工資會不會隨着年齡的增加而升高。我們的零假設是工資不會隨着年齡的升高而升高。此時再次假設總體中有一組樣本它是接受零假設的，並且抽到這組樣本的概率是0.001%。接下來我們要從總體中抽一組樣本。假設我們剛好抽到了接受零假設的那一組樣本，同時我們不知道抽到這組的概率是多少。此時我們需要計算犯I類錯誤的風險。也就是說我們棄真的概率有多大。比如計算得出犯I類錯誤的概率爲4%，那麼如果我們的研究可以承擔5%犯I類風險的錯誤，那麼我們可以選擇繼續拋棄零假設，但是此時我們的研究就有一定的錯誤的可能性。但是這是沒有辦法的，不可能做到100%真。
迴歸分析：是預設因果關係的相關分析
1、正態分佈時平均值是最準的猜測
2、迴歸分析是根據自變量更準地猜因變量
3、最小二乘迴歸（最小平方和，擬合度最高：比如我給你一件衣服來猜我的身高，你會先問問這件衣服合不合身，再去估計）就是把猜測準確度最大化。
4、迴歸分析的顯著性檢驗與法庭審判類似
注：
迴歸分析結果分析：B是指未標準化的迴歸係數（單位是一樣的，不意味着任何事）。t值是指如果零假設是真的，那麼你要移動多少個標準差可以到達那個零假設。下圖可以看到，t值=B/Std_Error約爲19.115。也就是說如果零假設是真的那麼，要走19.115個標準差纔可以到那個可能，也就是抽到一組樣本滿足零假設的概率非常非常的小。這個時候就要看你能夠承擔多少犯I類風險的錯誤。

5、斜率計算公式：

6、最小二乘線性迴歸係數公式：根據這條線去推測總體的誤差是最小的。

7、ANOVA表告訴了我們減少了多少誤差：
相較於原來13791092.340的誤差減少了601個億

8：R Square:誤差減少了43.6%。就好比我們這件衣服把測量的誤差擋掉了43.6%。