參數估計和假設檢驗

統計檢驗：參數估計、卡方檢驗、T檢驗、方差分析、相關分析
樣本t檢驗、方差分析、相關分析都可以用來篩選變量。

參數估計的兩種方式：點估計和參數估計，用樣本來推斷總體。
問題：領導讓你統計一下北京9月平均房價是多少？？
點估計：
事實是這樣的，你不可能是統計到所有房屋的價格，所以一般會採取隨機抽樣的方式，抽取一些個樣本，然後用樣本的均值來估計總體均值，ok，這個時候大家可能會有個疑問，畢竟是隨機抽樣，用樣本均值直接來估計總體是不是有可能不準啊，很容易受到抽樣的樣本影響，是的，那我們把給定一個均值區間是不是會好點，這個時候就有了區間估計，這樣也有一個好處，方便大家甩鍋，哈哈。舉個例子你用區間估計得出北京9月平均房價有95%的概率落在(6萬，9萬)區間內，那麼小於6萬和大於9萬的概率是2.5%，如果實際是10萬，追責起來實力甩鍋，雖然是小概率，不代表不會發生，是不，哈哈。
區間估計：
我們引入均值正態分佈從而將問題描述成北京9月平均房價有多大的概率落在這個置信區間（均值的標準誤）內，這就是區間估計（請注意這裏是均值的標準誤，每次抽取一組樣本，都會產生一個均值，這些均值重新組合成一個集合，這個集合的標準差就是均值的標準誤，因爲計算它需要抽取很多組的數據，所以使用下面的公式來計算）。

區間估計實際上是假設樣本均值滿足正態分佈，樣本均值滿足正態分佈的理論基礎就是中心極限定理，只要樣本抽的足夠多（N>30以上），樣本均值將有很大可能會服從正態分佈，如果樣本均值滿足正態分佈就可以用置信區間和置信水平來進行度量）。

樣本均值滿足正態分佈：如果樣本是正態分佈，那麼樣本均值就是正態分佈；如果樣本不是正態分佈，那麼根據中心極限定理，繼續抽更多的樣本之後（N>30），樣本均值就會滿足正態分佈。

也可以參考知乎回答：https://www.zhihu.com/question/21871331

正態分佈檢驗方法：
連續變量用概率密度函數，或者是QQ圖

卡方檢驗
檢驗分類變量之間是否存在差異，對於小樣本量（小於10000）而言，根據p值來看顯著性。

T檢驗
假設前提：樣本是正態或接近正態分佈，對於多組變量而言，還需要進行方差齊性levene檢驗，方差齊不齊最後檢驗的方法是不一致的。

T檢驗包括3種：單樣本T檢驗、獨立樣本T檢驗（比如男女性別之間的語文成績是否存在差異），配對樣本T檢驗（比如患者在使用某藥物前後某指標的變化是否存在顯著性差異）。

還是上面那個例子，領導說北京9月平均房價會大於10%嗎？？？或者說大於10%的概率是多大？？？這個時候可以用到單樣本T檢驗，隨機抽取一些樣本，看樣本均值與10%差距有多大。

原假設H0：u = 0.1
備擇假設H1：u ≠ 0.1

這裏有一個小概率事件的理論，意思就是本來不該在一次試驗中發生的小概率事件卻發生了，就拒絕原假設，從而接受備擇假設。
在這裏我們需要用到下面這張圖，其中白色部分是接受域，藍色部分是拒絕域，如果0.1落在了白色區域（實際上就是給定一個置信區間）內，我們就接受原假設，反之拒絕原假設，接受備擇假設。
在實際做的時候，直接用spss或者python得出樣本均值與給定均值的P值，如果 P < α，拒絕原假設；反之接受原假設。

顯著度水平α怎麼取：
樣本小於100，10%
樣本100-500 ， 5%
樣本500-1000， 1%
樣本2000左右， 0.1%

什麼情況下P會失效？
如果樣本量上萬，這個是沒有太大意義的，爲什麼這麼說呢，因爲隨着樣本數量的不斷增加，就越有可能發生小概率事件，從而越容易拒絕原假設，接受備擇假設，所以如果樣本量很大的情況下要用這些統計檢驗，那就對數據多進行幾次抽樣，然後看P值。

方差分析：
假設前提：各樣本相互獨立，且方差齊。
一個連續變量，一個分類變量（3種類別以上），實際上也能用兩樣本T檢驗，兩兩組合進行檢驗，不過比較麻煩。假設各組均值全部相等。

相關分析：
兩個連續變量之間的關係，先看散點圖。
pearson相關係數：描述線性變量之間的關係
Sperman相關係數：描述指數關係，沒有拐點
kendall相關係數：描述拐點的變量之間的相關性，如拋物線

相關分析和迴歸分析的區別：
相關分析是檢驗變量之間相關性有多強，變量之間是對等的的；迴歸分析是將變量之間的關係用形如y=f(x)的關係表達出來，需要劃分解釋變量和被解釋變量，在線性迴歸中，β0是無法解釋的，比如我們要探討身高x和體重y之間的關係，建立了一個迴歸方程：y = β0 + β1 * x，但在實際中x=0根本就不可能發生，而且我們在解釋的時候也是這樣的，身高沒增加1cm，體重增加多少。

參數估計和假設檢驗

數理統計的相關知識

python遍歷文件夾中帶指定後綴的文件並做數據拼接

統計推斷中的參數估計和假設檢驗

常見分佈的概率分佈及期望方差

多元線性迴歸模型檢驗-續上篇

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結