《白話統計》筆記 v.1

1. 變異,統計學的基礎

  • 科學抽樣的重要性大於樣本個數。

  • 由於抽樣誤差的存在,如果用樣本統計量直接估計總體參數,則肯定會有一定的偏差,所以再估計總體參數時需要考慮到這種偏差的大小,即利用置信區間加粗樣式來估計總體參數。

  • 可以根據一次樣本來計算抽樣誤差的大小,即標準誤。標準誤再所有統計方法中都會出現。其可以提供結果的可靠性,如果標準誤小,則結果可靠;如果標準誤大則抽樣誤差大,提示樣本代表性不強,此時應該加大樣本量。

2. 概率分佈

  • 累積分佈 對應 內力消耗值,利用 F(x)表示。 概率密度 對應 內力消耗速度,利用 f(x)表示。
  • 累積分佈的斜率越大,概率密度越大,密度值等於累積分佈的斜率。
  • 我們說的正態分佈,二項分佈,t分佈等概率分佈都是概率密度函數,他們下方的面積是100%,只是不同點的密度不同而已,是有的在x=0時密度大一些,有點在x=2時密度大一些。

知道概率密度有什麼用?

2. 1 用weibull分佈尋找生存規律

  • 爲什麼一定要用分佈?
  1. 因爲使用的分佈都有固定的形狀,只要確定了相應的參數就可以明確該分佈的形狀。
  2. 一般利用統計軟件求出相應的參數,這樣就可以根據這些參數來說明數的變化規律。
  3. 選擇用什麼分佈都是根據經驗。之前應該還選擇了其它的分佈形式,只是該分佈形式效果好就留下了。

2. 2 用logistic分佈探索疾病流行規律

如果想知道感染疾病的速度就需要再看看概率密度圖
在這裏插入圖片描述
Logistic分佈經常用於研究生命週期演變過程。分爲:發生,發展,成熟,飽和。

2. 3 “普通”的正態分佈

用以描述某些比較穩定但是又受一些偶然因素影響的現象。

正態分佈——normal distribution,即普通的分佈,代表現實中最普通的一種數據形式。由兩個參數決定——均數和標準差

均數是位置參數,標準差是形狀參數

最前面的係數由標準差來確定,即標準差越大,對應的密度值越小,即分佈越矮胖;標準差越小,對應的密度值越大,分佈越“瘦高”。

正態分佈下的面積規律 以及 6倍西格瑪~
在這裏插入圖片描述

2. 4 標準正態分佈

在各種形狀的正態分佈中,標準正態分佈(standardized normal distribution)最實用。即把原始數據進行標準化後,對標準化的數據擬合正態分佈。

標準化將數據轉換成以0爲均數,以1爲標準差的值。
所以標準正態分佈就是一個以0爲中心,以1爲標準差的分佈。

標準正態分佈相對於把正態分佈的規律簡化了,因爲其標準差是1,所以橫軸上的1,2直接是1倍標準差,2倍標準差,從而利用標準正態分佈來說明面積規律就更加簡單了,比如:以0爲中心,在正負2的範圍內面積約爲95.4%。

2. 5 小樣本分佈——t 分佈

t檢驗對應的t分佈。

將大樣本和小樣本的分佈區別找出來,從而符合小樣本的一套分佈。
在這裏插入圖片描述

3. 關於統計資料類型的思考

在這裏插入圖片描述
連續型資料和離散型資料區別在於有無小數點。

3. 1 尋找cut-off值的多種方法

3.1.1 根據專業和經驗

3.1.2 利用ROC曲線找到cut-off值(二分類結局)

其必須有一個明確的二分類結局。
在這裏插入圖片描述

3.1.3 利用最大選擇秩統計量找到cut-off值

3.1.4 利用分類樹來劃分

在這裏插入圖片描述

3.1.5 聚類分析

上述方法都必須有一個已經確定的結局(因變量),然後根據這一結局對自變量進行劃分,通常將這些情況稱爲 有監督的

無監督 爲有時可能只有一個連續變量,其它什麼都沒有,在這種情況下就無法根據結局對其進行劃分,只能利用該變量本身的數據進行劃分,此時就可以採用聚類分析(cluster analysis)

聚類分析的算法有:

層次法; K-means法; SOM法; 概率模型法

  1. 層次分析法需要自己判斷聚成幾類合適;
  2. K-means法通過尋找每一類的中心點,保證該類中的點都距離自己的中心點較近,而其它類中的點距離自己的中心點較遠。

聚類分析思想: 基於距離來劃分,兩個點距離近就劃分到一類,兩個點距離遠就劃分爲另外一類。

有的聚類算法需要在劃分前先指定 擬劃分類別數(K-means法和SOM法),有的則不需要(層次分析法)。

聚類方法總的原則:保證劃分後各類別之間的距離儘量遠,類別內的距離儘量近。

PS:聚類分析完全是根據數據本身來劃分,不涉及任何專業的知識,但有的時候會導致劃分的類別和專業相悖。所以需要謹慎~!!!!

3.1.6 虛擬變量和啞變量

Dummy variable 即假的變量,不是真實的變量。就是把原來的一個多分類變量轉換爲多個二分類變量,總的來說就是:如果多分類變量有k個類別,則可以轉換爲k-1個二分類變量。

分類結果的解釋一本都要有參照類別。當我們把k個類別的多分類變量轉換爲k-1個二分類變量後,每個二分類變量表示相對參照類的大小。

例如,多分類變量x用1,2,3,4表示,我們設定以1爲參照,那麼生成的3個虛擬變量分佈表示2和1相比的大小,3和1相比的大小,4和1相比的大小。

通過生成虛擬變量,我們就把原來的一個係數變成了多個係數,這個係數更加詳細地說明了自變量和因變量之間地關係,在自變量和因變量呈非線性關係地時候,這很重要。因爲在使用線性迴歸和logistic迴歸的時候,實際上我們就已經默認了自變量和因變量之間呈現線性關係,我們就已經不可能找出非線性的關係了。

在這裏插入圖片描述
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章