《白話統計》筆記 v.1

3. 關於統計資料類型的思考

3. 1 尋找cut-off值的多種方法

1. 變異，統計學的基礎

科學抽樣的重要性大於樣本個數。
由於抽樣誤差的存在，如果用樣本統計量直接估計總體參數，則肯定會有一定的偏差，所以再估計總體參數時需要考慮到這種偏差的大小，即利用置信區間加粗樣式來估計總體參數。
可以根據一次樣本來計算抽樣誤差的大小，即標準誤。標準誤再所有統計方法中都會出現。其可以提供結果的可靠性，如果標準誤小，則結果可靠；如果標準誤大則抽樣誤差大，提示樣本代表性不強，此時應該加大樣本量。

2. 概率分佈

累積分佈對應內力消耗值，利用 F（x）表示。概率密度對應內力消耗速度，利用 f（x）表示。
累積分佈的斜率越大，概率密度越大，密度值等於累積分佈的斜率。
我們說的正態分佈，二項分佈，t分佈等概率分佈都是概率密度函數，他們下方的面積是100%，只是不同點的密度不同而已，是有的在x=0時密度大一些，有點在x=2時密度大一些。

知道概率密度有什麼用？

2. 1 用weibull分佈尋找生存規律

爲什麼一定要用分佈？

因爲使用的分佈都有固定的形狀，只要確定了相應的參數就可以明確該分佈的形狀。

一般利用統計軟件求出相應的參數，這樣就可以根據這些參數來說明數的變化規律。

選擇用什麼分佈都是根據經驗。之前應該還選擇了其它的分佈形式，只是該分佈形式效果好就留下了。

2. 2 用logistic分佈探索疾病流行規律

如果想知道感染疾病的速度就需要再看看概率密度圖。

Logistic分佈經常用於研究生命週期演變過程。分爲：發生，發展，成熟，飽和。

2. 3 “普通”的正態分佈

用以描述某些比較穩定但是又受一些偶然因素影響的現象。

正態分佈——normal distribution，即普通的分佈，代表現實中最普通的一種數據形式。由兩個參數決定——均數和標準差。

均數是位置參數，標準差是形狀參數。

最前面的係數由標準差來確定，即標準差越大，對應的密度值越小，即分佈越矮胖；標準差越小，對應的密度值越大，分佈越“瘦高”。

正態分佈下的面積規律以及 6倍西格瑪~

2. 4 標準正態分佈

在各種形狀的正態分佈中，標準正態分佈（standardized normal distribution）最實用。即把原始數據進行標準化後，對標準化的數據擬合正態分佈。

標準化將數據轉換成以0爲均數，以1爲標準差的值。
所以標準正態分佈就是一個以0爲中心，以1爲標準差的分佈。

標準正態分佈相對於把正態分佈的規律簡化了，因爲其標準差是1，所以橫軸上的1，2直接是1倍標準差，2倍標準差，從而利用標準正態分佈來說明面積規律就更加簡單了，比如：以0爲中心，在正負2的範圍內面積約爲95.4%。

2. 5 小樣本分佈——t 分佈

t檢驗對應的t分佈。

將大樣本和小樣本的分佈區別找出來，從而符合小樣本的一套分佈。

3. 關於統計資料類型的思考

連續型資料和離散型資料區別在於有無小數點。

3. 1 尋找cut-off值的多種方法

3.1.1 根據專業和經驗

3.1.2 利用ROC曲線找到cut-off值（二分類結局）

其必須有一個明確的二分類結局。

3.1.3 利用最大選擇秩統計量找到cut-off值

3.1.4 利用分類樹來劃分

3.1.5 聚類分析

上述方法都必須有一個已經確定的結局（因變量），然後根據這一結局對自變量進行劃分，通常將這些情況稱爲 有監督的。

無監督 爲有時可能只有一個連續變量，其它什麼都沒有，在這種情況下就無法根據結局對其進行劃分，只能利用該變量本身的數據進行劃分，此時就可以採用聚類分析（cluster analysis）

聚類分析的算法有：

層次法； K-means法； SOM法；概率模型法

層次分析法需要自己判斷聚成幾類合適；

K-means法通過尋找每一類的中心點，保證該類中的點都距離自己的中心點較近，而其它類中的點距離自己的中心點較遠。

聚類分析思想： 基於距離來劃分，兩個點距離近就劃分到一類，兩個點距離遠就劃分爲另外一類。

有的聚類算法需要在劃分前先指定 擬劃分 的類別數（K-means法和SOM法），有的則不需要（層次分析法）。

聚類方法總的原則：保證劃分後各類別之間的距離儘量遠，類別內的距離儘量近。

PS：聚類分析完全是根據數據本身來劃分，不涉及任何專業的知識，但有的時候會導致劃分的類別和專業相悖。所以需要謹慎~！！！！

3.1.6 虛擬變量和啞變量

Dummy variable 即假的變量，不是真實的變量。就是把原來的一個多分類變量轉換爲多個二分類變量，總的來說就是：如果多分類變量有k個類別，則可以轉換爲k-1個二分類變量。

分類結果的解釋一本都要有參照類別。當我們把k個類別的多分類變量轉換爲k-1個二分類變量後，每個二分類變量表示相對參照類的大小。

例如，多分類變量x用1，2，3，4表示，我們設定以1爲參照，那麼生成的3個虛擬變量分佈表示2和1相比的大小，3和1相比的大小，4和1相比的大小。

通過生成虛擬變量，我們就把原來的一個係數變成了多個係數，這個係數更加詳細地說明了自變量和因變量之間地關係，在自變量和因變量呈非線性關係地時候，這很重要。因爲在使用線性迴歸和logistic迴歸的時候，實際上我們就已經默認了自變量和因變量之間呈現線性關係，我們就已經不可能找出非線性的關係了。

《白話統計》筆記 v.1