【乾貨!】統計學最常用的「數據分析方法」清單(下)

本文是<統計學最常用的數據分析方法清單>的下篇,沒有看過上篇的小夥伴請點擊【乾貨】統計學最常用的「數據分析方法」清單(上)複習內容哦!

9 判別分析

根據已掌握的一批分類明確的樣品建立判別函數,使產生錯判的事例最少,進而對給定的一個新樣品,判斷它來自哪個總體。

1. 與聚類分析區別

  • 聚類分析可以對樣本逬行分類,也可以對指標進行分類;而判別分析只能對樣本

  • 聚類分析事先不知道事物的類別,也不知道分幾類;而判別分析必須事先知道事物的類別,也知道分幾類

  • 聚類分析不需要分類的歷史資料,而直接對樣本進行分類;而判別分析需要分類歷史資料去建立判別函數,然後才能對樣本進行分類

2. 進行分類

  • Fisher判別分析法

以距離爲判別準則來分類,即樣本與哪個類的距離最短就分到哪一類,適用於兩類判別;以概率爲判別準則來分類,即樣本屬於哪一類的概率最大就分到哪一類,適用於多類判別。

  • BAYES判別分析法

BAYES判別分析法比FISHER判別分析法更加完善和先進,它不僅能解決多類判別分析,而且分析時考慮了數據的分佈狀態,所以一般較多使用。

10 主成分分析主成分分析

是一種統計方法。通過正交變換將一組可能存在相關性的變量轉換爲一組線性不相關的變量,轉換後的這組變量叫主成分。

主成分分析首先是由K.皮爾森(Karl Pearson)對非隨機變量引入的,爾後H.霍特林將此方法推廣到隨機向量的情形。信息的大小通常用離差平方和或方差來衡量。

1. 原理

在用統計分析方法研究多變量的課題時,變量個數太多就會增加課題的複雜性。人們自然希望變量個數較少而得到的信息較多。在很多情形,變量之間是有一定的相關關係的,當兩個變量之間有一定相關關係時,可以解釋爲這兩個變量反映此課題的信息有一定的重疊。主成分分析是對於原先提出的所有變量,將重複的變量(關係緊密的變量)刪去多餘,建立儘可能少的新變量,使得這些新變量是兩兩不相關的,而且這些新變量在反映課題的信息方面儘可能保持原有的信息。

設法將原來變量重新組合成一組新的互相無關的幾個綜合變量,同時根據實際需要從中可以取出幾個較少的綜合變量儘可能多地反映原來變量的信息的統計方法叫做主成分分析或稱主分量分析,也是數學上用來降維的一種方法。

2. 缺點

在主成分分析中,我們首先應保證所提取的前幾個主成分的累計貢獻率達到一個較高的水平(即變量降維後的信息量須保持在一個較高水平上),其次對這些被提取的主成分必須都能夠給出符合實際背景和意義的解釋(否則主成分將空有信息量而無實際含義)。

主成分的解釋其含義一般多少帶有點模糊性,不像原始變量的含義那麼清楚、確切,這是變量降維過程中不得不付出的代價。因此,提取的主成分個數m通常應明顯小於原始變量個數p(除非p本身較小),否則維數降低的“利”可能抵不過主成分含義不如原始變量清楚的“弊”。

11 因子分析

一種旨在尋找隱藏在多變量數據中、無法直接觀察到卻影響或支配可測變量的潛在因子、並估計潛在因子對可測變量的影響程度以及潛在因子之間的相關性的一種多元統計分析方法。

1. 與主成分分析比較

  • 相同:都能夠起到治理多個原始變量內在結構關係的作用

  • 不同:主成分分析重在綜合原始變適的信息,而因子分析重在解釋原始變量間的關係,是比主成分分析更深入的一種多元統計方法

2. 用途

  • 減少分析變量個數

  • 通過對變量間相關關係探測,將原始變量進行分類

12 時間序列分析動態數據處理的統計方法

研究隨機數據序列所遵從的統計規律,以用於解決實際問題。時間序列通常由4種要素組成:趨勢、季節變動、循環波動和不規則波動。

1. 主要方法

移動平均濾波與指數平滑法、ARIMA橫型、量ARIMA橫型、ARIMAX模型、向呈自迴歸橫型、ARCH族模型。時間序列是指同一變量按事件發生的先後順序排列起來的一組觀察值或記錄值。

2. 構成時間序列的要素

  • 時間

  • 與時間相對應的變量水平

實際數據的時間序列能夠展示研究對象在一定時期內的發展變化趨勢與規律,因而可以從時間序列中找出變量變化的特徵、趨勢以及發展規律,從而對變量的未來變化進行有效地預測。

時間序列的變動形態一般分爲四種:長期趨勢變動,季節變動,循環變動,不規則變動。

3. 時間序列預測法的應用

  • 系統描述:根據對系統進行觀測得到的時間序列數據,用曲線擬合方法對系統進行客觀的描述

  • 系統分析:當觀測值取自兩個以上變量時,可用一個時間序列中的變化去說明另一個時間序列中的變化,從而深入瞭解給定時間序列產生的機理

  • 預測未來:一般用ARMA模型擬合時間序列,預測該時間序列未來值

  • 決策和控制:根據時間序列模型可調整輸入變量使系統發展過程保持在目標值上,即預測到過程要偏離目標時便可進行必要的控制

4. 特點

  • 假定事物的過去趨勢會延伸到未來

  • 預測所依據的數據具有不規則性

  • 撇開了市場發展之間的因果關係

5. 擴展內容

(1)時間序列分析預測法是根據市場過去的變化趨勢預測未來的發展,它的前提是假定事物的過去會同樣延續到未來。事物的現實是歷史發展的結果,而事物的未來又是現實的延伸,事物的過去和未來是有聯繫的。

市場預測的時間序列分析法,正是根據客觀事物發展的這種連續規律性,運用過去的歷史數據,通過統計分析,進一步推測市場未來的發展趨勢。市場預測中,事物的過去會同樣延續到未來,其意思是說,市場未來不會發生突然跳躍式變化,而是漸進變化的。

時間序列分析預測法的哲學依據,是唯物辯證法中的基本觀點,即認爲一切事物都是發展變化的,事物的發展變化在時間上具有連續性,市場現象也是這樣。

市場現象過去和現在的發展變化規律和發展水平,會影響到市場現象未來的發展變化規律和規模水平;市場現象未來的變化規律和水平,是市場現象過去和現在變化規律和發展水平的結果。需要指出,由於事物的發展不僅有連續性的特點,而且又是複雜多樣的。

因此,在應用時間序列分析法進行市場預測時應注意市場現象未來發展變化規律和發展水平,不一定與其歷史和現在的發展變化規律完全一致。隨着市場現象的發展,它還會出現一些新的特點。因此,在時間序列分析預測中,決不能機械地按市場現象過去和現在的規律向外延伸。必須要研究分析市場現象變化的新特點,新表現,並且將這些新特點和新表現充分考慮在預測值內。這樣才能對市場現象做出既延續其歷史變化規律,又符合其現實表現的可靠的預測結果。

(2)時間序列分析預測法突出了時間因素在預測中的作用,暫不考慮外界具體因素的影響。時間序列在時間序列分析預測法處於核心位置,沒有時間序列,就沒有這一方法的存在。雖然,預測對象的發展變化是受很多因素影響的。但是,運用時間序列分析進行量的預測,實際上將所有的影響因素歸結到時間這一因素上,只承認所有影響因素的綜合作用,並在未來對預測對象仍然起作用,並未去分析探討預測對象和影響因素之間的因果關係。

因此,爲了求得能反映市場未來發展變化的精確預測值,在運用時間序列分析法進行預測時,必須將量的分析方法和質的分析方法結合起來,從質的方面充分研究各種因素與市場的關係,在充分分析研究影響市場變化的各種因素的基礎上確定預測值。

需要指出的是,時間序列預測法因突出時間序列暫不考慮外界因素影響,因而存在着預測誤差的缺陷,當遇到外界發生較大變化,往往會有較大偏差,時間序列預測法對於中短期預測的效果要比長期預測的效果好。因爲客觀事物,尤其是經濟現象,在一個較長時間內發生外界因素變化的可能性加大,它們對市場經濟現象必定要產生重大影響。如果出現這種情況,進行預測時,只考慮時間因素不考慮外界因素對預測對象的影響,其預測結果就會與實際狀況嚴重不符。

13 生存分析

用來研究生存時間的分佈規律以及生存時間和相關因索之間關係的一種統計分析方法

1. 包含內容

  • 描述生存過程,即研究生存時間的分佈規律

  • 比較生存過程,即研究兩組或多組生存時間的分佈規律,並進行比較

  • 分析危險因素,即研究危險因素對生存過程的影響

  • 建立數學模型,即將生存時間與相關危險因素的依存關係用一個數學式子表示出來

2. 方

  • 統計描述:包括求生存時間的分位數、中數生存期、平均數、生存函數的估計、判斷生存時間的圖示法,不對所分析的數據作出任何統計推斷結論

  • 非參數檢驗:檢驗分組變量各水平所對應的生存曲線是否一致,對生存時間的分佈沒有要求,並且檢驗危險因素對生存時間的影響。A 乘積極限法(PL法)B 壽命表法(LT法)

  • 半參數橫型迴歸分析:在特定的假設之下,建立生存時間隨多個危險因素變化的迴歸方程,這種方法的代表是Cox比例風險迴歸分析法

  • 參數模型迴歸分析:已知生存時間服從特定的參數橫型時,擬合相應的參數模型,更準確地分析確定變量之間的變化規律

14 典型相關分析

相關分析一般分析兩個變量之間的關係,而典型相關分析是分析兩組變量(如3個學術能力指標與5個在校成績表現指標)之間相關性的一種統計分析方法。

典型相關分析的基本思想和主成分分析的基本思想相似,它將一組變量與另一組變量之間單變量的多重線性相關性研究轉化爲對少數幾對綜合變量之間的簡單線性相關性的研究,並且這少數幾對變量所包含的線性相關性的信息幾乎覆蓋了原變量組所包含的全部相應信息。

15 R0C分析

R0C曲線是根據一系列不同的二分類方式(分界值或決定閾),以真陽性率(靈敏度)爲縱座標,假陽性率(1-特異度)爲橫座標繪製的曲線。

用途:

  • R0C曲線能很容易地查出任意界限值時的對疾病的識別能力用途

  • 選擇最佳的診斷界限值。R0C曲線越靠近左上角,試驗的準確性就越高

  • 兩種或兩種以上不同診斷試驗對疾病識別能力的比較,一股用R0C曲線下面積反映診斷系統的準確性

16 其他分析方法

多重響應分析、距離分析、項目分析、對應分析、決策樹分析、神經網絡、系統方程、蒙特卡洛模擬等。

1. 決策樹分析與隨機森林

儘管有剪枝等等方法,一棵樹的生成肯定還是不如多棵樹,因此就有了隨機森林,解決決策樹泛化能力弱的缺點。(可以理解成三個臭皮匠頂過諸葛亮)決策樹(Decision Tree)是在已知各種情況發生概率的基礎上,通過構成決策樹來求取淨現值的期望值大於等於零的概率,評價項目風險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種圖解法。由於這種決策分支畫成圖形很像一棵樹的枝幹,故稱決策樹。在機器學習中,決策樹是一個預測模型,他代表的是對象屬性與對象值之間的一種映射關係。

2. Entropy

即系統的凌亂程度,使用算法ID3, C4.5和C5.0生成樹算法使用熵。這一度量是基於信息學理論中熵的概念。

3. 分類樹(決策樹)

這是一種十分常用的分類方法。他是一種監管學習,所謂監管學習就是給定一堆樣本,每個樣本都有一組屬性和一個類別,這些類別是事先確定的,那麼通過學習得到一個分類器,這個分類器能夠對新出現的對象給出正確的分類。這樣的機器學習就被稱之爲監督學習。

  • 優點

決策樹易於理解和實現,人們在在學習過程中不需要使用者瞭解很多的背景知識,這同時是它的能夠直接體現數據的特點,只要通過解釋後都有能力去理解決策樹所表達的意義。

對於決策樹,數據的準備往往是簡單或者是不必要的,而且能夠同時處理數據型和常規型屬性,在相對短的時間內能夠對大型數據源做出可行且效果良好的結果。易於通過靜態測試來對模型進行評測,可以測定模型可信度;如果給定一個觀察的模型,那麼根據所產生的決策樹很容易推出相應的邏輯表達式。

  • 缺點

對連續性的字段比較難預測;對有時間順序的數據,需要很多預處理的工作;當類別太多時,錯誤可能就會增加的比較快;一般的算法分類的時候,只是根據一個字段來分類。

End.

來源:知乎

作者:阿平

本文爲轉載分享,如有侵權請聯繫後臺刪除

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章