大家好,我是小五🧐
之前有斷斷續續講過統計學中的數據分析方法,今天分享的這篇更加全面、系統,涉及到18個方面,收藏就完事兒了~
Part1描述統計
Part2推論統計
Part3正態性檢驗
Part4假設檢驗
參數檢驗
-
U檢驗 :使用條件:當樣本含量n較大時,樣本值符合正態分佈 -
T檢驗:使用條件:當樣本含量n較小時,樣本值符合正態分佈
-
單樣本t檢驗:推斷該樣本來自的總體均數μ與已知的某一總體均數μ0 (常爲理論值或標準值)有無差別; -
配對樣本t檢驗:當總體均數未知時,且兩個樣本可以配對,同對中的兩者在可能會影響處理效果的各種條件方面扱爲相似; -
兩獨立樣本t檢驗:無法找到在各方面極爲相似的兩樣本作配對比較時使用。
非參數檢驗
-
雖然是連續數據,但總體分佈形態未知或者非正態; -
體分佈雖然正態,數據也是連續類型,但樣本容量極小,如10以下;
Part5信度分析
方法
-
重測信度法:這一方法是用同樣的問卷對同一組被調查者間隔一定時間重複施測,計算兩次施測結果的相關係數。顯然,重測信度屬於穩定係數。重測信度法特別適用於事實式問卷,如性別、出生年月等在兩次施測中不應有任何差異,大多數被調查者的興趣、愛好、習慣等在短時間內也不會有十分明顯的變化。如果沒有突發事件導致被調查者的態度、意見突變,這種方法也適用於態度、意見式問卷。由於重測信度法需要對同一樣本試測兩次,被調查者容易受到各種事件、活動和他人的影響,而且間隔時間長短也有一定限制,因此在實施中有一定困難。 -
複本信度法:讓同一組被調查者一次填答兩份問卷複本,計算兩個複本的相關係數。複本信度屬於等值係數。複本信度法要求兩個複本除表述方式不同外,在內容、格式、難度和對應題項的提問方向等方面要完全一致,而在實際調查中,很難使調查問卷達到這種要求,因此採用這種方法者較少。 -
折半信度法:折半信度法是將調查項目分爲兩半,計算兩半得分的相關係數,進而估計整個量表的信度。折半信度屬於內在一致性係數,測量的是兩半題項得分間的一致性。這種方法一般不適用於事實式問卷(如年齡與性別無法相比),常用於態度、意見式問卷的信度分析。在問卷調查中,態度測量最常見的形式是5級李克特(Likert)量表(李克特量表(Likert scale)是屬評分加總式量表最常用的一種,屬同一構唸的這些項目是用加總方式來計分,單獨或個別項目是無意義的。它是由美國社會心理學家李克特於1932年在原有的總加量表基礎上改進而成的。該量表由一組陳述組成,每一陳述有"非常同意"、"同意"、"不一定"、"不同意"、"非常不同意"五種回答,分別記爲5、4、3、2、1,每個被調查者的態度總分就是他對各道題的回答所得分數的加總,這一總分可說明他的態度強弱或他在這一量表上的不同狀態。)。進行折半信度分析時,如果量表中含有反意題項,應先將反意題項的得分作逆向處理,以保證各題項得分方向的一致性,然後將全部題項按奇偶或前後分爲儘可能相等的兩半,計算二者的相關係數(rhh,即半個量表的信度係數),最後用斯皮爾曼-布朗(Spearman-Brown)公式:求出整個量表的信度係數(ru)。 -
α信度係數法 :Cronbach α信度係數是目前最常用的信度係數,其公式爲: α=(k/(k-1))*(1-(∑Si^2)/ST^2) 其中,K爲量表中題項的總數, Si^2爲第i題得分的題內方差, ST^2爲全部題項總得分的方差。從公式中可以看出,α係數評價的是量表中各題項得分間的一致性,屬於內在一致性係數。這種方法適用於態度、意見式問卷(量表)的信度分析。 總量表的信度係數最好在0.8以上,0.7-0.8之間可以接受;分量表的信度係數最好在0.7以上,0.6-0.7還可以接受。Cronbach 's alpha係數如果在0.6以下就要考慮重新編問卷。 檢査測量的可信度,例如調查問卷的真實性。
分類
-
外在信度:不同時間測量時量表的一致性程度,常用方法重測信度。 -
內在信度;每個量表是否測量到單一的概念,同時組成兩表的內在體項一致性如何,常用方法分半信度。
Part6列聯表分析
簡介
需要注意
Part7相關分析
-
單相關:兩個因素之間的相關關係叫單相關,即研究時只涉及一個自變量和一個因變量; -
複相關:三個或三個以上因素的相關關係叫複相關,即研究時涉及兩個或兩個以上的自變量和因變量相關; -
偏相關:在某一現象與多種現象相關的場合,當假定其他變量不變時,其中兩個變量之間的相關關係稱爲偏相關。
Part8方差分析
分類
-
單因素方差分析:一項試驗只有一個影響因素,或者存在多個影響因素時,只分析一個因素與響應變量的關係 -
多因素有交互方差分析:一頊實驗有多個影響因素,分析多個影響因素與響應變量的關係,同時考慮多個影響因素之間的關係 -
多因素無交互方差分析:分析多個影響因素與響應變量的關係,但是影響因素之間沒有影響關係或忽略影響關係 -
協方差分祈:傳統的方差分析存在明顯的弊端,無法控制分析中存在的某些隨機因素,使之影響了分祈結果的準確度。協方差分析主要是在排除了協變量的影響後再對修正後的主效應進行方差分析,是將線性迴歸與方差分析結合起來的一種分析方法。
Part9迴歸分析
分類
-
一元線性迴歸分析:只有一個自變量X與因變量Y有關,X與Y都必須是連續型變量,因變量y或其殘差必須服從正態分佈。 -
多元線性迴歸分析 使用條件 :分析多個自變量與因變量Y的關係,X與Y都必須是連續型變量,因變量y或其殘差必須服從正態分佈 。
殘差檢驗:觀測值與估計值的差值要艱從正態分佈
強影響點判斷:尋找方式一般分爲標準誤差法、Mahalanobis距離法
共線性診斷
診斷方式:容忍度、方差擴大因子法(又稱膨脹係數VIF)、特徵根判定法、條件指針CI、方差比例
處理方法:增加樣本容量或選取另外的迴歸如主成分迴歸、嶺迴歸等
變呈篩選方式:選擇最優迴歸方程的變裏篩選法包括全橫型法(CP法)、逐步迴歸法,向前引入法和向後剔除法
-
橫型診斷方法
Part10聚類分析
定義
-
性質分類 Q型聚類分析 :對樣本進行分類處理,又稱樣本聚類分祈使用距離係數作爲統計量衡量相似度,如歐式距離、極端距離、絕對距離等 R型聚類分析 :對指標進行分類處理,又稱指標聚類分析使用相似係數作爲統計量衡量相似度,相關係數、列聯繫數等 -
方法分類
-
系統聚類法:適用於小樣本的樣本聚類或指標聚類,一般用系統聚類法來聚類指標,又稱分層聚類 -
逐步聚類法:適用於大樣本的樣本聚類 -
其他聚類法:兩步聚類、K均值聚類等
Part11判別分析
與聚類分析區別
-
聚類分析可以對樣本逬行分類,也可以對指標進行分類;而判別分析只能對樣本 -
聚類分析事先不知道事物的類別,也不知道分幾類;而判別分析必須事先知道事物的類別,也知道分幾類 -
聚類分析不需要分類的歷史資料,而直接對樣本進行分類;而判別分析需要分類歷史資料去建立判別函數,然後才能對樣本進行分類
分類
-
Fisher判別分析法 以距離爲判別準則來分類,即樣本與哪個類的距離最短就分到哪一類,適用於兩類判別; 以概率爲判別準則來分類,即樣本屬於哪一類的概率最大就分到哪一類,適用於多類判別。 -
BAYES判別分析法 BAYES判別分析法比FISHER判別分析法更加完善和先進,它不僅能解決多類判別分析,而且分析時考慮了數據的分佈狀態,所以一般較多使用;
Part12主成分分析
原理
缺點
-
在主成分分析中,我們首先應保證所提取的前幾個主成分的累計貢獻率達到一個較高的水平(即變量降維後的信息量須保持在一個較高水平上),其次對這些被提取的主成分必須都能夠給出符合實際背景和意義的解釋(否則主成分將空有信息量而無實際含義)。 -
主成分的解釋其含義一般多少帶有點模糊性,不像原始變量的含義那麼清楚、確切,這是變量降維過程中不得不付出的代價。因此,提取的主成分個數m通常應明顯小於原始變量個數p(除非p本身較小),否則維數降低的“利”可能抵不過主成分含義不如原始變量清楚的“弊”。
Part13因子分析
與主成分分析比較
-
相同:都能夠起到治理多個原始變量內在結構關係的作用 -
不同:主成分分析重在綜合原始變適的信息.而因子分析重在解釋原始變量間的關係,是比主成分分析更深入的一種多元統計方法
用途
-
減少分析變量個數 -
通過對變量間相關關係探測,將原始變量進行分類
Part14時間序列分析
主要方法
時間序列預測法的應用
-
系統描述:根據對系統進行觀測得到的時間序列數據,用曲線擬合方法對系統進行客觀的描述; -
系統分析:當觀測值取自兩個以上變量時,可用一個時間序列中的變化去說明另一個時間序列中的變化,從而深入瞭解給定時間序列產生的機理; -
預測未來:一般用ARMA模型擬合時間序列,預測該時間序列未來值; -
決策和控制:根據時間序列模型可調整輸入變量使系統發展過程保持在目標值上,即預測到過程要偏離目標時便可進行必要的控制。
特點
-
時間序列分析預測法是根據市場過去的變化趨勢預測未來的發展,它的前提是假定事物的過去會同樣延續到未來。事物的現實是歷史發展的結果,而事物的未來又是現實的延伸,事物的過去和未來是有聯繫的。市場預測的時間序列分析法,正是根據客觀事物發展的這種連續規律性,運用過去的歷史數據,通過統計分析,進一步推測市場未來的發展趨勢。市場預測中,事物的過去會同樣延續到未來,其意思是說,市場未來不會發生突然跳躍式變化,而是漸進變化的。 時間序列分析預測法的哲學依據,是唯物辯證法中的基本觀點,即認爲一切事物都是發展變化的,事物的發展變化在時間上具有連續性,市場現象也是這樣。市場現象過去和現在的發展變化規律和發展水平,會影響到市場現象未來的發展變化規律和規模水平;市場現象未來的變化規律和水平,是市場現象過去和現在變化規律和發展水平的結果。 需要指出,由於事物的發展不僅有連續性的特點,而且又是複雜多樣的。因此,在應用時間序列分析法進行市場預測時應注意市場現象未來發展變化規律和發展水平,不一定與其歷史和現在的發展變化規律完全一致。隨着市場現象的發展,它還會出現一些新的特點。因此,在時間序列分析預測中,決不能機械地按市場現象過去和現在的規律向外延伸。必須要研究分析市場現象變化的新特點,新表現,並且將這些新特點和新表現充分考慮在預測值內。這樣才能對市場現象做出既延續其歷史變化規律,又符合其現實表現的可靠的預測結果。 -
時間序列分析預測法突出了時間因素在預測中的作用,暫不考慮外界具體因素的影響。時間序列在時間序列分析預測法處於核心位置,沒有時間序列,就沒有這一方法的存在。雖然,預測對象的發展變化是受很多因素影響的。但是,運用時間序列分析進行量的預測,實際上將所有的影響因素歸結到時間這一因素上,只承認所有影響因素的綜合作用,並在未來對預測對象仍然起作用,並未去分析探討預測對象和影響因素之間的因果關係。因此,爲了求得能反映市場未來發展變化的精確預測值,在運用時間序列分析法進行預測時,必須將量的分析方法和質的分析方法結合起來,從質的方面充分研究各種因素與市場的關係,在充分分析研究影響市場變化的各種因素的基礎上確定預測值。 需要指出的是,時間序列預測法因突出時間序列暫不考慮外界因素影響,因而存在着預測誤差的缺陷,當遇到外界發生較大變化,往往會有較大偏差,時間序列預測法對於中短期預測的效果要比長期預測的效果好。因爲客觀事物,尤其是經濟現象,在一個較長時間內發生外界因素變化的可能性加大,它們對市場經濟現象必定要產生重大影響。如果出現這種情況,進行預測時,只考慮時間因素不考慮外界因素對預測對象的影響,其預測結果就會與實際狀況嚴重不符。
Part15生存分析
包含內容
-
描述生存過程,即研究生存時間的分佈規律 -
比較生存過程,即研究兩組或多組生存時間的分佈規律,並進行比較 -
分析危險因素,即研究危險因素對生存過程的影響 -
建立數學模型,即將生存時間與相關危險因素的依存關係用一個數學式子表示出來。
方法
-
統計描述:包括求生存時間的分位數、中數生存期、平均數、生存函數的估計、判斷生存時間的圖示法,不對所分析的數據作出任何統計推斷結論 -
非參數檢驗:檢驗分組變量各水平所對應的生存曲線是否一致,對生存時間的分佈沒有要求,並且檢驗危險因素對生存時間的影響。
-
乘積極限法(PL法) -
壽命表法(LT法) -
半參數橫型迴歸分析:在特定的假設之下,建立生存時間隨多個危險因素變化的迴歸方程,這種方法的代表是Cox比例風險迴歸分析法 -
參數模型迴歸分析:已知生存時間服從特定的參數橫型時,擬合相應的參數模型,更準確地分析確定變量之間的變化規律
Part16典型相關分析
Part17R0C分析
用途
-
R0C曲線能很容易地查出任意界限值時的對疾病的識別能力; -
選擇最佳的診斷界限值。R0C曲線越靠近左上角,試驗的準確性就越高; -
兩種或兩種以上不同診斷試驗對疾病識別能力的比較,一股用R0C曲線下面積反映診斷系統的準確性。
Part18其他分析方法
決策樹分析與隨機森林
-
決策樹(Decision Tree) :是在已知各種情況發生概率的基礎上,通過構成決策樹來求取淨現值的期望值大於等於零的概率,評價項目風險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種圖解法。由於這種決策分支畫成圖形很像一棵樹的枝幹,故稱決策樹。在機器學習中,決策樹是一個預測模型,他代表的是對象屬性與對象值之間的一種映射關係。Entropy = 系統的凌亂程度,使用算法ID3, C4.5和C5.0生成樹算法使用熵。這一度量是基於信息學理論中熵的概念。 決策樹是一種樹形結構,其中每個內部節點表示一個屬性上的測試,每個分支代表一個測試輸出,每個葉節點代表一種類別。 -
分類樹(決策樹):是一種十分常用的分類方法。他是一種監督學習,所謂監督學習就是給定一堆樣本,每個樣本都有一組屬性和一個類別,這些類別是事先確定的,那麼通過學習得到一個分類器,這個分類器能夠對新出現的對象給出正確的分類。這樣的機器學習就被稱之爲監督學習。
本文分享自微信公衆號 - 凹凸數據(alltodata)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。