常見的數據形式有時間序列數據( Time series data ),截面數據( Cross-sectional data )和面板數據( Panel data )。
從維度來看,時間序列數據和截面數據均爲一維。面板數據可以看做爲時間序列與截面混合數據,因此它是二維數據。
設定如下線性模型:
其中, 表示個體效應,表示那些不隨時間改變的影響因素; 表示時間效應,用於控制隨時間改變因素的影響。
然而, 和 在多數情況下都是無法直接觀測或難以量化的,因此也就無法進入模型。
面板數據模型可以分爲固定效應模型( Fixed effect model )和隨機效應模型( Random effect model )。以個體維度爲例,當 和 相關,即 ,則該模型爲固定效應模型;反之爲隨機效應模型。或者說,給定 i,若 爲確定值,則爲固定效應模型(不同個體的特性不一樣,每個個體都有特殊的名義值。比如每個個體的能力不一樣);否則爲隨機效應模型(不同個體的差異屬於隨機現象,服從某個正態分佈。比如每個個體的能力是隨機的,服從某個正態分佈)。同樣地,對於時間維度 t 及 也有固定效應和隨機效應的區分。
兩種模型的差異主要反映在對 “個體效應” 的處理上。
固定效應模型假設個體效應在組內是固定不變的,個體間的差異反映在每個個體都有一個特定的截距項上; 隨機效應模型則假設所有的個體具有相同的截距項, 個體間的差異是隨機的,這些差異主要反應在隨機干擾項的設定上。
基於此,一種常見的觀點認爲, 當我們的樣本來自一個較小的母體時,我們應該使用固定效應模型,而當樣本來自一個很大的母體時, 應當採用隨機效應模型。對於這個問題,有相應的檢驗方法進行判斷。
若因素的水平選取已定好,該因素的水平效應作爲固定參數,稱此爲固定效應。若因素的水平選取是隨機地從某一總體中抽取,水平效應值是一隨機變量,稱此效應爲隨機效應。僅含有固定效應的模型稱爲固定效應模型;模型中僅含有隨機效應時,稱爲隨機效應模型;部分效應是隨機的,而其他效應爲固定時的模型,稱爲混合模型。
或者說,固定效應是指實驗結果只想比較每一自變項之特定類目或類別間的差異及其與其他自變項之特定類目或類別間交互作用效果,而不想依此推論到同一自變項未包含在內的其他類目或類別的實驗設計。
所謂的固定、隨機、混合,主要是針對分組變量而言的。
固定效應模型,表示你打算比較的就是你現在選中的這幾組。例如,我想比較3種藥物的療效,我的目的就是爲了比較這三種藥的差別,不想往外推廣。這三種藥不是從很多種藥中抽樣出來的,不想推廣到其他的藥物,結論僅限於這三種藥。“固定”的含義正在於此,這三種藥是固定的,不是隨機選擇的。
隨機效應模型,表示你打算比較的不僅是你的設計中的這幾組,而是想通過對這幾組的比較,推廣到他們所能代表的總體中去。例如,你想知道是否名牌大學的就業率高於普通大學,你選擇了北大、清華、北京工商大學、北京科技大學4所學校進行比較,你的目的不是爲了比較這4所學校之間的就業率差異,而是爲了說明他們所代表的名牌和普通大學之間的差異。你的結論不會僅限於這4所大學,而是要推廣到名牌和普通這樣的一個更廣泛的範圍。“隨機”的含義就在於此,這4所學校是從名牌和普通大學中隨機挑選出來的。
參考資料