19種迴歸分析你知道幾種呢?

只要學習過數據分析,或者對數據分析有一些簡單的瞭解,比如使用過SPSSAU、SPSS這些統計分析軟件,都知道有迴歸分析。按照數學上的定義來看,迴歸分析指研究一組隨機變量(Y1 ,Y2 ,…,Yi)和另一組(X1,X2,…,Xk)變量之間關係的統計分析方法,又稱多重回歸分析。通常Y1,Y2,…,Yi是因變量,X1、X2,…,Xk是自變量。

 

其實說簡單點就是研究X對於Y的影響關係,這就是迴歸分析。但是,這並不夠呢,看下圖,總共19種迴歸(其實還有不單獨列出),這如何區分,到底應該使用哪一種迴歸呢,這19種迴歸分析有啥區別呢。爲什麼會這如此多的迴歸分析呢?

一、首先回答下:爲什麼會有如此多的迴歸分析方法?

在研究X對於Y的影響時,會區分出很多種情況,比如Y有的是定類數據,Y有的是定量數據(如果不懂的童鞋可查看SPSSAU官網幫助手冊),也有可能Y有多個或者1個,同時每種迴歸分析還有很多前提條件,如果不滿足則有對應的其它迴歸方法進行解決。這也就解決了爲什麼會有如此多的迴歸分析方法。接下來會逐一說明這19種迴歸分析方法。

 

二、迴歸分析按數據類型分類

首先將回歸分析中的Y(因變量)進行數據類型區分,如果是定量且1個(比如身高),通常我們會使用線性迴歸,如果Y爲定類且1個(比如是否願意購買蘋果手機),此時叫logistic迴歸,如果Y爲定量且多個,此時應該使用PLS迴歸(即偏最小二乘迴歸)

線性迴歸再細分:如果迴歸模型中X僅爲1個,此時就稱爲簡單線性迴歸或者一元線性迴歸;如果X有多個,此時稱爲多元線性迴歸。

Logistic迴歸再細分:如果Y爲兩類比如0和1(比如1爲願意和0爲不願意,1爲購買和0爲不購買),此時就叫二元logistic迴歸;如果Y爲多類比如1,2,3(比如DELL, Thinkpad, Mac),此時就會多分類logistic迴歸;如果Y爲多類且有序比如1,2,3(比如1爲不願意,2爲中立,3爲願意),此時可以使用有序logistic迴歸。如果Y爲兩類時,有時候會使用二元Probit迴歸模型

除此之外,如果Y爲定量且爲多個,很多時候會將Y合併概括成1個(比如使用平均值),然後使用線性迴歸,反之可考慮使用PLS迴歸(但此種情況使用其實較少,PLS迴歸模型非常複雜)。

 

三、深入說明線性因歸模型

我們常見的迴歸分析中,線性迴歸和logistic迴歸最爲常見。也是當前研究最多,並且使用最爲普遍,以及最爲人接受容易理解的研究方法。

 

尤其是線性迴歸,其使用最爲成熟,研究最多,而且絕大多數生活現象均可使用線性迴歸進行研究,因而結合迴歸分析還會多出一些迴歸方法;同時迴歸分析模型會有很多假定,或者滿足條件,如果不滿足這些假定或者條件就會導致模型使用出錯,此時就有對應的其它迴歸模型出來解決這些問題,因而跟着線性迴歸後面又出來很多的迴歸。如下圖:

線性迴歸是研究X對於Y的影響,如果說有多個X,希望讓模型自動找出有意義的X,此時就可以使用逐步迴歸。另外在很一些管理類研究中會涉及到中介作用或者調節作用,此時就可能使用到分層迴歸或者分組迴歸等。

 

在進行線性迴歸分析時,如果說模型出現共線性問題VIF值很大,此時就可以使用嶺迴歸進行解決,嶺迴歸的使用較爲廣泛,其實還有Lasso迴歸也可以解決共線性問題,但是使用非常少而已。

 

如果數據中有異常值,常見的解決辦法是先把異常值去除掉,但有的時候確實無法去除掉異常值,此時可考慮使用穩健迴歸分析模型。

 

線性迴歸的前提是X和Y之間有着線性關係,但有的時候X和Y並不是線性關係,此時就有着曲線迴歸和非線性迴歸這兩種迴歸出來供使用,曲線迴歸其實質上是將曲線模型表達式轉換成線性關係表達式進行研究,而非線性迴歸較爲複雜當然使用也非常少,其和線性迴歸完全不是一回事情。以及Poisson迴歸(泊松迴歸)是指Y符合泊松分佈特徵時使用的迴歸研究模型。

 

四、其它

除此之外,還有比如加權WLS迴歸等,使用較少,不單獨說明。

 

最後特別說明的一種迴歸模型叫Cox迴歸,這是醫學研究中使用較多的一種方法,是研究生存影響關係,比如研究抑鬱症生存時間,癌症的死亡時間影響關係情況等。

 

綜上所述,一次性將19種迴歸彙總,基本上都可以在SPSSAU上面找到,關於各類迴歸方法的使用,以及具體原理,可查看SPSSAU官網,以及可使用SPSSAU上面的案例數據,逐一進行操作分析。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章