泛統計理論初探——淺談迴歸問題

數據挖掘-迴歸問題探討

淺談連續迴歸和離散迴歸
衆所周知,迴歸問題可以根據因變量的離散或連續分爲連續迴歸(線性迴歸、非線性迴歸)與分類迴歸。其中,爲了解決分類迴歸問題,在經典的迴歸假設基礎上,引入了對數機率的概念,將數值轉化爲概率,並通過設定閾值最終確定因變量的類型。
傳統的迴歸方法是研究因變量是連續的問題,比如研究影響身高的因素,身高是一個相對連續的量,因此該類問題是通過線性迴歸可以進行研究的。首先回歸方法是一種源於解方程的方法,我們知道,小學的時候學習方程組求解的時候,當變量和方程數量相同時(方程之間不相關),得到的解是唯一的。而當變量的數量大於方程數量時,會算不出來解。在迴歸問題上,如果變量的數量大於樣本的數量時,是無法得到關於參數的估計就是這個道理。
線性迴歸的本質其實是想通過一組自變量和因變量的樣本數據來進行計算並估計得到一組參數,這組參數可以被用來預測新數據的因變量值。初學者可以將數據放入SPSS進行求解,得到一組參數和各個變量的顯著性。在後續的學習中,還可以使用R或者Python,當然關鍵是需要理解數據的分佈。由於傳統的迴歸在求解參數的時候會使用最小二乘法,這種方法對於異方差的數據會無效,因此可以採用加權最小二乘法進行求解。其實線性迴歸可以解決大部分的因變量連續的問題,而在一些情況下,由於數據自身的原因,還可以使用非線性迴歸,但是非線性迴歸的預測效果會受樣本數據的影響,健壯性可能不強,可能出現過擬合的情況,需要引起注意。
而在實際應用中,更多學科的問題研究的因變量是離散的,比如研究鳶尾花的類別問題、預測是否郵件爲垃圾郵件的問題、預測明天是否會下雨。針對這些問題,可以使用logit模型或是probit模型。
Logit模型又稱爲logistic模型,這種模型是在分類迴歸中常用的算法,該模型由於可解釋性較強,並且可以通過觀察變量顯著性來探究自變量對因變量的影響,因此該方法在統計領域被廣泛使用。在現實生活中,大部分的問題由於因變量觀測到都是離散的,可分類的,因此熟悉使用logistic模型和了解它的原理顯得較爲重要。
對於因變量是離散的情況,我們進行思考,由於在線性迴歸中,等號右邊是連續的數值,那麼如何將離散的變量和連續的數值連起來是一個較爲重要的問題。而概率可以幫我們解決這個問題,我們知道概率是一種事件發生的可能性,那麼我們可以設立概率的閾值,將離散的因變量映射到概率上。舉個例子,假設以0.5爲閾值,當概率大於0.5的時候判斷明天下雨,當概率小於等於0.5的時候判斷明天天晴。上述的例子是第一步轉化,即將是否下雨通過概率表示。而如何將概率值轉化爲連續的數值,我們可以思考:概率的值是介於0和1之間的,那麼可以引入機率的概念,即一個事件發生的概率與該事件不發生的概率的比值,這個比率越大,發生的可能性就越大,而且這個比率的取值範圍是大於0的實數值。同時我們給這個比率取對數,那麼這個比率對數值的取值範圍就可以爲整個實數值,即包含正實數和負實數,即和等號右邊的數值取值範圍相同。
總的來說,數據類型有四種,定比數據、定距數據、定序數據、定類數據。前兩種可以通過基於連續變量的迴歸方法,如線性迴歸。後兩種方法可以通過基於離散變量的迴歸方法,如logistic模型等。因此在使用迴歸模型的時候,要觀察數據,查看用什麼方法較爲合理。

發佈了29 篇原創文章 · 獲贊 30 · 訪問量 1萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章