空間統計(四)迴歸分析探索

在上一篇文章中,我提到的這些工具都是用於研究數據有什麼樣的空間模式,哪裏聚類?哪裏是熱點?哪裏有冷點?哪裏有異常值?等等,總之研究的是“生米煮成熟飯”的結果狀態。

而“空間關係建模”工具箱中的工具,更傾向於研究 Why? 例如,爲什麼會出現這種情況? 或者說什麼導致了這種情況。這時我們就可以使用工具進行迴歸分析,如:普通最小二成法(OLS) 和 地理加權迴歸(GWR)。





你可能會問,爲什麼要進行迴歸分析?幫助文檔中迴歸分析基礎這一章寫的最好,比較貼近讀者,而不是冰冷的字典,我把迴歸分析的應用示例搬過來幫助理解,以下內容整理自幫助文檔

  1. 對某一現象建模,以更好地瞭解該現象並有可能基於對該現象的瞭解來影響政策的制定以及決定採取何種相應措施。基本目標是測量一個或多個變量的變化對另一變量變化的影響程度。示例:瞭解某些特定瀕危鳥類的主要棲息地特徵(例如:降水、食物源、植被、天敵),以協助通過立法來保護該物種。(更好地瞭解

  2. 對某種現象建模以預測其他地點或其他時間的數值。基本目標是構建一個持續、準確的預測模型。示例:如果已知人口增長情況和典型的天氣狀況,那麼明年的用電量將會是多少?( 建模預測

  3. 您還可以使用迴歸分析來深入探索某些假設情況。假設您正在對住宅區的犯罪活動進行建模,以更好地瞭解犯罪活動並希望實施可能阻止犯罪活動的策略。開始分析時,您很可能有很多問題或想要檢驗的假設情況:( 探索檢驗假設

    • “破窗理論”表明公共財產的破壞(塗鴉、被毀壞的建築物等)可招致其他犯罪行爲。破壞財產行爲與入室盜竊之間是否存在正關係?
    • 非法使用毒品與盜竊行爲之間存在某種關係嗎(吸毒成癮的人有可能通過偷取財物來維持他們吸毒的習慣嗎)?
    • 竊賊恃強凌弱嗎?老人或女性戶主家庭居多的住宅區內發生盜竊的可能性更高嗎?
    • 是住在富有的小區內更容易遭受盜竊,還是住在貧窮的小區內更容易遭受盜竊?
      您可以通過迴歸分析來探索這些關係並解答您的問題。

總之,通過迴歸分析,我們可以對空間關係進行建模、檢查和探究;迴歸分析還可幫助我們解釋所觀測到的空間模式背後的諸多因素。

在所有的迴歸方法中,OLS 最爲著名。而且,它也是所有空間迴歸分析的正確起點。它可以嘗試瞭解或預測(早逝/降雨)的變量或過程提供一個全局模型;而且,它可創建一個迴歸方程來表示該過程。地理加權迴歸 (GWR) 是若干空間迴歸方法中的一種,被越來越多地用於地理及其他學科。通過對數據集中的各要素擬合迴歸方程,GWR 爲您要嘗試瞭解/預測的變量或過程提供了一個局部模型。若使用得當,這些方法可提供強大且可靠的統計數據,以對線性關係進行檢查和估計。

例如如下是兩個變量之間存在正、負關係以及無關係的情況:

這裏寫圖片描述





通過上文,我們有了對迴歸分析的基本的印象,下面我們就來深入進去,看看 迴歸分析是如何實現的

迴歸分析是一個複雜的過程。在這個過程中,我們利用一個或多個解釋變量對因變量進行最佳預測。說到底就是一個包含因變量、解釋變量、係數、殘差的數學公式,像下面的樣子。

這裏寫圖片描述



什麼是因變量?

這裏寫圖片描述

等式的左邊是 因變量(Dependent Variable) ,記爲 Y,表示我們要研究或者預測的對象。通常我們會先給定一些已知的 Y 值,用於構建迴歸方程,這些已知的 Y 值稱爲 觀測值



什麼是解釋變量?

這裏寫圖片描述

等式的右邊的 X ,稱爲 自變量解釋變量(Explanatory Variables)。因變量是解釋變量的函數。到這裏,可能有的同學就暈了。
同樣,舉個栗子。我們想研究人們肥胖的諸多原因,想找到肥胖與收入、健康食品攝入、教育水平等等因素是否有關聯。在這個例子中,肥胖就是因變量(Y),收入、健康食品攝入、教育水平等這些因素即爲解釋變量(X)。



還有重要的迴歸係數呢!

這裏寫圖片描述

在方程中,我們還發現有些 β 值,稱爲 迴歸係數(Coefficient) 。表示解釋變量與因變量之間的關係強度和類型,每個解釋變量都有一個對應的迴歸係數。當關係爲正時,關聯繫數的符號也爲正。當關係爲負時,關聯繫數的符號也爲負。如果關係很強,則係數也相對較大。如果關係較弱,則關聯繫數接近於零。

其中這裏寫圖片描述 爲迴歸截距。它表示所有自變量(解釋變量)均爲零時因變量的預期值。



絕對不能忘記的殘差!

這裏寫圖片描述

ε稱爲 殘差(Residual)隨機誤差項,是因變量不能解釋的部分。迴歸工具可以構造出能夠對那些已知的 y 值作出最佳預測的方程。不過,預測值很少會和觀測值完全匹配。y 的觀測值與預測值之差稱爲殘差。迴歸方程中的殘差可用於確定模型的擬合程度。殘差較大表明模型擬合效果較差。





迴歸模型的構建是一個迭代過程,在該過程中,需要找出有效的自變量來了解因變量,且需要運行迴歸工具來確定哪些變量爲有效的預測因子,然後需要反覆執行變量移除和/或添加操作,直到找出最佳的迴歸模型。
雖然構建模型的過程通常是探索性的,但它絕不是“盲目的搜查”。我們應通過了解相關理論、請教該領域內的專家並憑藉一些常識性信息來確定可能的解釋變量。在分析之前,我們應該清楚每個可能的解釋變量和因變量之間的關係並能夠對其正確與否作出判斷,而且,對於這些關係不匹配的模型,我們應該表示質疑。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章