線性迴歸模型的侷限性和注意點

迴歸分析是傳統的研究變量關係很重要的一種方式，特別是在機器學習和深度學習興起之前，迴歸分析基本就是探究變量關係之間的主要方式。線性迴歸又是迴歸分析中很重要的一種方式，由於其模型的簡單性和有效性，線性迴歸分析在迴歸分析中始終扮演極其重要的角色。

線性迴歸分析在實際使用中，雖然簡單有效，但是使用者往往很容易因爲沒有充分認識到線性迴歸模型的侷限性和注意點而誤用，導致得到很多不準確甚至相反的結論，因此本文將總結幾點線性迴歸模型中的主要的侷限性和注意點。

1、線性模型，顧名思義，其只能捕捉變量之間的線性關係，對於一些非線性的特別是層級結構，其無能爲力；因此，對於線性模型的使用，要預先對變量的特點有一個大概的瞭解，不能萬事皆線性，數據一丟，迴歸一跑就完事，這是容易犯錯的。通常情況下，線性模型可以捕捉到變量之間的線性關係，但是如果變量之間存在某種非線性函數關係，且預期函數是連續可微的，那麼根據泰勒定理，該函數可以用多項式函數逼近，特別的，只要自變量變化夠小，我們可以用線性模型去近似，這一點給我們對於線性模型的使用提供了一定的信心，特別是在高頻交易領域，對於信號的建模，線性模型往往是更簡單有效的。但是如果是對於一些自變量和因變量之間具有強烈的層級結構關係的情況，這時線性模型並不能較好的對其建模，這時使用機器學習中的其他方法建模往往具有更好的效果。所以，預先對變量的特點和變量之間的關係有大概的瞭解，然後選擇合適的模型去建模估計參數是很重要的。

2、我們建模的意義在於預測，在於對某種現象提供未來的參考意義，所以，一個模型在未來有效是建模的基本前提，不然模型將失去意義。那麼在線性迴歸中，將如何保證，或者說在哪裏體現出模型的未來有效性呢？一般在教科書中，對於時序數據，會要求變量的序列至少是平穩的，這裏要求其平穩的意義就在於保證模型的未來有效性（在協整概念中，不要求序列平穩，但是應該存在協整關係，這裏的協整關係也是一種對模型未來有效性的保證）。如果序列是平穩的，那麼該模型就具有未來意義，可以保證當下估計的得到的模型，即當下得到的變量之間的關係在未來一定時間內是穩定的；如果序列不平穩，那麼利用歷史數據得到的模型就無法進行預測，因此，在建模時，我們總需要一些基本假設，默認這些假設在未來依然成立，那麼模型得到的關係在未來纔會成立，才能具有預測意義。但是在預期平穩性時，我們往往不會預期序列一直平穩，很多時候，有些變量序列會因爲大環境的變化發生某種持久的改變，這時就需要進行重新估計模型，重新估計參數，所以我們一般只預期變量在未來一段時間平穩，模型只在未來一段有效，所以需要不斷的調整模型，重新估計，調整參數。所以對於歷史數據，當我們預期歷史某些時點發生了一些可能改變變量特性的事件，也應該以該時點進行分化，進行分步迴歸，而不是放在一個迴歸之中。當然，有時如果我們可以預先知道變量係數和某些變量的關係，即使變量不平穩，那麼我們也可以通過在模型中刻畫這種具有時變性的特徵進行估計，只不過這時模型嚴格來說不再是線性的，而是一種變形。總而言之，平穩性保證係數穩定，保證預測能力，時變形導致係數發生變化，可通過分步迴歸解決，或者使用新的具有時變特性的模型重新建模。

3、R方是一個相對重要的衡量模型合適度的指標。R方是估計項的方差和真實項因變量方差的比值，R方越大，說明該模型越能解釋因變量的變化，即該模型是越合適的。在不預先設定隨機項分佈的前提下，一般用最小二乘去估計模型的參數，在最小二乘方式下，如果自變量和其他解釋變量數據不變，那麼當新增一個解釋變量後，R方几乎都是增加的，至少不會降低，這個從最小二乘的原理可以很容易的推導出來。所以通過R方直接對比不同模型的解釋力是不合適的，如果直接通過R方對比，則應該控制變量個數，這也是在忽略數據層面的差異的前提下，對此，引出調整R方，其在定義誤差項相變化比於總體因變量變化的比值時，考慮了自由度，考慮了變量個數，從而可以相對解決該問題，因此對於多元迴歸分析，在對比模型的解釋力時，應該看調整R方，而不是R方。此外，只要自變量個數夠多，那麼R方總是可以夠大，即因變量的變化總是可以通過增加解釋變量的個數來被解釋，但要注意的是，這種被解釋只是在樣本數據層面經由這種估計方法而呈現出來的一種數字結果，這是數學上的必然性結果；不斷的增加自變量個數，相當於隨機向量空間的維度不斷增加，那麼新增維度總是可以在生成新的估計向量時提供減小誤差的幫助，最壞不過是該新增維度的係數爲0，這樣結果總是不會更差。所以盲目的新增解釋變量，新增維度，會把隨機項的維度也給部分覆蓋掉，即把噪聲也進行建模，這就造成了所謂的過擬合。過擬合的模型自然就是在樣本內，因爲數字遊戲，使得因變量被解釋的很好，R方很大，甚至接近1，但是在樣本外，由於過擬合，造成模型不正確，具體的，變量個數和變量係數不正確，自然導致預測效果很差，即模型泛化能力很差，這樣的模型是沒有意義的。所以，這就引出了下一點，即應該如何避免過擬合，如何選擇解釋變量。

4、一個模型的可靠性，不僅僅在於合理的建模方法，很大程度上還在於該模型背後的故事。線性迴歸得到的結果，單純從統計意義上，只能得到相關關係，而統計上的相關關係如果要相對穩健的應用到現實中，我們往往要求解釋變量和因變量之間具有嚴格邏輯支撐的因果關係。雖然統計上，也有類似Granger因果檢驗這種檢驗因果關係的方式，但是嚴格來說，這種檢驗也只是在時間先後上的一種相關性檢驗。如果不從哲學意義上論證因果關係的定義，只從傳統以及現實應用的定義上，因果關係一定意味着時間上的先後性，但是這種時間尺度到底是多少是不確定的，到底是一個小時還是一天，甚至是一個月纔會起作用？這背後還是需要嚴格分析的，所以在使用所謂的Granger因果檢驗時，還需要特別注意時間尺度的定義，比如，如果真實的因果關係需要在月的時間尺度上發揮作用，但是檢驗中的時間尺度定義是天，而且滯後項的選取不夠長，那麼該檢驗結果將是錯誤的。此外，即使檢驗出時間上的先後性，這隻說明了因果關係的時間先後性，即該檢驗的結果是因果關係存在的必要條件，而不是充分條件，但是必要性的意義在於增加了因果關係存在的條件概率。最終的最終，模型的可靠性需要建立在因果關係上，而因果關係需要建立在邏輯分析上，這裏的邏輯分析更具體的是指額外的基於邏輯而進行的分析和實證，並不是單純停留在空想層面。所以，對於線性迴歸來說，更一般的做法是，根據潛在的邏輯關係去選擇變量，而不是盲目加入變量，迴歸得到結果，這樣很容易出現僞迴歸結果，即誤把相關關係變量當做因果變量，從而造成模型的不穩健，不可靠。當然，也有一些非常規做法是通過data mining找到一些潛在有用的變量，但是最後還是要知道變量關係背後的邏輯，這步是不可缺少的，不然模型只是一個黑箱，容易出現意想不到的結果。當然，從統計意義上，這種黑箱還是具有一定的意義，只是模型不再那麼穩健可靠，容易出現預料之外的結果，如果實在要使用這種黑箱，一定要明晰其侷限性。

5、模型的兩大主要功能是變量分析和預測，前者一般在計量經濟實證研究中比較常見，其研究的核心在於探究某個或者某幾個變量對因變量的影響，所以着重點在於某個變量上，這種研究方式中，側重對重點變量的係數估計的準確性，所以會涉及到變量遺漏的內生性問題分析，即圍繞這個重點變量進行變量遺漏的內生性問題分析，查看是否有變量遺漏；對於預測來說，目的是預測因變量，所以是儘量找到可以解釋因變量的潛在解釋變量。對於這兩點區別，在研究方式和側重點上有所不同。前者強調對於重點變量對於因變量的影響，所以對其係數估計的準確性是核心，由於要準確估計其係數，那麼可能影響係數估計的因素就需要排除，這類因素最需要注意的往往就是變量遺漏造成的內生性問題，這種內生變量具有的特點就是會因變量有影響同時和其他解釋變量相關，那麼這樣的變量遺漏就會造成內生性問題，解決這類問題往往就是找全相應的遺漏變量，以滿足外生性條件，或者找到工具變量。對於預測，則是找全潛在的解釋變量，以更準確的進行預測，這時無論解釋變量之間是否相關，都應儘可能補全；這種情況下，有時候由於數據量不足，同時存在解釋變量之間高度相關，即多重共線性問題，就會造成變量係數估計不準確且方差過大，所以這會造成對預測的偏差較大，這時往往採取剔除其中之一的高度相關變量，然後再進行迴歸，這樣雖然會造成係數估計不準確，但是由於剔除的變量和其中之一的解釋變量高度相關，所以對因變量的預測並不會造成多大的影響。所以可以發現，對於兩種不同的目的，側重往往不一樣。

6、對於變量遺漏的內生性問題分析，沒有行之有效的統計檢驗，直接檢驗出模型是否存在變量遺漏的內生性問題，對此，只能通過邏輯分析去判斷是否存在可能的內生性問題，即是否存在和解釋變量相關同時會影響因變量的變量。外生性條件是解釋變量和隨機項不相關，這是模型的一個基本假設，且無法從估計的結果進行檢驗，因爲最小二乘估計方法得到的結果，就是通過解釋變量和殘差項正交得到的。這樣一個基本假設的意義在於，保證了參數估計的無偏性和一致性，因此一旦存在內生性，參數估計的無偏性和一致性就得不到滿足，就會存在誤差。這個其實很好理解，如果存在變量遺漏，那麼就相當於改變了解釋變量空間，這樣因變量到解釋變量空間的最短距離造成的投影在各個解釋變量上的分解肯定會發生變化，從而造成估計係數的變化。爲了滿足外生性條件（當然還有互爲因果和測量誤差也會造成內生性問題，但是測量誤差對於不可重複的經濟數據來說難以解決，互爲因果可以通過滯後解決，而往往變量遺漏纔是比較需要分析的地方），就需要儘量的多分析多思考，找全遺漏變量，或者找到合適的工具變量。如果找到了合適的工具變量，那麼可以通過Hausman檢驗來判斷原模型是否真的存在內生性問題，該檢驗的一個前提條件就是需要工具變量，而不是直接在原模型的基礎上檢驗是否存在內生性問題，可是既然已經找到了合適的工具變量，說明內生性問題已經基本解決了，該檢驗也只在其他層面上具有一定的意義。

線性迴歸模型的侷限性和注意點

python gdal 安裝使用（Windows， python 3.6.8）

python編程之logging模塊的使用

阿爾法經濟學：認識市場

python2.x源代碼中文編碼報錯原因分析和解決方案

阿爾法經濟學系列文章

利率、連續複利和利息強度

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結