當計量經濟學遇上機器學習

文章來源:企鵝號 - DIM數據與信息管理

在第十一屆國際信息管理中國夏季研討會(CSWIM,2017)上,衆多資深信息系統專家就“計量經濟學與機器學習結合”的議題展開討論。本期將各位學者的核心觀點加以綜述,以饗讀者。

計量經濟學與機器學習在各自的軌道上發展,其研究目的、關注焦點和研究方法各不相同,伴隨大數據的海量生成和解決複雜問題的需要,二者的整合方式應運而生。本研討會主要討論了將計量經濟學和機器學習整合於信息系統(IS)研究的指導方針和關鍵問題,分三個話題:

What is the Significance of Combining Econometrics with Machine Learning?

計量經濟學與機器學習相結合的意義何在?

Yong Tan

Idea 1: Integration of machine learning and econometrics will be of great value.

整合機器學習與計量經濟學具有重大價值。

實際上,我已經從方法論的角度多次討論過這個話題。此次,我們將方法本身視爲工具,通過改進工具來解決更有趣的商業問題。一方面,計量經濟學用以研究數據間的因果關係,這是我們的主要目的。另一方面,從機器學習的角度來看,我們想要達到預測的準確性。因此,若深入研究可知,二者在準確描述數據的生成過程方面有共同的哲學思想。顯然,一旦掌握數據的產生方式,我們便能在研究其因果關係中萌生更多想法。同樣地,若既瞭解數據的生成方式又掌握其來源,我們便可獲得更高的預測精度。

Idea 2: Technical integration will be a substantialintegration.

技術集成將是實質性的集成。

現有的文章已分別使用了這兩種方法,例如,一些文章利用深度學習的方法從圖片中提取特徵,將非結構化數據轉換爲可供計量模型使用的結構化數據,從而分析這些特徵的經濟學意義。即使是分開使用,二者的結合也能幫我們分析其他方法使用不了的數據。例如,用計量經濟學模型分析實際數據、圖像數據或視頻數據,爲實質性分析奠定基礎。

然而,我們仍然要思考這兩種方法該如何進行實質性結合,即技術上的整合。這不僅是方法論的分支,更是計量經濟學意義上的挑戰。值得考慮的是,在計量經濟學模型建立之後,機器學習或深度學習能否成爲其中的內生要素,即數據流程上的技術集成。這纔是二者的真正融合。

Paulo Goes

Idea 1: Machine learning is predictive, while econometrics is explanatory.

機器學習是預測性的,而計量經濟學是解釋性的。

近些年,機器學習有一種典型範式:就像在黑箱選擇中因果關係和解釋特徵被弱化了一樣,人們並不關心數據的內在關係,而是通過數據交叉驗證來構建可提供解決方案的模型,並不斷調整直到令人滿意的預測精度。

機器學習是從範式中得來,旨在尋求推薦系統、解決方案、計算系統或分類等問題的解決方法。計量經濟學的主要模式是提出一個模型用以解釋世界的真實狀態,即通過假設檢驗和其他傳統的社會科學研究方法,以統計的形式探索因果效應。機器學習是一種模式搜索工具,很少有線性關係。人們傾向於聚合不同的模型以實現巨大的預測力。然而,計量經濟學則主要研究線性關係。有時,研究者可以通過合併非線性函數,從迴歸中獲得複雜程度各異的線性相關關係。

綜上所述,機器學習的預測與因果關係無關。在機器學習精度高的情況下,尋找一個高精度的預測模型不同於推導出計量經濟學的真實基礎結構。此外,預測能力與解釋能力也截然不同。

Idea 2: Combination of machine learning and econometrics is achievable and challenging.

二者結合可實現且有挑戰。

四種結合方式:

①使用機器學習模型輸入計量經濟學模型所需變量

②借用計量經濟學基本理論優化機器學習算法

③借用機器學習技術優化計量經濟學模型

④最有趣的方式是用二者解釋同一現象。

如利用文本挖掘和情感分析定義不同的變量,然後將其應用於計量經濟學模型之中。即便如此,我們仍面臨一個挑戰,即二者預測能力的精確性如何判定?在機器學習技術中,預測能力的精確性可知,而在計量經濟學模型中,若模型有誤則預測的準確性該如何考慮?Hal Varian(2014)建議通過整合包括訓練集、驗證範例、修正機器學習中過擬合問題等在內的各類特徵來改進計量經濟學模型。該研究表明,模型預測精度可提高50%以上。

二者結合的步驟:首先使用機器學習的方法,然後試圖解釋現象,瞭解共現現象的潛在原因。一般認爲,層次模型的內循環可能是由機器學習驅動的,而外循環是由計量經濟學驅動的。在我看來,機器學習和計量經濟學都只是解決問題的技術和工具。

Ramnath Chellappa

Idea 1: Machine learning and econometrics are different in perception and understanding of problems.

機器學習和計量經濟學對問題有不同的審視和理解。

計量經濟學家和計算機科學家處理數據的方式完全不同。計量經濟學家注重分析問題的結構和背景,基於經濟學理論、計量和推理統計,從假設的結構隨機模型出發,利用觀測數據對相關樣本的不可知和不可觀測參數進行估計,從而提出用於推理和預測的模型。而統計學家和計算機科學家在開發模型時並不做假設,不在變量被證明之前假定其獨立或依存關係,而是在計算機輔助下進行數據處理(如存儲、分析、組織和分類等)從而生成模型。(Judge, 2016)

Idea 2: Econometrics is theoretical foundation, while machine learning is technical assistance.

計量經濟學是理論基礎,機器學習是技術援助。

在計量經濟學中,評估自變量對因變量的影響係數是預測和迴歸過程的主要目的,消除與真正解釋因變量無關的自變量是構建模型的目的之一。在此過程中,預測精度之外的可能性也不容忽視。比如,即使某個模型對80%的問題奏效,也不能忽略剩下的20%,否則預測將在某些情況下失敗。一般而言,如果沒有結構性問題,計量經濟學就無法解釋一切。而若要準確地定位數據中的單一組成部分就需要機器學習的技術引導。此外,機器學習也不可能憑空產生,它同樣需要計量經濟學的理論基礎。

D. J. Wu

Idea: Both econometrics and machine learning have advantages and disadvantages.

計量經濟學和機器學習各有優劣。

Susan Athey已經證明這兩個學科之間確實有密切聯繫。

①機器學習擅長交叉驗證,可用於評估模型在實踐中的表現。而這對計量經濟學來說是非常困難的。

②計量經濟學可以揭示基本的底層過程,有助於把握經濟結構。因此,研究人員在利用計算機處理變化和新問題時,必須瞭解其基本過程和基本關係,從而有助於模擬、假設分析和決策效應分析,進而優化決策。

Michael Shaw

Idea: Econometrics and machine learning depend on each other.

計量經濟學和機器學習相互依賴。

機器學習是從大量數據中獲取真知灼見的過程。我們試圖理解分類式分佈,通過調查提出與不同的因素或變量完全吻合的模型,嘗試分析自變量與因變量的關係及其影響效果。在處理數以百萬計的數據時,人們必須使用機器學習、數據挖掘以及各種計量經濟模型以發現有價值的信息,獲取更深入的情報而非僅停留在解釋內在關係的層面上。

機器學習過程產生了關於知識的知識,即“元知識”。但是,機器學習所生成的樹狀結構或其他模型是否穩定可靠仍需要被驗證。其中,計量經濟學的交叉驗證便發揮着重要作用。在現實情況下,機器學習通常會生成體量龐大的結果,這就是需要訓練集的原因。因此,你需要對機器學習生成的模型進行多種驗證,例如統計學和計量經濟學。

 

When do Econometrics and Machine Learning Need each other?

計量經濟學和機器學習何時需要彼此?

Paulo Goes

Idea: Machine learning and econometrics can be beneficial to each other.

機器學習與計量經濟學相互增益。

三種融合使用方式:

①利用機器學習結果組成計量經濟學模式。如Michael所說,機器學習的分類結果可以作爲計量經濟學模型的變量;

②用機器學習技術優化計量經濟學模型,或者兩個領域互補互益。比如,機器學習的交叉驗證有助於開發計量經濟模型;計量經濟學模型有助於處理機器學習的過度擬合問題。

③同時使用機器學習和計量經濟學,全面瞭解某一現象。

Yong Tan

Idea 1: Deep learning is a good approach for revealing the correlation between endogenous variables and instrumental variables.

深度學習是揭示內生變量和工具變量相關性的好方法。

研究者難以簡單推測或假設內生變量與工具變量的實際關係,但可以通過深度學習來發現和捕捉信息,從而提高內生變量和工具變量的預測能力。

Idea 2: Exploitation and exploration are essential to each other.

利用與研究彼此相依。

從傳統意義上來說,如果不考慮潛在變量,研究者就很難捕捉整個過程。在沒有中間變量的情況下,我們基本可以通過短期或長期記憶抓住眼前過程,然後使用潛在變量開發後續計量模型中的“樹”,而不只是單純地使用機器學習來訓練模型參數。實際上,從深度學習到計量經濟學要經過兩個相互關聯的過程,繼而實現對整個模型及對兩個組件整體參數的估計。因此,我認爲深度學習的方法論可以豐富研究者對數據生成及整個過程的理解。

Ramnath Chellappa

Idea: We need to know both what and why.

知其然,知其所以然。

爲何預測並不總能達到模型解釋的效果?其原因有二:

①用來生成預測模型的數據與未來生成的數據不一致。

②該理論不適用。

一方面,機器學習有助於識別被忽略的但可能在理論構建中發揮作用的潛在過程。另一方面,計量經濟學可以幫助機器學習快速聚焦,繼而發揮良好的識別和引導功能。

D.J. Wu

Idea: Why do machine learning and econometrics need each other?

爲何機器學習和計量經濟學相輔相成?

機器學習非常善於系統地生成模型。然而,其中的因果推理能否維持並不確定。由於二者在模型和推理上各具優勢,相輔相成。研究者能否使用機器學習系統地生成模型並保持因果推理,這無人得知,但確是一項值得鼓勵的全新挑戰。機器學習可用於解決社會問題,以模擬法官決策過程爲例。在美國,許多人都是潛在的犯罪嫌疑人,必須由法官決定誰應該受審。想象一下,大多數被審判的人都是無辜的,而如果他們被早早地關進監獄,那將是一種資源浪費。於是,法官試圖運用直覺、經驗等進行審判,這一過程可被機器學習模仿。這項研究涉及使用機器學習來模仿法官,而不是法官的結果,如情緒、眼睛及其他方面。當我們敢於挑戰理論,通過機器學習訓練觀測值,進而輔助決策,解決一些社會問題。

Michael Shaw

Idea: A cocktail approach can be used in the combination of machine learning and econometrics.

機器學習與計量經濟學“雞尾酒”式的結合。

我們不應過度強調二者的割裂和不同,而應正視當前的問題,尋求可靠的結果,驗證理論層次的假設,從而爲重要的科學發現鋪平道路。顯然,計量經濟學擁有爲人熟知的堅實基礎。而機器學習則更加專門化,具有符號處理能力,可提供更結構化和紋理性的信息。兩者結合大有裨益。例如,純計量經濟學大多以數字爲基數,耗時於統計過程之中。而高水平的機器學習可以彌補計量經濟學統計的疏漏,以多角度的解釋爲決策者提供有洞察力的信息。二者的互補重在理解基本的決策過程,而不僅僅是依靠預測能力或解釋能力。

 

How to Get Prepared for the Combination ofEconometrics and Machine Learning as Researchers?

從事計量經濟學與機器學習融合研究的學者們該如何準備?

Olivia Sheng

Idea: It is necessary to master domain knowledge and use tools skillfully.

有必要掌握領域知識,熟練使用工具。

在我看來,計量經濟學和機器學習都只是方法。計算機科學中也有諸如歸納學習、預測模型及其他方法來預測數據間的共同特徵。這些都會在數據挖掘和機器學習的課堂上出現。統計學與機器學習從不同的角度出發,而深度學習則在此過程中處理大量數據。我想給出幾點建議,畢竟使用經過訓練的某些工具可能比選用未知的工具收效更好。

①若要結合二者的優點,就必須深入學習每一個工具。

②根據研究目的,選擇合適的工具和方法。

③對問題本身、數據、方法和過程瞭如指掌,進行大量的評估和嘗試。

④不滿足於預測的既得結果,要廣泛學習相關領域知識,結合各種訓練、方法和背景知識做出正確解釋。

Alok Gupta

Idea: It is important to choose appropriate methodologies for problems.

選擇合適的方法解決問題是很重要的。

藉助邏輯或經濟學知識,機器學習模型可以提供現象的解釋。但關鍵在於將機器學習的結論與理論解釋相結合,分析現象的本質和產生的原因。雖然部分信息不具有樣本間的統計學關係,但其中的潛在因果聯繫可能延伸出一些有趣的研究機會,值得我們通過各種各樣的方法加以嘗試。

  • 發表於: 2018-04-24
  • 原文鏈接:http://kuaibao.qq.com/s/20180424G1M1Y300?refer=cp_1026
  • 騰訊「雲+社區」是騰訊內容開放平臺帳號(企鵝號)傳播渠道之一,根據《騰訊內容開放平臺服務協議》轉載發佈內容
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章