The culture of Statistic Learning

原創

2020-02-21 21:53

The culture of Statistic Learning（從csdn轉載：abcjennifer）

在MIT 150週年慶的Brains, Minds, and Machines研討會上， Prof.
Noam Chomsky發表了一個觀點，他的大概意思是有很多語言模型採用統計的方法建模，有些取得了成功，但他覺得大多數是失敗的，他覺得應該更多重視簡潔的，公式化的理論，而非這些統計上的結論，正如下文中他所言：

Prof. Noam Chomsky

It's true there's been a lot of work on trying to apply statistical models to various linguistic problems. I think there have been some successes,
but a lot of failures. There is a notion of success ... which I think is novel in the history of science. It interprets success as approximating unanalyzed data.

Peter Norvig

對此，Peter Norvig (Director of google research)給出了反對的迴應，並寫了一篇長文進行論證。主要從以下幾個層面出發進行討論：

What did Chomsky mean, and is he right?
What is a statistical model?
How successful are statistical language models?
Is there anything like their notion of success in the history of science?
What doesn't Chomsky like about statistical models?
原文見Peter Norvig主頁上的鏈接。

本文總結了他反對Chomsky的幾個我認爲比較impressive的論點：

中心思想：Norvig 反對 Chomsky認爲的 統計方法不靠譜觀點

1. 一個馬爾科夫模型不能很好地模擬一個language model，和一個簡潔的無概率樹模型不能描述一個語言一樣。所以統計模型要和那些簡潔的理論相結合。

2. 統計模型並不意味着全是概率的東西。總體來講，統計模型有三個類型：

①、數學模型：數學函數表示輸入輸出的關係（可以由迴歸得出），如y=ax+b

②、概率模型：用概率分佈表示的隨機變量可能值p(x,y)

③、訓練模型：用數據及訓練可能的模型，然後選擇最好的一個model。

3. Chomsky之前的10年，Claude Shannon 提出了基於word的馬爾科夫鏈。如果字母表中有10^5個字符，採用二階馬爾科夫鏈（即n-gram,n=3）,那麼參數空間即爲(10^5)^3,
得到這10^15個參數的唯一可行途徑就是統計，然後平滑其中的0項。另外，萬有引力定律
 
和理想氣體法則

都是統計的結果。

4. Statistic Learning的應用：

搜索引擎、語音識別、機器翻譯、消除語言二義性都是完全（100%）基於概率模型或者training model的，另外還有parsing中最成功的也是採用概率模型。

5. Statistic Learning 的兩個Culture：

 Leo Breiman (statistician, 1928–2005)在2001年的paper Statistical
Modeling: The Two Cultures中提到，統計模型有兩個派別，data modeling culture & algorithmic
modeling culture：

①data
modeling culture（98%的統計學者同意）

在我們的認知模型中，存在着一個底層的，simple的模型，只不過還沒被我們發現，而這個工作需要統計學者們（或者其他專家）去做，去選擇模型。

②algorithmic modeling culture（2%的統計學者和一些神經科學研究者、生物信息研究者同意）

人類認知模型（也包括語言模型什麼的）很複雜，需要用支持向量機（SVM）啦，boosting decision tree啦，還有deep belief network(DBN)啦這樣的東西來把一些簡單模型組合出來或者進行訓練。

最後呢，說說自己的看法，我其實比較傾向於第二個culture，也就是Chomsky強烈反對的這個，他認爲這種統計模型相當模糊，我們需要一個簡單有效的方案。但是人的認知系統非常複雜（至少IBM用了5300億個神經元和137萬億個神經突觸搭建了神經芯片的原型），需要通過統計學習方法進行學習和組合，直到有一天或許，注意是或許，可以發現原來就是那麼簡單的一個模型可以擬合啊，那時候才能用一個簡潔的數學公式去表達。