在MIT 150週年慶的Brains, Minds, and Machines研討會上, Prof. Noam Chomsky發表了一個觀點,他的大概意思是有很多語言模型採用統計的方法建模,有些取得了成功,但他覺得大多數是失敗的,他覺得應該更多重視簡潔的,公式化的理論,而非這些統計上的結論,正如下文中他所言:
對此,Peter Norvig (Director of google research)給出了反對的迴應,並寫了一篇長文進行論證。主要從以下幾個層面出發進行討論:
- What did Chomsky mean, and is he right?
- What is a statistical model?
- How successful are statistical language models?
- Is there anything like their notion of success in the history of science?
- What doesn't Chomsky like about statistical models?
本文總結了他反對Chomsky的幾個我認爲比較impressive的論點:
1. 一個馬爾科夫模型不能很好地模擬一個language model,和一個簡潔的無概率樹模型不能描述一個語言一樣。所以統計模型要和那些簡潔的理論相結合。
2. 統計模型並不意味着全是概率的東西。總體來講,統計模型有三個類型:
①、數學模型:數學函數表示輸入輸出的關係(可以由迴歸得出),如y=ax+b
②、概率模型:用概率分佈表示的隨機變量可能值p(x,y)
③、訓練模型:用數據及訓練可能的模型,然後選擇最好的一個model。
3. Chomsky之前的10年,Claude Shannon 提出了基於word的馬爾科夫鏈。如果字母表中有10^5個字符,採用二階馬爾科夫鏈(即n-gram,n=3),那麼參數空間即爲(10^5)^3,
得到這10^15個參數的唯一可行途徑就是統計,然後平滑其中的0項。另外,萬有引力定律
和理想氣體法則
都是統計的結果。
4. Statistic Learning的應用:
搜索引擎、語音識別、機器翻譯、消除語言二義性都是完全(100%)基於概率模型或者training model的,另外還有parsing中最成功的也是採用概率模型。
5. Statistic Learning 的兩個Culture:
Leo Breiman (statistician, 1928–2005)在2001年的paper Statistical
Modeling: The Two Cultures中提到,統計模型有兩個派別,data modeling culture & algorithmic
modeling culture:
①data modeling culture(98%的統計學者同意)
在我們的認知模型中,存在着一個底層的,simple的模型,只不過還沒被我們發現,而這個工作需要統計學者們(或者其他專家)去做,去選擇模型。
②algorithmic modeling culture(2%的統計學者和一些神經科學研究者、生物信息研究者同意)
人類認知模型(也包括語言模型什麼的)很複雜,需要用支持向量機(SVM)啦,boosting decision tree啦,還有deep belief network(DBN)啦這樣的東西來把一些簡單模型組合出來或者進行訓練。
最後呢,說說自己的看法,我其實比較傾向於第二個culture,也就是Chomsky強烈反對的這個,他認爲這種統計模型相當模糊,我們需要一個簡單有效的方案。但是人的認知系統非常複雜(至少IBM用了5300億個神經元和137萬億個神經突觸搭建了神經芯片的原型),需要通過統計學習方法進行學習和組合,直到有一天或許,注意是或許,可以發現原來就是那麼簡單的一個模型可以擬合啊,那時候才能用一個簡潔的數學公式去表達。