理想的機器學習書

轉自:http://www.52cs.org 作者:老師木

首先先簡單寫點吳軍《數學之美》和李航《統計機器學習原理》的書評,然後再談我心中理想的機器學習書。

我買了一本吳軍的《數學之美》,這是一本不錯的科普書,特色是作者與很多傳奇人物有過交往,能講一些他們的八卦。但原理介紹方面,還是有一些瑕疵。1)最大熵、LR、CRF這三個算法本是一個道理,卻分散在三章中介紹,而且也沒有指出他們的聯繫;2)動態規劃在全書中有好幾處應用:地圖搜索、維特比算法、HMM、CRF等,同樣一個算法分散介紹也不突出他們的內在聯繫;3)“聚類”和“分類”混用;4)“不可計算”是一個與NP-COMPLETTE不同的概念。

吳軍在討論“規則與統計”,以及對阿米特-辛格之簡單哲學的吹捧,顯得很沒境界。哪個流派稱爲顯學,哪個沒落,十年河東,十年河西而已,歷史上這樣的故事發生了很多次了。而且他在討論“規則與統計”時捧統計抑規則,而在討論艾米特辛格簡單哲學時,捧規則抑統計,不知他信仰到底是什麼?

李航的書對LR與MaxEnt之間的關係介紹得也不夠理想。應引入指數族分佈,給定一些約束求最大熵分佈,數學結果是指數族分佈;且參數結果與已知分佈爲指數族時的最大似然解等價。具有廣泛實例的指數族竟是最大熵原理的自然結果,讓人感嘆自然界的奇蹟,也內心欣賞這樣一個連定理都稱不上的原則的神奇。

機器學習書,數學的嚴謹當然不可少,但只堆公式還不夠,若看公式直接找論文就可以了,沒必要看書。

物理意義。一定要給每一個數學結論都賦予物理意義。來龍去脈,給出每一個重要發展的來龍去脈、歷史淵源或者八卦背景,學術點叫motivation。只有瞭解這些才能融會貫通,歷史地理解一個方法或理論的地位、侷限性等。

每一個問題的最好說明方式。有很多艱深的理論,極難理解,但總有各種著作有自己的闡述方式,寫作者要了解這些已有的闡述方式,並判斷哪種方式最絕妙,若不存在已有的好的方式,則要自己創造,只要作者理解深刻,一定能找到簡單的說明方式。

深度和廣度。不只是羅列算法,對領域內最深刻的問題不能逃避,計算學習理論有兩本教材,翻過的人會知道這些基本的東西都不難理解。廣度,機器學習所涉及的隨機、矩陣、優化自然少不了,人工智能、信號處理。信息論中胡同的方法和理論也要拿來舉一反三,心理學、腦科學。哲學問題也要大膽討論。

實在。要傳達給讀者最有用的理念,理論是幫助人認識問題的,不是唬人的,必須向讀者說明某某東西說白了就是什麼。對介紹的東西不要一味吹捧,必須有批判。作者不能紙上談兵,必須有豐富的實戰經驗。

綜合。各種理論,算法直接的聯繫,使讀者學會一個就輕鬆瞭解另一個。已有書在這個方向上努力了,但還不夠。

現在有書達到這個要求了嗎?都只是部分達到。這些要求太高了,除非作者把寫書當作事業。ESP、PRML都是經常被推薦的書。李航的書可取之處是重要的結論都有推導,還給出一個很簡單的例子一步一步手算。

現在有一本Kevin Murphy出了一個 Machine Leaning:a probabilistic perspective,這本書不錯,我寫過一句話評論:complete but not comprehensive enough。 有些獨特的東西,以後再談。

發佈了27 篇原創文章 · 獲贊 11 · 訪問量 1萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章