機器學習經典書籍小結

博客第一篇文章[1]是轉載的,也算是開始寫博客不經意的表露了自己對機器學習的興趣吧!那篇文章總結了機器學習的一些經典算法的論文與數學基礎理論的一些書籍,對於開始學習機器學習的話恐怕太過深入,正好最近在買書,看了很多經典書籍的總結與評論,我再拾人牙慧,稍稍總結一下吧。

先說一下我看過的和正在看的一些書吧!

《數學之美》;作者吳軍大家都很熟悉。這本書主要的作用是引起了我對機器學習和自然語言處理的興趣。裏面以極爲通俗的語言講述了數學在這兩個領域的應用。

《Programming Collective Intelligence》(中譯本《集體智慧編程》);作者Toby Segaran也是《BeautifulData : The Stories Behind Elegant Data Solutions》(《數據之美:解密優雅數據解決方案背後的故事》)的作者。這本書最大的優勢就是裏面沒有理論推導和複雜的數學公式,是很不錯的入門書。目前中文版已經脫銷,對於有志於這個領域的人來說,英文的pdf是個不錯的選擇,因爲後面有很多經典書的翻譯都較差,只能看英文版,不如從這個入手。還有,這本書適合於快速看完,因爲據評論,看完一些經典的帶有數學推導的書後會發現這本書什麼都沒講,只是舉了很多例子而已。

《Algorithms of the Intelligent Web》(中譯本《智能web算法》);作者Haralambos Marmanis、Dmitry Babenko。這本書中的公式比《集體智慧編程》要略多一點,裏面的例子多是互聯網上的應用,看名字就知道。不足的地方在於裏面的配套代碼是BeanShell而不是python或其他。總起來說,這本書還是適合初學者,與上一本一樣需要快速讀完,如果讀完上一本的話,這一本可以不必細看代碼,瞭解算法主要思想就行了。

《統計學習方法》;作者李航,是國內機器學習領域的幾個大家之一,曾在MSRA任高級研究員,現在華爲諾亞方舟實驗室。書中寫了十個算法,每個算法的介紹都很乾脆,直接上公式,是徹頭徹尾的“乾貨書”。每章末尾的參考文獻也方便了想深入理解算法的童鞋直接查到經典論文;本書可以與上面兩本書互爲輔助閱讀。

《Machine Learning》(《機器學習》);作者TomMitchell[2]是CMU的大師,有機器學習和半監督學習的網絡課程視頻。這本書是領域內翻譯的較好的書籍,講述的算法也比《統計學習方法》的範圍要大很多。據評論這本書主要在於啓發,講述公式爲什麼成立而不是推導;不足的地方在於出版年限較早,時效性不如PRML。但有些基礎的經典還是不會過時的,所以這本書現在幾乎是機器學習的必讀書目。

《Mining of Massive Datasets》(《大數據》);作者Anand Rajaraman[3]、Jeffrey David Ullman,Anand是Stanford的PhD。這本書介紹了很多算法,也介紹了這些算法在數據規模比較大的時候的變形。但是限於篇幅,每種算法都沒有展開講的感覺,如果想深入瞭解需要查其他的資料,不過這樣的話對算法進行了解也足夠了。還有一點不足的地方就是本書原文和翻譯都有許多錯誤,勘誤表比較長,讀者要用心了。

《Data Mining: Practical Machine Learning Tools and Techniques》(《數據挖掘:實用機器學習技術》);作者Ian H. Witten 、Eibe Frank是weka的作者、新西蘭懷卡託大學教授。他們的《ManagingGigabytes》[4]也是信息檢索方面的經典書籍。這本書最大的特點是對weka的使用進行了介紹,但是其理論部分太單薄,作爲入門書籍還可,但是,經典的入門書籍如《集體智慧編程》、《智能web算法》已經很經典,學習的話不宜讀太多的入門書籍,建議只看一些上述兩本書沒講到的算法。

《機器學習及其應用2011》,周志華、楊強主編。來源於“機器學習及其應用研討會”的文集。該研討會由復旦大學智能信息處理實驗室發起,目前已舉辦了十屆,國內的大牛如李航、項亮、王海峯、劉鐵巖、餘凱等都曾在該會議上做過講座。這本書講了很多機器學習前沿的具體的應用,需要有基礎的才能看懂。如果想了解機器學習研究趨勢的可以瀏覽一下這本書。關注領域內的學術會議是發現研究趨勢的方法嘛。

上面大多都是一些入門級的書籍,想要在這個領域深入下去,還需要深入的閱讀一些經典書籍。看了很多推薦大牛推薦的書單,這裏總結一下吧。

《Pattern Classification》(《模式分類》第二版);作者Richard O. Duda[5]、Peter E. Hart、David。模式識別的奠基之作,但對最近呈主導地位的較好的方法SVM、Boosting方法沒有介紹,被評“掛一漏萬之嫌”。

《Pattern Recognition And Machine Learning》;作者Christopher M. Bishop[6];簡稱PRML,側重於概率模型,是貝葉斯方法的扛鼎之作,據評“具有強烈的工程氣息,可以配合stanford 大學 Andrew Ng 教授的 Machine Learning 視頻教程一起來學,效果翻倍。”

《The Elements of Statistical Learning : Data Mining, Inference, andPrediction》,(《統計學習基礎:數據挖掘、推理與預測》第二版);作者RobertTibshirani、Trevor Hastie、Jerome Friedman。“這本書的作者是Boosting方法最活躍的幾個研究人員,發明的Gradient Boosting提出了理解Boosting方法的新角度,極大擴展了Boosting方法的應用範圍。這本書對當前最爲流行的方法有比較全面深入的介紹,對工程人員參考價值也許要更大一點。另一方面,它不僅總結了已經成熟了的一些技術,而且對尚在發展中的一些議題也有簡明扼要的論述。讓讀者充分體會到機器學習是一個仍然非常活躍的研究領域,應該會讓學術研究人員也有常讀常新的感受。”[7]

《Data Mining:Concepts andTechniques》,(《數據挖掘:概念與技術》第三版);作者(美)Jiawei Han[8]、(加)Micheline Kamber、(加)Jian Pei,其中第一作者是華裔。本書毫無疑問是數據挖掘方面的的經典之作,不過翻譯版總是被噴,沒辦法,大部分翻譯過來的書籍都被噴,想要不吃別人嚼過的東西,就好好學習英文吧。

 

一些引申鏈接:

http://blog.csdn.net/pongba/article/details/2915005

http://blog.csdn.net/caikehe/article/details/8496721

http://blog.chinaunix.net/uid-10314004-id-3594337.html

http://weibo.com/1657470871/zpZ87mhND?sudaref=www.zhizhihu.com

http://www.zhizhihu.com/html/y2012/4019.html

http://zinkov.com/posts/2012-10-04-ml-book-reviews/

    幾乎所有引申鏈接中都提到了上面我所提到的經典書籍。另外還有一些其他方面比如信息檢索、人工智能還有數學基礎方面的書籍。

有人推薦,學習機器學習的話可以先讀《統計學習方法》和《統計學習基礎》打底,這樣就包含了大部分的算法,然後再深入研究某個算法。我覺得,我在上面列出的四本經典書籍都應該通讀一遍。孔子云“學而不思則罔,思而不學則殆”,我認爲,學習、思考、實踐不可缺一,學習的同時要加強算法代碼的實現和其他方面比如並行化、使用場景等的思考。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章