機器學習與數據挖掘網上資源蒐羅

前面我曾經發帖推薦過網上的一些做“圖像處理和計算機視覺的”有料博客資源,原帖地址

圖像處理與機器視覺網絡資源收羅——傾心大放送

http://blog.csdn.net/baimafujinji/article/details/32332079


做機器學習和數據挖掘方面的研究和開發,常會在線搜索一些資源,日積月累便挖出了一堆比較牛的博主,特別說明:做這個方向的人很多,牛人也很多,但是這些資源大部分主要突出實用主義,相關博主也並不一定是這個領域中的泰山北斗(至少大部分都不是學校裏的教授),但是他們的空間裏真的有料,可以學到很多。不斷更新中,但大浪淘沙,我只保留最值得推薦的。


1、首先,是豆瓣上的數據鋪子主頁

http://site.douban.com/182577/


因爲我個人多是用R來做數據挖掘和分析,所以主頁菌的內容很對我的胃口。這個主頁裏有大量用R做數據挖掘的內容。我也向博主偷師了很多。儘管主頁菌已經停止更新內容了,但是現有的部分(其實文章量很大)已經可以令後來者學到很多了。


2、JerryLead在博客園上的主頁

http://www.cnblogs.com/jerrylead/


如果你想了解數據挖掘算法的原理,而且是從數學層面上做到“知其然,更知其所以然”的深度理解,這個博客(以及下面的博客)理應是你必看的內容。這個主頁的特點是對很多算法都做了詳細的數學推導。博主應該是在中科院讀博的,儘管博客似乎也停更很久了,但是很多經典的東西其實永不過時。SVM、EM等系列文章介紹的很到位,尤其推薦。


3、pluskid的主頁

http://blog.pluskid.org/?page_id=683


博主是浙大本碩,後來貌似應該去了美國讀博。這個博客跟JerryLead的很類似,大量數學推導,讓你從本質上認識和理解很多晦澀的數據挖掘算法。網絡上很多人推崇CSDN上的July,尤其是那篇SVM三重境界。殊不知,July的三重境界也不過是JerryLead和pluskid左一段右一段的移花接木之作罷了。最開始我看這幾篇文章的時候,就發現內容像極了,尤其是pluskid畫的圖基本原模原樣地出現在了July的文章中。後來在知乎上看了帖子http://www.zhihu.com/question/24957182,差不多也就明白裏面的事了。總之,希望大家還是能夠尊重原創吧。July的博客也可以看,畢竟超千萬的訪問量,他東搜西湊的不斷整理沒有功勞也有苦勞,大家可權當一個合集來看了。


4、龍心塵&寒小陽 的主頁

http://blog.csdn.net/longxinchen_ml/


數據挖掘和機器學習博客中的新生力量,看了幾篇博文,感覺實力不俗。神經網絡和深度學習部分的內容比較推薦。


其他公共資源

R、Weka、Python和Matlab都是用來做數據挖掘的利器(甚至SPSS、STATA、SAS也能用來完成一些數據挖掘任務)。因此,事實上這些軟件或語言的公共主頁或論壇上也包含有大量不錯的內容(包括一些程序代碼和應用實例)。


最後,網上還有很多關於機器學習和數據挖掘的公開課。如果你想一點一點系統的學習,那麼這些資源你都不應該錯過。我主要推薦兩個:

一個是斯坦福的公開課——機器學習 ,由Andrew Ng主講。我相信JerryLead 的EM博文就參考了Andrew Ng的授課內容。這個課程是英文授課,國內網站的視頻上還配了中文字幕,如果你有毅力和決心,那麼啃這個課程是很不錯的選擇。國內可以訪問網易公開課來學習,地址如下

http://open.163.com/special/opencourse/machinelearning.html


如果你還是覺得聽英語很彆扭,那麼由臺灣大學林軒田教授錄製的中文Coursera課程(也就是傳說中的MOOC)——機器學習系列就是一個絕佳的資源。該課程分上下兩個部分,對於初學者可以學習——“機器學習基石”課程

http://c.open.163.com/coursera/courseIntro.htm?cid=938

聽這個名字你也能知道上面的課程講的是基礎。如果你想學習進階內容(當然,前提是基石部分的知識你已經統統掌握了),那麼你便可以選擇林教授的另外一門MOOC課程——“機器學習技法”課程

http://c.open.163.com/coursera/courseIntro.htm?cid=1664


最後,感謝上述資源提供者的無私奉獻。也衷心希望各位讀者學有所得,學有所成!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章