100篇導航檢索式網站、學習筆記與教材推薦(資源持續更新中~)
前言
理工科生從大三往後,往往已經具備了學習機器學習和深度學習的基礎了,此時已經具備了高等數學、概率統計和線性代數的初步知識,本篇文章主要想描繪從此刻開始,到一個合格的熟練掌握機器學習和深度學習知識的專業領域內的拔尖人才,這中間的路上需要踩過哪些地磚。都是一些個人的意見,僅供參考。
寫之前先端正一個至關重要的觀念,只有基礎紮實的人,未來纔可能成爲一個具備創造力的人。許多人受迷惑於當今的神經網絡熱潮,在基礎尚未訓練牢靠時,致力於用奇思妙想改進網絡,致力於閱讀paper尋找idea來碰巧變個新模型有個好效果來發paper,這些都是捨本求末。其實許多的新東西萬變不離其宗,極少極少能有好想法可以完全憑空出現而不依託於前人的思想,而有了想法也需要紮實的基礎才能實現和證明。例如,只需要熟練掌握概率統計的知識,就知道已經有了方差描述數據爲什麼還需要有標準差,這其間的思想就足以產生batch normalization的idea;熟練掌握隱馬爾可夫鏈的相關知識,也具備了發現RNN神經網絡的能力;詳細瞭解統計學習和數值分析的知識,就能通過基函數的知識得到神經網絡的雛形以及如何優化。
明確了基本觀念之後,就是如何做了。總結一下大牛們的觀點就是以教材爲主線,吃透教材中的基礎知識。
爲什麼如此強調經典教材的學習呢?因爲經典教材的內容往往代表了大牛們對知識點最本質的理解和梳理。最本質的理解和梳理有什麼好處?那就是可以舉一反三,用起來可以得心應手,只有這樣這個知識點才真正屬於自己。許多人熱衷於主要通過博客的方式來學習東西,工程實操類的知識點還好,可是理論上的知識點如果不通過經典教材來學習就會埋下許多隱患。許多人會說:“可是我讀完博客就確實理解了這個知識點了啊!”沒錯,大部分的用心的博客看起來都能讓人有一種恍然大悟的感覺,可是許多時候產生這樣的感覺往往是假象,當你面臨另一個場景的時候就會發現,爲什麼還是束手無策還是一頭霧水呢?其實就是盲人摸象的道理,博客的質量確實很好,但是如果把知識點比作象,有的博客摸到了象腿,於是就在博客中告訴你這是象腿,當然很令人恍然大悟,噢!這多簡單!可是下次遇到象頭呢?自然束手無策了。而大牛們在經典教材中會教你,如何識別一個大象,學會這個的過程可能很困難,可是這纔是把握本質應當付出的努力。
個人整理了自己學習過程中收藏的一些資源,覺得質量很高,在此分享給大家。
基礎知識篇
書本教材
大家耳熟能詳的幾篇大作,其重要性就無需多說了:
- 李航《統計學習方法》
- 周志華《機器學習》
- Ian Goodfellow《深度學習》以及花書GitHub代碼與筆記
除了上面的書籍之外,還有下面基本書籍有助本質理解,是不可多得的經典好教材
- 《The Element of Statistical Learning》終極加強版《統計學習方法》
- 還有相關學者所寫ESL中文翻譯與筆記
- 《Pattern Recognition and Machine Learning》PRML經典好書
- 還有隨書PRML GitHub代碼和筆記
- 以及PRML中文翻譯
個人閱讀過的鞏固基礎,產生更深理解的書籍
- 《程序員的數學:概率統計》
- 《程序員的數學:線性代數》
理論和實踐相結合的書籍
- 《動手學深度學習》以及pytorch版的書和代碼
- 《python數據科學手冊》
視頻課
-
ESL視頻課
如果覺得書太難,就看看這個面向應用的視頻課吧。 -
《數值分析》視頻課
MOOC上,東北大學的課程。 -
機器學習吳恩達
經典機器學習入門視頻課 -
機器學習課程筆記
黃海廣博士的吳恩達機器學習課程筆記,包含code和中文字幕視頻 -
深度學習課程筆記
黃海廣博士的吳恩達深度學習課程筆記,包含code和中文字幕視頻 -
深度學習吳恩達
經典深度學習入門視頻課 -
CS231n計算機視覺課程主頁
經典CV課程 -
Coursera
一個包含許多學習視頻課的經典網站 -
Coursera課程筆記
在Coursera上的課程的筆記,你在Coursera上所學的課程筆記有可能包含在這個裏面 -
CS224n斯坦福自然語言處理課程:課程主頁 / YouTube / Bilibili
經典NLP課程,隨課代碼在後文也有羅列
工程實踐篇
-
33個神經網絡“煉丹”技巧
特斯拉人工智能部門主管 Andrej Karpathy 發佈新博客,介紹神經網絡訓練的技巧。
Andrej Karpathy 是深度學習計算機視覺領域、與領域的研究員。博士期間師從李飛飛。在讀博期間,兩次在谷歌實習,研究在 Youtube 視頻上的大規模特徵學習,2015 年在 DeepMind 實習,研究深度強化學習。畢業後,Karpathy 成爲 OpenAI 的研究科學家,後於 2017 年 6 月加入特斯拉擔任人工智能與視覺總監。
他發佈的這篇博客能爲深度學習研究者們提供極爲明晰的洞見,在 Twitter 上也引發了極大的關注。 -
CS224n的pytorch實現
Pytorch implementations of various Deep NLP models in cs-224n(Stanford Univ)
-
pytorch在所有任務中的應用
A comprehensive list of pytorch related content on github,such as different models,implementations,helper libraries,tutorials etc.GitHub 9.7k標星。
-
pytorch實戰實例
A set of examples around pytorch in Vision, Text, Reinforcement Learning, etc.GitHub 12.6k標星。
-
pytorch中文handbook
pytorch handbook是一本開源的書籍,目標是幫助那些希望和使用PyTorch進行深度學習開發和研究的朋友快速入門,其中包含的Pytorch教程全部通過測試保證可以成功運行,GitHub 11.1k標星。
-
NumPy中文文檔
NumPy官方的中文文檔,NumPy是用Python進行科學計算的基礎軟件包。有不知道功能或者相關屬性(使用方法)的方法(函數),可以在該網站上檢索 -
TensorFlow中文文檔
有不知道功能或者相關屬性(使用方法)的方法(函數),可以在該網站上檢索 -
pytorch中文文檔
有不知道功能或者相關屬性(使用方法)的方法(函數),可以在該網站上檢索 -
NLP指南——100行內代碼完成NLP任務
nlp-tutorial is a tutorial for who is studying NLP(Natural Language Processing) using TensorFlow and Pytorch. Most of the models in NLP were implemented with less than 100 lines of code.(except comments or blank lines) -
所有文本分類模型
all kinds of text classification models and more with deep learning,GitHub6.1k標星。
-
很棒的DeepLearning資源
Deep Learning and deep reinforcement learning research papers and some codes,還有許多中文數據集羅列,GitHub2.2k標星。
-
chinese-poetry: 最全中文詩歌古典文集數據庫
The most comprehensive database of Chinese poetry最全中華古詩詞數據庫, 唐宋兩朝近一萬四千古詩人, 接近5.5萬首唐詩加26萬宋詩. 兩宋時期1564位詞人,21050首詞。
-
詞法分析工具包
THULAC(THU Lexical Analyzer for Chinese)由清華大學自然語言處理與社會人文計算實驗室研製推出的一套中文詞法分析工具包,具有中文分詞和詞性標註功能。
下面是自己原創整理的學習筆記,包含了代碼實例,原理介紹以及方法羅列。個人認爲質量不錯,整理筆記也用了很久時間。所以在下面羅列。
如何做研究
-
MIT研究生學習指導——怎樣做研究生原版pdf下載網址
-
那些高產的學者都是怎樣工作的
所謂“高產出”本身就不一定是人人希望追求的東西。而一個人的方法論嚴格來講只屬於他自己,別人難以複製 。但真正重要的大概是對自己如何管理時間、如何持續成長、如何完成個人目標的持續性思考。在此方面別人走過的路、做過的努力、展現的意志都有借鑑意義。
有關如何寫作的書籍:Strunk和White的《Elements of Style》對寫作中基本的應該如何不應該如何做了介紹。Claire的《The MLA’s Line By Line》(Houghton Mifflin)是有關在句子級別如何進行編輯的書籍。Jacques Barzun的《Simple and Direct: A Rhetoric for Writers》(Harper and Row, 1985)是有關如何作文的。
paper資源
-
LyrnAI
在這個網頁上有可能找到對於一些paper或深度學習模型的精彩解讀
-
NLP論文大禮包
知乎一個NLPer分享的paper list -
Deep Learning Roadmap深度學習全導覽
All You Need to Know About Deep Learning,包含了許多deep learning的模型,研究方向,以及研究方向上的paper和代碼資源
-
Paper With Code
一個非常棒的羅列了許多領域sota研究成果的網站,還附帶paper的代碼鏈接
-
機器之心SOTA模型導覽
同樣包含了許多計算機研究方向的sota模型,可供檢索
-
transformer全詳解
細分到模型每一個部分的說明
其他資源
-
pytorch深度強化學習算法導覽
PyTorch implementations of deep reinforcement learning algorithms and environments
寫在最後
辛勤整理,拋磚引玉,誠邀好資源的推薦補充與交流。請勿抄襲與未經允許的轉載。祝所有辛勤工作的人都能少走彎路,擁有可期的未來。