5本自然語言處理書單-附pdf


文章發佈於公號【數智物語】 (ID:decision_engine),關注公號不錯過每一篇乾貨。




自然語言處理(英語:Natural Language Processing,縮寫作 NLP)是人工智能和語言學領域的分支學科。此領域探討如何處理及運用自然語言。自然語言處理研究的內容包括但不限於如下分支領域:文本分類、信息抽取、自動摘要、智能問答、話題推薦、機器翻譯、主題詞識別、知識庫構建、深度文本表示、命名實體識別、文本生成、文本分析(詞法、句法、語法)、語音識別與合成等。以下自然語言處理書籍由數智物語根據公開資料、豆瓣評分綜合整理。


01書單


01Speech and Language Processing (3rd ed. draft)


image.png


作者:Daniel Jurafsky / James H. Martin


書籍簡介:2018年9月23日自然語言處理領域經典綜述教材《Speech and Language Processing 》,中文名《自然語言處理綜述》第三版發佈。該書由 NLP 領域的大牛,斯坦福大學 Daniel Jurafsky 教授和科羅拉多大學的 James H. Martin 教授等人共同編寫。Daniel Jurafsky 是斯坦福大學計算機科學教授,主要研究方向是計算語言學和自然語言處理。 James H. Martin 是科羅拉多大學博爾德分校計算機科學系一名教授,兩位教授都是 NLP 領域知名學者。


推薦理由:經典的 NLP 教科書,涵蓋了所有 NLP 的基礎知識,也被國外許多著名大學選爲自然語言處理和計算語言學課程的主要教材。本書寫作風格引人入勝,深入技術細節而又不讓人感覺枯燥,不僅可以作爲高等學校自然語言處理和計算語言學等課程的本科生和研究生教材,對於自然語言處理相關領域的研究人員和技術人員也是不可或缺的權威參考書。


閱讀鏈接:https://web.stanford.edu/~jurafsky/slp3/


02Foundations of Statistical Natural Language Processing


image.png


作者:Christopher Manning and Hinrich Schütze


書籍簡介:本書涵蓋的內容十分廣泛,分爲四個部分,共16章,包括了構建自然語言處理軟件工具將用到的幾乎所有理論和算法。全書的論述過程由淺入深,從數學基礎到精確的理論算法,從簡單的詞法分析到複雜的語法分析,適合不同水平的讀者羣的需求。同時,《統計自然語言處理基礎:國外計算機科學教材系列》將理論與實踐緊密聯繫在一起,在介紹理論知識的基礎上給出了自然語言處理技術的高層應用(如信息檢索等)。


推薦理由:經典的統計自然語言處理入門教材。內容涉及統計自然語言處理用到的數學基礎,詞法到語法分析,以及自然語言處理的基本任務(比如文本分類、聚類,統計機器翻譯,以及信息檢索)。本教材成書較早(1999年),但是自然語言處理領域的基本概念和任務沒有太大的變化,仍然適用於初學者快速瞭解自然語言處理相關的概念和任務,中文版本爲《統計自然語言處理基礎:國外計算機科學教材系列》(電子工業出版社出版)。


閱讀鏈接:https://nlp.stanford.edu/fsnlp/


03Neural Network Methods in Natural Language Processing (Synthesis Lectures on Human Language Technologies)


image.png


作者:Yoav Goldberg


書籍簡介:本書着重介紹神經網絡模型在自然語言數據中的應用。書的前半部分介紹了有監督的機器學習和前饋神經網絡的基礎知識,基於語言數據的機器學習的基礎知識。它還涵蓋了可以定義和訓練任意神經網絡的計算圖形抽象方面的知識,是當代神經網絡軟件庫設計的基礎。本書的第二部分介紹了更多專門的神經網絡體系結構,包括一維卷積神經網絡、遞歸神經網絡、條件生成模型和基於注意力的模型。這些體系結構和技術是機器翻譯、句法分析和許多其他應用程序的最先進算法的推動力量。最後,本書還討論了樹形網絡,結構化預測和多任務學習的前景。


推薦理由:最近幾年由於深度學習的興起,使得圖像識別、語音識別等多個方面都發生了很大的變革。深度學習在自然語言處理方面也是非常普遍了,一些經典的自然語言模式也都是基於神經網絡的,這本書是目前市面上唯一一本介紹神經網絡在自然語言處理的應用,而且書中的大量參考文獻非常有價值。本書的作者在這個領域非常知名,並且對待學術態度極其嚴謹。


閱讀鏈接:http://library1.org/_ads/7ECBFA717EC2AAF7E2F20AA3597D1C8C


04Natural Language Processing with Python


image.png


作者:Steven Bird / Ewan Klein / Edward Loper


書籍簡介:本書教你如何用 Python 和 NLTK 庫來做 NLP。提供了非常易學的自然語言處理入門介紹,該領域涵蓋從文本和電子郵件預測過濾,到自動總結和翻譯等多種語言處理技術。你還將通過使用綜合語言數據結構訪問含有豐富註釋的數據集,理解用於分析書面通信內容和結構的主要算法。 


推薦理由:這本書的實用性較強。如果你對 Python 與 NLTK 感興趣,就看這本書,可以當做入門讀物來看,整本書即涉及到了語料庫的操作,也對傳統的基於規則的方法有所涉及。全書包括了分詞(tokenization)、詞性標註(POS)、語塊(Chunk)標註、句法剖析與語義剖析等方面,是 NLP 中不錯的一本實用教程。


閱讀鏈接:http://www.nltk.org/book/


05Introduction to Information Retrieval


image.png


作者:Christopher D.Manning / Prabhakar Raghavan /Hinrich Schütze


書籍簡介:本書從計算機科學領域的角度出發,介紹了信息檢索的基礎知識,並對當前信息檢索的發展做了回顧,重點介紹了搜索引擎的核心技術,如文檔分類和文檔聚類問題,以及機器學習和數值計算方法。書中所有重要的思想都用示例進行了解釋,生動形象,引人入勝。


推薦理由: 關於排名/搜索的優秀參考書,作者從最簡單的布爾檢索到一個完整的搜索引擎,逐步深入,逐步引導讀者思考,對建造一個大型搜索引擎需要用到的架構和算法都有所涉獵,搜索引擎並不僅僅是檢索信息,它還有一個更重要的用處是對返回的結果進行排序,而這往往是非常重要的。


閱讀鏈接:https://nlp.stanford.edu/IR-book/html/htmledition/irbook.html


02推薦課程


01CS224d: Deep Learning for Natural Language Processing


課程導師:Richard Socher


課程鏈接:http://cs224d.stanford.edu/syllabus.html


主要內容:斯坦福大學自然語言小組基於深度學習的自然語言處理課程。介紹了自然語言處理領域廣泛應用的網絡結構(例如循環神經網絡、卷積神經網絡以及遞歸神經網絡等)及其在自然語言處理的經典任務,例如分類任務(情感分類),序列標註任務(實體識別),序列到序列的生成任務(機器翻譯)等實際應用。


推薦理由:自然語言處理是信息時代最重要的技術之一。理解複雜的語言也是人工智能的重要組成部分。自然語言處理的應用無處不在,因爲人們用語言溝通了大部分內容:網絡搜索、廣告、電子郵件、客戶服務、語言翻譯、放射學報告等等。本課程比較適合對這個領域感興趣的初學者。


02Oxford Deep Learning for NLP class


課程導師:Phil Blunsom. Class by Deep Mind NLP Group.


適合人羣:中級到高級學者


課程鏈接:https://machinelearningmastery.com/oxford-course-deep-learning-natural-language-processing/


主要內容:DeepMind 團隊成員在牛津大學教授基於深度學習的自然語言處理的課程。內容涉及到詞嵌入,基於循環神經網絡的語言模型,基於循環神經網絡和卷積神經網絡的文本分類,基於循環神經網絡的條件語言模型(廣泛應用於機器翻譯、文本摘要等)及其中的注意力機制,以及基於深度學習模型的自動問答等主要自然語言處理的任務。


推薦理由:深度學習方法在自然語言處理問題上達到了一定的效果。本課程的大部分材料都可以在線免費獲取,比較適合對這個領域有一定的基礎,希望瞭解最新進展和進一步學習和研究的同學。


03其他在線課程


Coursera:自然語言處理簡介(由密西根大學提供的NLP課程)

https://www.coursera.org/learn/natural-language-processing


Dan Jurafsky 和 Chris Manning:自然語言處理(非常棒的視頻介紹系列)

https://www.youtube.com/watch?v=QIdB6M5WdkI&list=PLl3AijnqmcEhr0fQqPfaC_6PbyVNBLJTE&index=3


03數據集


數據集:見 Nicolas Iderhoff 在 GitHub 上發佈的 NlP 資源彙總:
https://github.com/niderhoff/nlp-datasets


* 文中圖片來自豆瓣


參考文獻

書單 | NLP祕笈,從入門到進階,微軟研究院AI頭條,2017-12-20

獨家 | 自然語言處理(NLP)入門學習資源清單,清華大學數據科學研究院,2017-09-29

數據挖掘、機器學習、自然語言處理這三者是什麼關係?這幾個怎麼入門,量子位,2019-01-21




數智物語徵稿啓事.png


星標我,每天多一點智慧

星標備選20190408.gif



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章