如何學習自然語言處理(轉)

如何學習自然語言處理(轉)

2012年6月30日

21:25

轉載的文章,自己標註出了學習重點。

轉自:http://www.52nlp.cn/getting-started-in-natural-language-processing

nlpers上有幾篇“Getting Started in X”,其中X分別是nlp(自然語言處理),summarization及sequence labeling,覺得寫得不錯,尤其是對初學者有一定借鑑意義,計劃在這裏分別結合自己的理解來介紹這幾篇文章。本期介紹的是“如何學習自然語言處理(Getting Started in NLP)”,nlpers

當一個讀者開始接觸自然語言處理這個領域時(事實上對於任何一個領域同樣如此),最直接的學習途徑是:

讀書,但是要讀哪些書(which ones?);

閱讀文獻,但是在哪裏找並且通過何人指導(from where and by whom?);

去參加附近的學術會議,但是哪一些會議值得參加(which ones?)以及

做實驗,但是要做什麼樣的實驗(on what?)。

最後,作者還建議大家多在nlpers上閱讀和寫作;這裏,我也建議大家常來看看“我愛自然語言處理”,有空的話,也可以在52nlp上發表一下自然語言處理方面的心得體會,非常歡迎!

在讀書方面,nlpers給出了四本自然語言處理領域的標準書籍(standard books),分別是

《統計自然語言處理基礎》(Statistical NLP, Manning + Schutze),

《自然語言處理綜論》(Speech and Language Processing, Jurafsky + Martin),

Statistical Language Learning (Charniak)

以及《自然語言理解》(Natural Language Understanding,Allen),

這四本書的詳細介紹大家可以參考《自然語言處理與計算語言學書籍彙總之一:國外書籍》。

對於這四本書,nlpers也給出了自己的比較,後兩本比較老,雖然有一些人喜歡Charniak to Manning + Schutze,但是如果僅僅買一本的話,作者會挑選Manning + Schutze(統計自然語言處理基礎,注意這裏使用的是書籍作者的名字)。

對於《統計自然語言處理基礎》這本書略讀第1、4、6及13章會給讀者一個合理(但不是所有)的背景知識介紹。但不幸的是,這本書也少了許多領域的介紹,譬如信息抽取,問答系統等。

這裏我再做一點補充:《統計自然語言處理》就不必說了,我也很喜歡這本書;雖然《自然語言處理綜論》涉及的範圍很廣,但經典依然是經典,尤其是08年新出的第二版,有了很大的改進,雖然對於入門讀者有一定的門檻,但可以常備案頭查閱;

另外對於剛開始接觸自然語言處理的讀者,推薦與nltk工具包相關的今年剛出的《Natural Language Processing with Python》,應該翻譯爲《用Python進行自然語言處理》吧,雖然中文版還沒有出,但是英文電子版已經可以下載了,8月份的時候熱心讀者brishen曾經給我提供過這個版本的電子版下載渠道:http://code.google.com/p/brishen/downloads/list,並且希望有讀者可以一起利用52nlp這個平臺來學習這本書和研究nltk,目前我也在學習中,後期會和brishen推出這個系列,歡迎有興趣的讀者加入,同時需要說明的是,這本書很適合入門學習,並且可以一併學習一下python,對於與自然語言處理密切相關的腳本語言來說,選擇python也是一個不錯的選擇。

閱讀文獻方面,對於初學者來說,尋找好的經典的文獻還比較困難。如果沒有人指導,可以在ACL,NAACL,HLT或者COLING等會議論文集上略讀一些文章的題目和摘要,從而發現一些感興趣的論文和領域。

ACL anthology是一個非常不錯的尋找自然語言處理方面已公開發表的論文的好地方。同時nlpers的作者計劃在之後的博客中列出一些領域的“必讀(must reads")文獻,這的確是一個不錯的對於初學讀者有幫助的方法,不過nlpers的這個系列沒能寫出很多領域。如果讀者找到了一些感興趣的論文,可以訪問相應作者的個人主頁,看是否有其他相關的工作,更進一步,可以訪問這個作者的導師的主頁,通常導師們會有更多的學生做着相似的課題,同時,導師們會有一些課程資料,這些通常都是一些自然語言處理領域的介紹級別的入門好資料。

關於參加會議,nlpers建議如果以上任何一個自然語言處理領域的高級別會議在你身邊舉行,一定要親自去參加和感受,這比閱讀論文有趣很多。而對於我們來說,明年的COLING2010會議絕對是一個難得的機會,對自然語言處理感興趣讀者在北京的話千萬不要錯過了。

轉載自:“我愛自然語言處理”:www.52nlp.cn

本文鏈接地址:http://www.52nlp.cn/getting-started-in-natural-language-processing

相關文章:

1. “知行合一”與自然語言處理

2. 自然語言處理與計算語言學書籍彙總之一:國外書籍

3. 斯坦福大學“自然語言處理”授課視頻

4. 提供幾本自然語言處理書

5. Coling 2010 文章已可下載

6. 幾本自然語言處理入門書

7. HMM在自然語言處理中的應用一:詞性標註1

8. COLING 2010前瞻——規則與統計共舞,語言隨計算齊飛

9. 統計機器翻譯文獻閱讀指南

10. ACL 2010文章已可下載

 

By Elvis_Zhou

標註完成時間:2012年6月30日

發表於2012年7月17日

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章