用Python構建NLP Pipeline，從思路到具體代碼，這篇文章一次性都講到了

面向用戶：對NLP感興趣，想學習處理問題思路並通過實例代碼練手

閱讀時長：全文大約 2000 字，讀完可能需要下面這首歌的時間

授人以魚不如授人以漁，今天的文章由作者Adam Geitgey授權在人工智能頭條翻譯發佈。不僅給出了具體代碼，還一步步詳細解析了實現原理和思路。正所謂有了思路，無論是做英語、漢語的語言處理，纔算的上有了指導意義。

Adam Geitgey畢業於佐治亞理工學院，曾在團購網站Groupon擔任軟件工程師總監。目前是軟件工程和機器學習顧問，課程作者，Linkedin Learning的合作講師。

計算機是如何理解人類語言的?

讓機器理解人類語言，是一件非常困難的事情。計算機的專長在處理結構化數據，但人類語言是非常複雜的，碎片化，鬆散，甚至不合邏輯、心口不一。

既然直男不能明白爲什麼女朋友會生氣，那計算機當然無法理解A叫B爲孫子的時候，是在喊親戚、罵街，或只是朋友間的玩笑。

面對人類，計算機相當於是金剛隕石直男。

正是由於人工智能技術的發展，不斷讓我們相信，計算機總有一天可以聽懂人類表達，甚至像真人一樣和人溝通。那麼，就讓我們開始這算美好的教程吧。

創建一個NLP Pipeline

London is the capital and most populous city of England and the United Kingdom. Standing on the River Thames in the south east of the island of Great Britain, London has been a major settlement for two millennia. It was founded by the Romans, who named it Londinium. 倫敦，是英國的首都，人口居全國之首。位於大不列顛島東南方泰晤士河流域，在此後兩個世紀內爲這一地區最重要的定居點之一。它於公元50年由羅馬人建立，取名爲倫蒂尼恩。 -- 維基百科

Step 1：斷句（句子切分）

上面介紹倫敦的一段話，可以切分成3個句子：

倫敦是大不列顛的首都，人口居全國之首（London is the capital and most populous city of England and the United Kingdom）
位於泰晤士河流域（Standing on the River Thames in the south east of the island of Great Britain, London has been a major settlement for two millennia）
它於公元50年由羅馬人建立，取名爲倫蒂尼恩（It was founded by the Romans, who named it Londinium）

Step 2：分詞

由於中文的分詞邏輯和英文有所不同，所以這裏就直接使用原文了。接下來我們一句一句的處理。首先第一句：

“London”, “is”, “ the”, “capital”, “and”, “most”, “populous”, “city”, “of”, “England”, “and”, “the”, “United”, “Kingdom”, “.”

英文的分詞相對簡單一些，兩個空格之間可以看做一個詞（word），標點符號也有含義，所以把標點符號也看做一個詞。

Step 3：區分單詞的角色

我們需要區分出一個詞在句子中的角色，是名詞？動詞？還是介詞。我們使用一個預先經過幾百萬英文句子訓練、被調教好的詞性標註（POS: Part Of Speech）分類模型：

這裏有一點一定要記住：模型只是基於統計結果給詞打上標籤，它並不瞭解一個詞的真實含義，這一點和人類對詞語的理解方式是完全不同的。

處理結果：

可以看到。我們等到的信息中，名詞有兩個，分別是倫敦和首都。倫敦是個獨特的名稱，首都是個通用的稱謂，因此我們就可以判斷，這句話很可能是在圍繞倫敦這個詞說事兒。

Step 4：文本詞形還原

很多基於字母拼寫的語言，像英語、法語、德語等，都會有一些詞形的變化，比如單複數變化、時態變化等。比如：

I had a pony（我有過一匹矮馬）
I have two ponies （我有兩匹矮馬）

其實兩個句子的關鍵點都是矮馬pony。Ponies和pony、had和have只是同一個詞的不同詞形，計算機因爲並不知道其中的含義，所以在它眼裏都是完全不一樣的東西，

讓計算機明白這個道理的過程，就叫做詞形還原。對之前有關倫敦介紹的第一句話進行詞形還原後，得到下圖

Step 5：識別停用詞

停用詞：在信息檢索中，爲節省存儲空間和提高搜索效率，在處理自然語言數據（或文本）之前或之後會自動過濾掉某些字或詞，這些字或詞即被稱爲Stop Words(停用詞)。這些停用詞都是人工輸入、非自動化生成的，生成後的停用詞會形成一個停用詞表。但是，並沒有一個明確的停用詞表能夠適用於所有的工具。甚至有一些工具是明確地避免使用停用詞來支持短語搜索的。 -- 維基百科

還是來看第一句話：