不談技術細節,自然語言處理能做些什麼?| 洞見

深度神經網絡的爆發使得機器學習受到了廣泛的關注, 而NLP(自然語言處理)又是其中最受關注的部分。ThoughtWorks正在嘗試NLP技術的商業化落地,例如對話機器人、針對特定領域的機器翻譯等。

基於NLP的重要性和其最近幾年的飛速發展, 它成爲了人們經常會討論的一個流行話題。對於專業人士來說, 通常會聊到詞向量, LSTM, attention等技術。但是作爲一個非NLP專家, 我們要聊些什麼呢?或者說我們應該學些什麼呢?本文就從應用角度來總結一下自然語言處理能做哪些事, 以及在我眼中NLP有潛力去做哪些事,幫助大家建立對NLP技術初步的理解。


NLP能做哪些事?

NLP的集大成者 - 語音助手

人類研究語音助手已有幾十年的歷史, 在科幻電影中也常有提及,不過直到2011年,蘋果發佈Siri, 這種神祕的工具才獲得了大衆的關注。在Siri之後, 涌現出了以Amazon Alexa, Google Assistant, Microsoft Cortana爲代表的一大票語音助手。早期的語音助手功能十分有限, 也很少有人使用。經過了這些年的發展, 現在的語音助手已經有了很大的進步, 已經能很好地處理天氣查詢, 信息檢索, 添加日程, 播放音樂等簡單任務。此外, 部分語音助手還支持聲紋識別, 提升了安全性。如果你最近沒有使用過上述的語音助手, 我強烈建議你去試用一下!

儘管NLP在語音助手應用中發揮了重要作用,但仍然不足以支撐這樣一個複雜的綜合性系統。語音助手基本上使用了下文中提到的所有NLP技術以及很多其他非NLP技術。創建一個完整的語音助手需要大量的資源, 是一個門檻很高的領域。

基於文本分類的應用

文本分類就是將非結構化文本數據劃分到事先定義好的標籤類中, 這是NLP技術的一大分支, 很多其他技術都依賴於它。由於分類任務不同, 標籤的定義也不同, 比如在綜合用戶評論分析中, 標籤可以定義爲 “負面”, “中性”, “正面”。而在酒店評論分析中就可以把標籤定義爲”服務好”, “環境好”, “環境差”等。

由於標籤體系可以靈活調整, 文本分類被廣泛應用到衆多領域中, 下面列出一些典型的應用:

  1. 垃圾郵件的檢驗:垃圾郵件檢測的方法有很多, 其中一類就是利用文本分類技術來過濾垃圾郵件。
  2. 新聞自動分組:對於分類新聞網站, 將新聞歸類展示是一項消耗巨大的任務, 這裏可以通過自動文本分類技術來自動化這一操作, 提升分類效率和用戶閱讀體驗。
  3. 用戶情感分析(評論傾向性分析):通過對用戶評論進行分類(高興or失望)處理, 可以得到用戶對商家的態度, 該方法已經在許多點評類應用中得到使用。
  4. 文檔自動標籤, 搜索引擎優化(SEO):通過文檔自動分類得到新聞或web頁面的標籤, 將這些標籤加入到網站的Head中能夠起到優化搜索引擎排名的作用。

基於命名實體識別(NER)的應用

命名實體識別的目標是定位文本中出現的預定義分類, 包括人名, 組織名稱, 地名, 日期和時間, 數量等等。下面以一個例子來具體說明:

原文:

Jim bought 300 shares of Acme Corp. in 2006.

標註後(括號內爲實體類型):

[Jim](Person)bought 300 shares of [AcmeCorp.] (Organization)in [2006](Time).

NER也有應用場景,下面是幾個例子:

  1. 新聞標註:和文本分類不同, 這裏可以使用NER技術將與文章相關的人物, 地點都以標籤的形式標註出來, 方便用戶對某個人物或地點進行索引。
  2. 搜索引擎:可以通過使用命名實體識別來抽取web頁面中的實體, 後續可以使用這些信息來提高搜索效率和準確度。
  3. 從商品描述中自動提取商品類別, 品牌等信息, 提高貨物上架效率, 在鹹魚等應用上已經實現了類似功能。
  4. 工具易用性提升, 例如從短信息或郵件中提取時間和地點等實體, 從而實現點擊時間直接創建日曆, 點擊地址直接跳轉到地圖App等便捷操作。

其他

除了上面說到的幾種分類之外, NLP還能做很多厲害的事情,

  1. 機器翻譯:機器翻譯是語音助手外另一個爲大家熟知的NLP應用, 也是商業化最早的NLP應用。金山快譯作爲當年機器翻譯市場的佼佼者是我最早接觸到的幾款軟件之一。機器翻譯剛出現時準確性較低, 不過隨着近年來深度神經網絡在機器翻譯領域的成功應用, 目前的機器翻譯已經有了很高的可用性。Google translate已經率先在生產環境部署了基於深度神經網絡的翻譯工具,是這方面的傑出代表。
  2. 拼寫檢查(拼寫糾錯):包括單詞拼寫檢查, 句子正確性檢查。拼寫檢查在搜索引擎上得到廣泛應用, 當你在百度搜索”自然寓言處理”的時候, 百度會自動顯示”自然語言處理”的相關結果。除了搜索引擎外, 拼寫檢查也廣泛應用在各種文字處理系統中。

NLP有希望做哪些事?

上面講了很多應用案例, 其中大部分已經比較成熟甚至已經投入到了商業應用中。下面再羅列一些我認爲目前不是很成熟但是很有潛力的NLP技術:

  • 句子, 段落的相似性檢測:詞語的相似度檢測已經很成熟, 句子和章節的相似性檢測的研究也在進行中。相似性檢測有很廣的應用空間, 可以用來解決問答論壇上重複問題, 文章抄襲問題等。
  • 自動文本摘要:即爲文章生成一個簡短的總結性段落。當我們寫文章時很多人會寫一個TLNR(太長不讀版), 文本摘要技術可以自動爲我們生成這個TLNR, 節省我們的時間。在信息爆炸時代, 文本摘要技術有着巨大的潛力。
  • 自動問答:該技術的價值無需贅述, 不過目前的問答機器人都只能在特定領域回答一些簡單地問題, 通用的問答機器人目前還無法實現, 這將是一個巨大的挑戰。該領域的一款落地應用來自Google, 在其郵件應用Inbox中已經開始提供郵件快速回復功能(根據郵件自動生成三個可能的回覆供用戶選擇), 雖然目前生成的回覆都很簡短, 但已經有了一定的實用性。

總結

上面介紹了幾種NLP技術和應用場景, 但是NLP技術涉及的範圍遠不止這些, 將NLP技術與音頻處理、圖像處理等技術結合, 又會出現諸如視頻字幕生成, 圖片描述生成等等有趣的應用。可以說只要有人類, 有語言, 就存在NLP應用的可能性。也正是因爲NLP技術涉及範圍廣泛,才吸引了越來越多企業的關注,並在其之上構建各種智能系統,給我們的生活帶來了便利。

瞭解了這些應用,不妨花幾分鐘思考一下, 對於你目前接觸到的業務, NLP技術能給客戶帶來哪些價值呢?

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章