終於有人把自然語言處理、機器學習、深度學習和AI講明白了

雲棲號資訊:【點擊查看更多行業資訊
在這裏您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!

導讀:本文將帶你瞭解自然語言處理的概念、應用,以及與機器學習、深度學習和人工智能之間的關係。

AFEA80B3_4E20_4130_9302_12C6136AD705

01 自然語言處理的基礎知識

爲了便於理解,我們將這個術語分爲兩部分:

自然語言是一種有機且自然發展而來的書面和口頭交流形式。
處理意味着使用計算機分析和理解輸入數據。

如圖1-1所示,自然語言處理是人類語言的機器處理,旨在教授機器如何處理和理解人類的語言,從而在人與機器之間建立一個簡單的溝通渠道。

3046D353_45B3_4775_95F1_4A5D3396A1F7

自然語言處理的應用很廣泛,例如,在我們的手機和智能音箱中的個人語音助手,如Alexa和Siri。它們不僅能夠理解我們的說話內容,而且能夠根據我們說的話採取行動,並做出反饋。自然語言處理算法促進了這種與人類溝通的技術。

在上述自然語言處理定義中要考慮的關鍵是:溝通需要以人類的自然語言進行。幾十年來,我們一直在與機器溝通:創建程序來執行某些任務並執行。

然而,這些程序是用非自然語言編寫的,因爲它們不是口頭交流的形式,也不是自然或有機發展而來的。這些語言,例如Java、Python、C和C ++,都是在主要考慮機器的情況下創建的,並且始終考慮的是“機器能夠輕鬆理解和處理的是什麼?”

雖然Python是一種對用戶更加友好的語言,且易於學習和編碼,但與機器溝通,人類必須學習機器能夠理解的語言。自然語言處理、機器學習、深度學習的關係如圖1-2所示。

464AA1D1_AD31_4410_8183_DCEF72C53EA9

自然語言處理的目的與此相反。自然語言處理不是以人類順應機器的方式學習如何有效地與它們溝通,而是使機器能夠與人類保持一致,並學習人類的交流方式。其意義更爲重大,因爲技術的目的本來就是讓我們的生活更爲輕鬆。

我們用一個例子來澄清這一點,你的第一個程序是一段讓機器打印“hello world”代碼。這是你順應機器並要求它用其理解的語言執行任務。

通過向其發出這個命令來要求你的語音助手說“hello world”,並做出“hello world”的反饋,就是自然語言處理應用的一個例子,因爲你用自然語言與機器通信。機器符合你的溝通形式,理解你所說的內容,處理你要求它執行的操作,然後執行任務。

02 自然語言處理的重要性

圖1-3說明了人工智能領域的各個部分。

05E3C961_FE8A_44e1_8DC3_99F9B7C2A220

與機器學習和深度學習一樣,自然語言處理是人工智能的一個分支,因爲其處理自然語言,所以它實際上是人工智能和語言學的交叉。

如上所述,自然語言處理使機器能夠理解人類的語言,從而在兩者之間建立有效的溝通渠道。然而,自然語言處理的必要性還有另一個原因。那就是,像機器一樣,機器學習模型和深度學習模型對數值數據最有效。數值數據對人類來說很難自然產生。很難想象我們用數字而不是語言交談。

因此,自然語言處理與文本數據一起工作,並將其轉換成數值數據,從而使機器學習模型和深度學習模型能夠適用於文本數據。因此,它的存在是爲了通過從人類那裏獲取語言的口頭和書面形式,並將它們轉換成機器能夠理解的數據,來彌合人類和機器之間的交流差距。

得益於自然語言處理,機器能夠理解並回答基於自然語言的問題、解決使用自然語言的問題以及用自然語言交流等。

03 自然語言處理的能力

自然語言處理有許多有益於人類生活的現實應用。這些應用程序屬於自然語言處理的三大功能:

  1. 語音識別

機器能夠識別自然語言的口語形式,並將其翻譯成文本形式。比如智能手機上的聽寫,你可以啓用聽寫功能並對着手機說話,它會將你所說的一切轉換成文本。

  1. 自然語言理解

機器能夠理解自然語言的口語和書面語。如果給機器一個命令,它就能理解並執行。例如,在你的手機上對Siri說“嘿,Siri,打電話回家”,Siri就會自動爲你打電話回家。

  1. 自然語言生成

機器能夠自己生成自然語言。例如,在手機上對Siri說“Siri,現在幾點了?”Siri回覆說:“現在是下午2:08”。

這三種能力用於完成和自動化許多任務。讓我們來看看自然語言處理的一些應用。

注意:文本數據被稱爲語料庫(corpora)或一個語料(corpus)。

04 自然語言處理中的應用

圖1-4描述了自然語言處理的一般應用領域。

149C55A4_A414_4acf_A70C_079843828513

  1. 自動文摘

包括對語料庫生成摘要。

  1. 翻譯

要求有翻譯工具,以從不同的語言翻譯文本,例如,谷歌翻譯。

  1. 情感分析

這也被稱爲情感的人工智能或意見挖掘,它是從書面和口頭語料庫中識別、提取和量化情感和情感狀態的過程。情感分析工具用於處理諸如客戶評論和社交媒體帖子之類的事情,以理解對特定事物的情緒反應和意見,比如新餐廳的菜品質量。

  1. 信息提取

這是從語料庫中識別並提取重要術語的過程,稱爲實體。命名實體識別屬於這一類,將在下一章中解釋。

  1. 關係提取

關係提取包括從語料庫中提取語義關係。語義關係發生在兩個或多個實體(如人、組織和事物)之間屬於許多語義類別之一。

例如,如果一個關係提取工具被賦予了關於Sundar Pichai的內容,以及他是谷歌的CEO,該工具將能夠生成“Sundar Pichai就職於谷歌”作爲輸出,Sundar Pichai和谷歌是兩個實體,“就職於”是定義它們之間關係的語義類別。

  1. 聊天機器人

聊天機器人是人工智能的一種形式,被設計成通過語音和文本與人類交流。它們中的大多數模仿人,使你覺得在和另一個人說話。聊天機器人在健康產業被用於幫助患有抑鬱症和焦慮症的人。

  1. 社交媒體分析

社交媒體的應用,如Twitter和Facebook,都有標籤和趨勢,並使用自然語言處理來跟蹤和監控這些標籤和趨勢,以瞭解世界各地正在交談的話題。此外,自然語言通過過濾負面的、攻擊性的和不恰當的評論和帖子來幫助優化過程。

  1. 個人語音助理

Siri、Alexa、谷歌助手以及Cortana都是個人語音助理,充分利用自然語言處理技術來理解和迴應我們。

  1. 語法檢查

語法檢查軟件會自動檢查和糾正你的語法、標點和拼寫錯誤。

關於作者:卡蒂克·雷迪·博卡(Karthiek Reddy Bokka),語音和音頻機器學習工程師,畢業於南加州大學,目前在波特蘭的 Bi-amp Systems公司工作。他的興趣包括深度學習、數字信號和音頻處理、自然語言處理以及計算機視覺。
舒班吉·霍拉(Shubhangi Hora),Python開發者、人工智能愛好者和作家。她有計算機科學和心理學背景,對與心理健康相關的人工智能特別感興趣。
塔努吉·賈因(Tanuj Jain),在德國公司工作的數據科學家。他一直在開發深度學習模型,並將其投入生產以商用。他對自然語言處理特別感興趣,並將自己的專業知識應用於分類和情感評級任務。
莫尼卡·瓦姆布吉(Monicah Wambugu),金融技術公司的首席數據科學家,該公司通過利用數據、機器學習和分析來提供小額貸款,以執行替代信用評分。她是加州大學伯克利分校信息管理與系統碩士研究生。

本文摘編自《基於深度學習的自然語言處理》,經出版方授權發佈。

【雲棲號在線課堂】每天都有產品技術專家分享!
課程地址:https://yqh.aliyun.com/zhibo

立即加入社羣,與專家面對面,及時瞭解課程最新動態!
【雲棲號在線課堂 社羣】https://c.tb.cn/F3.Z8gvnK

原文發佈時間:2020-07-12
本文作者:Karthiek Bokka
本文來自:“大數據DT”,瞭解相關信息可以關注“大數據DT

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章