爲何NLP領域難以出現“獨角獸”?

引言:比爾·蓋茨曾說過,「語言理解是人工智能皇冠上的明珠」。自然語言處理的進步將會推動人工智能整體進展。NLP 的歷史幾乎跟計算機和人工智能的歷史一樣長。自計算機誕生,就開始有了對人工智能的研究,而人工智能領域最早的研究就是機器翻譯以及自然語言理解。

隨着大數據和技術設施的完善,人工智能技術在近年來迎來了井噴式的發展。在產業方面,不少專注於計算機視覺的公司也獲得了長足發展。其中比較具有代表性的是估值已經超過 20 億美元的商湯科技,在經歷了數輪大額融資之後,其隱隱有從獨角獸變成巨頭的趨勢。

不過,人工智能另一個相關領域自然語言處理似乎沒有達到這種高度。在技術方面,這一領域的技術準確率遠遠沒有達到計算機視覺和語音識別的水平,技術產品也因爲較高的錯誤率,缺少實際價值。那麼NLP技術到底有哪些難點呢

什麼是NLP?

在人工智能出現之前,計算機只能處理結構化的數據,就比如我們平時用的表格裏的數據,但是網絡中大部分的數據都是非結構化的,比如我們看到的文章、圖片、視頻等等。在這些數據中,文本數據又往往是最多的,爲了能夠分析和利用這些文本信息,我們就需要利用 NLP 技術,讓機器理解這些文本信息,並加以利用。

人類可以通過語言來交流,而爲了讓計算機之間互相交流,人們讓所有計算機都遵守一些規則,計算機的這些規則就是計算機之間的語言。自然語言處理(NLP)就是在機器語言和人類語言之間溝通的橋樑,以實現人機交流的目的。

NLP的兩個部分:NLU和NLG

自然語言理解(NLU) 則是 NLP 的一部分,這幾年深度學習技術的發展使NLU能在一些場景中落地。自然語言理解就是希望機器像人一樣,具備正常人的語言理解能力,由於自然語言在理解上有很多難點(下面詳細說明),所以 NLU 是至今還遠不如人類的表現。

NLU目前應用的領域主要集中在機器翻譯、機器客服、智能音箱等領域,但由於需要大量的數據訓練和NLU本身存在的一些語言語義上的難點,其實機器還不是非常智能。

自然語言生成(NLG)是 NLP 的重要組成部分,NLU 負責理解內容,NLG 負責生成內容。他的主要目的是降低人類和機器之間的溝通鴻溝,將非語言格式的數據轉換成人類可以理解的語言格式。

自然語言生成 – NLG 有2種方式:

  1. text – to – text:文本到語言的生成
  2. data – to – text :數據到語言的生成

NLP的難點

對於機器來說,難點主要分爲5類問題:

  1. 語言的多樣性,我們日常所用的語言是沒有規律的,不同的組合可以表達出很多的含義。
  2. 語言的歧義性,如果不聯繫上下文,缺少環境的約束,語言有很大的歧義性
  3. 語言是一個開放集合,我們可以任意的發明創造一些新的表達方式。
  4. 語言需要知識依賴,需要聯繫到實踐知識。
  5. 語言的上下文

應用場景複雜,很難出現“獨角獸”

總的來說,NLP技術領域之所以沒有出現如計算機視覺領域那些獨角獸公司,是因爲自然語言處理的技術難度太大,和應用場景太複雜。一個公司的成立發展都是由需求驅動的,自然語言應用主要是機器翻譯,雖然機器翻譯的需求長期存在,但機器翻譯的水平一直未取得突破性的進展,即使到今天,機器也很難翻譯有背景的複雜句子。

另外,自然語言處理的應用太依賴於UI了。圖像識別基本不需要UI,直接在系統內部集成一些技術就行。一些公司做翻譯軟件,如果UI做得不行,用戶體驗不行,人們就不會願意使用。

技術產業化最重要的是商業模式,也就是怎麼讓技術掙錢。圖像識別公司的掙錢模式已經成立了,但翻譯付費就難多了。所以自然語言是從研究到技術到落地到商業化,面臨一系列的挑戰。目前的現狀是,自然語言處理技術更多的是作爲公司內部技術,比如內部的商業情報或人機接口功能。

NLP技術發展,未來可期

從今年的ACL 大會可以看出NLP技術的火爆。會議共收到了2900 餘篇提交的論文,投稿規模相較於 2018 年增長了 75%!自然語言處理領域實在是炙手可熱,學術界和工業界的熱情都創下了歷史新高。

從商業層面來講也涌現出了微軟小冰、小米小愛等比較成熟的機器人產品,相信在未來的不久NLP技術一定會給我們帶來更多的驚喜。

大咖現場分享NLP技術乾貨

王斌博士,是小米人工智能實驗室主任,NLP首席科學家。中國中文信息學會理事,計算語言學、信息檢索、社會媒體處理、語言與知識計算等專委會委員及《中文信息學報》編委,中國計算機學會中文信息處理專業委員會委員。

加入小米之前,他在中科院計算所、信工所從事自然語言處理和信息檢索相關的科研工作。在AICon全球人工智能與機器學習大會現場,他將會帶來NLP技術方面的相關演講,各位感興趣的小夥伴歡迎來現場聽他分享。

AICon全球人工智能與機器學習技術大會,將於11月21-22日在北京國際會議中心舉行。顏水成、賈揚清、崔寶秋等AI技術大咖屆時也會來現場,跟大家聊一聊今年在AI商業化場景落地的大背景下,又涌現出了哪些新技術。本次大會我們設立了機器學習、計算機視覺、NLP、AI芯片、搜索推薦、產業互聯網、硅谷AI技術實踐等13+技術專場,細分到AI技術的各個領域,爲大家全方位的展示AI技術在國內目前發展的現狀。感興趣的小夥伴可以聯繫小姐姐Amy:18514549229(同微信)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章