文章目錄

轉載來源：https://zhuanlan.zhihu.com/p/96801863
作者：劉知遠

在微博和知乎上關注自然語言處理（NLP）技術的朋友，應該都對#NLP太難了#、#自然語言理解太難了#兩個話題標籤不陌生，其下彙集了各種不僅難煞計算機、甚至讓人也發懵的費解句子或歧義引起的笑話。然而，這些例子只是讓人直覺計算機理解人類語言太難了，NLP到底難在哪裏，還缺少通俗易懂的介紹。最近剛做完會議投稿，這裏花些時間總結下我對這個問題的認識，期望對那些感興趣NLP的同學有些幫助。歡迎批評意見和建議，未來爭取不斷更新。

自然語言理解本質是結構預測

要搞清楚自然語言理解難在哪兒，先看自然語言理解任務的本質是什麼。作爲人工智能關注的三大信息類型（語音、視覺、語言）之一，自然語言文本是典型的無結構數據，由語言符號（如漢字）序列構成。要實現對自然語言的表意的理解，需要建立對該無結構文本背後的語義結構的預測。因此，自然語言理解的衆多任務，包括並不限於中文分詞、詞性標註、命名實體識別、共指消解、句法分析、語義角色標註等，都是在對文本序列背後特定語義結構進行預測。例如，中文分詞就是在原本沒有空格分隔的句子中增加空格或其他標識，將句子中每個詞的邊界標記出來，相當於添加了某些結構化語義信息到這個文本序列上。
NLP典型任務：詞性標註、命名實體識別、共指消解、句法分析 [1]

面向不同NLP任務，人們制定不同的待預測的語義結構空間：文本分類是最簡單的情形，即預定義的類別體系，最常見的如情感分類是postive、neutral、negative三類；中文分詞是詞邊界的標記；詞性標註是句子中每個詞的詞性標籤（如名詞、動詞、形容詞、副詞、連詞、介詞等）；命名實體識別是標記哪些詞（或多詞）是實體名及其實體類型（如人名、地名、機構名等）；共指消解是標記哪些詞在做指代以及指代的是前面出現的哪個概念或實體；句法分析則是將句子背後的句法樹結構或依存結構預測出來。

自然語言理解的關鍵是語義表示

不過，以上NLP任務都只是在不斷“逼近”對文本的理解，是對文本語義的局部表示。要實現對文本的完整理解，需要建立更完備的語義結構表示空間，這種更完備的語義表示經常成爲上述NLP任務進行結構預測的依據。

在統計學習時代，一般採用符號表示（Symbol-based Representation）方案，即每個詞都看做互相獨立的符號。例如，詞袋模型（Bag-of-Words，BOW）是最常用的文本表示方案，忽略文本中詞的出現順序信息，廣泛用於文本分類、信息檢索等任務。N-Gram也是基於符號表示的語言模型，與BOW模型相比，將句子中詞的出現順序考慮了進來，曾在機器翻譯、文本生成、信息檢索等任務中廣泛使用。

到深度學習時代，一般採用分佈式表示（Distributed Representation或Embeddings）方案，每個語言單元（包括但不限於字、詞、短語、句子、文檔）都用一個低維稠密向量來表示它們的語義信息。分佈式表示是深度學習和神經網絡的關鍵技術。分佈式表示方案是受到了人腦神經機制的啓發，基本思想是[2]：

Each entity is represented by a pattern of activity distributed over many computing elements , and each computing element is involved in representing many different entities.

很大程度上，這種表示方案與索緒爾對語言符號的任意性和結構主義的觀點不謀而合。從計算角度來看，NLP很多應用任務就是在判定兩個語言單元間的語義相似度，如信息檢索是在短語（查詢詞）和文檔之間，文檔摘要是在句子和文檔之間，分佈式表示也爲在不同語言單元之間計算語義相似度提供了統一的語義表示基礎。

由於忽略了對詞語內部語義或詞序信息的考量，基於符號表示的詞袋模型或N-Gram失之粗略，也受到數據稀疏問題的影響；基於分佈式表示的深度學習雖然極大提升NLP性能，卻更多隻能作爲NLP內部表示，可解釋性不夠。實際上，也有很多學者提出Semantic Parsing任務，探索各類對文本語義更完整的表示和建模方案，仍未得到令人滿意的結果。

總之，自然語言理解任務的本質是結構預測，關鍵則是對語言單元的語義表示能力。那麼，自然語言理解爲什麼難呢，這需要我們先看一下，自然語言都有哪些特點。

自然語言有哪些特點

自然語言是人類在認識世界和改造世界的過程中產生的，歸根到底是自然界的產物，因此被稱爲自然語言。自然語言本身受到人腦語言能力的支配，伴隨着人類社會而演化，作爲人類使用的最龐雜的符號系統，有很多特點。

創新性

作爲人類信息交流的工具，自然語言需要具有強大的創新活力，隨時引入對最新概念、表述和意義的表達能力。這方面最常見的就是新詞以及舊詞新意的出現。例如，有個笑話就是母女二人對“潮”和“曬”產生的不同理解，女兒本意是讓母親幫忙在太陽下曬發潮的被子；而母親卻理解爲在朋友圈“曬”女兒的被子讓大家看是不是很“潮”。可見，這位母親大人本人還是很“潮”的，熟練掌握了兩個詞的的最新意思。

人類語言的創新活力伴隨着互聯網發展和在線交流的日益密切而更加明顯。北京大學邵燕君等學者主編的《破壁書》應該是近年這方面的集大成之作，有興趣的讀者可以讀下。我理解，這個書名“破壁書”，也算化用《三體》“破壁人”的一個新詞。

新詞和舊詞新意等都擴展了人類語言的表意空間，也擴展了自然語言理解進行結構預測的語義空間。而這種擴展，帶有較強的隨意性，缺少嚴格的描述信息或足夠的數據支持，從而爲自然語言理解帶來挑戰。

遞歸性

以語言學巨擘喬姆斯基爲代表的學者認爲，遞歸性（recursion)是人類語言的最重要的特性[4]，這也是喬姆斯基提出轉換生成文法的內在動機。雖然，遞歸性是否爲人腦先天具備的語言能力有很多爭論，至少從漢語英語兩大語言來看，語言表現出的遞歸性特點不言而喻。

例如最近中美之間出現的這則有意思的表述，就集中反映了語言遞歸性：S1=”美國干涉中國內政“是一個擁有完整主謂賓結構的句子，被作爲另外一個句子S2=”中國抗議 x的法案“中”法案“的定語x；而S2又被作爲了S3=”美國抗議 y 是在干涉內政“中”抗議“的賓語y。
遞歸性帶來的語言套娃現象-1: 抗議

遞歸性帶來的語言套娃現象-2：吉尼斯世界紀錄

正是這種遞歸性，爲語言帶來精準而強大的表述信息和思想的能力，隨便翻翻那些著名的哲學著作，充滿着帶有複雜遞歸結構的長句。不過，這種精確表達能力是以理解更加費力爲代價的，而且遞歸性也爲一句話帶來更多的語義理解的可能性，例如”咬死獵人的狗“，到底是咬死了獵人，還是咬死了狗，至少有兩種可能的理解。

也可以看到，一旦句子包含了多層嵌套，對人而言理解起來就變得十分困難，很少有人會用這麼複雜的結構說話。例如，政府部門層層轉發通知導致的”通知的通知的通知“的標題，讀起來就非常費力。所以，在自然語言理解實踐中，單純由於遞歸性造成的困難並不是那麼大。
紅頭文件的語言套娃現象

多義性

自然語言是一個信息傳遞系統，需要兼顧信號發出者（說話人、作者）和信號接收者（聽話人、讀者）的效率。如果人類大腦中每個事物都要對應一個獨一無二的字詞符號，無疑會大幅提高人們的學習、記憶和使用語言的成本。因此，語言中存在大量同音字和一詞多義的現象，即一個字或詞往往兼顧多個詞義，當然，也對應地需要人們根據話語或文本的語境進行消歧處理，才能正確理解其語義。這種多義性，也成爲各類語言幽默的主要來源。

自然語言有不同粒度的語言單元，如字、詞、短語、句子、語篇，乃至文檔互聯形成的萬維網。多義性普遍存在於各粒度的語言單元上。例如，上面例子中的”潮“和”曬“兩字就有兩種意思，”小號“則是典型的一詞多義，短語層面如”metal fan“也至少有兩個意思。

句子層面的多義性也不少見，如”能穿多少穿多少“，在夏天和冬天各有截然相反的意思。類似形式的語言笑話還不少：

單身的原因有兩個，一是誰都看不上，二是誰都看不上*。
女孩給男朋友打電話：如果你到了，我還沒到，你就等着吧；如果我到了，你還沒到，你就等着吧。
單身的原因：原來是喜歡一個人**，現在是喜歡一個人。

字面意思的”我想開了“

自然語言作爲人們日常交流的主要方式，相信每個人都有在交流中出現誤會鬧出笑話甚至衝突的經歷，很多時候就是由於歧義造成雙方理解產生誤差導致的。
”你好不好意思啊“還是”你好，不好意思啊“

主觀性

即使語言的多義性得到了正確消歧，語言的字面意思得到了準確理解，同樣的話語或文本，仍然會導致人們產生不同的理解，引發不同的思緒。這是因爲，每個人都是在認識世界和與外界交互的具體過程中習得語言的，所以人們對語言的理解不可避免受到個人經歷和認知水平的影響，帶有強烈的主觀性。

這種主觀性反映在很多方面，以作者與讀者間的理解差異爲例，常說”一千個讀者就有一千個哈姆雷特“，莎士比亞在寫這個劇本時，他心目中恐怕有一個確切的哈姆雷特形象以及他希望表達的思想；但讀者在閱讀時，則不可避免會受到自身經歷和認知的影響，而產生不同的理解。這有如一個正態分佈，也許作者要傳遞的信息就在均值附近，而讀者的理解則會各有偏差。這也是爲什麼，同樣一部世界名著，有的人就會引起共鳴，有的人覺得索然無味。

中文世界也常說，言有盡而意無窮，特別是在詩歌中，往往寥寥數字，作者也許本意有限，而不同讀者會產生不同層次的解讀。這也是爲什麼。再如下面融合多種元素的詩歌：無人機系荔枝來，字面意思正如圖所畫，而讀者如果瞭解杜牧原詩以及廣東人容易將ZHI、SHI發音爲JI、XI的特點，則更能會心一笑。

在人們日常對話交流中，這種主觀性比比皆是。例如，同樣是說”今天好冷啊”，字面意思沒有任何難解之處，但如果是女朋友剛進屋說的，那就得趕緊打開空調；如果是宿舍同學說的，恐怕就要嘲笑他爲啥穿這麼少了。所以，戀愛關係、外交辭令、商務談判都是需要清醒洞悉對方“言外之意”的危險地區呀。

心理語言學等領域的很多研究表明，人的心理狀態（如性格等）會反映在語言表達的蛛絲馬跡中。對此有興趣可以閱讀美國學者James Pennebaker的相關成果，他甚至構建了一個詞典Linguistic Inquiry and Word Count（LIWC）嘗試建立人們使用詞語與心理狀態的對應關係 [5]。

社會性

人類是社會動物，社會性既是人類的特性，也深刻反映在人類語言中。語言並非固定不變，而是經歷了漫長演化。人類的集體生產和生活，對信息交流和記錄產生的需求，不斷改造着人類語言。全世界的人類早期聚居於不同大洲和地區，互相隔絕，各自的社會形態和生活特點，深刻地影響了不同語言的產生和演化，產生了現在形態各異的人類語言，例如英語等是典型的拼音語言，而漢語則是音義兼顧語言的代表。現代語言學也是從研究總結不同語言體系的特點而發展起來的。作爲語言學的分支，演化語言學就在研究人類語言在發音、字形、詞法、句法等多個方面的演化過程，而社會語言學則重在研究社會形態與人類語言之間的互相影響的規律。

語言系統受到社會發展的塑造。隨着互聯網和移動設備的廣泛應用，人類之間的交流和聯繫，比以往任何一個時代都更加緊密，這也反映在人類語言的高速演化，新詞和舊詞新意層出不窮。不同學科的高速發展，也爲語言注入大量專業術語。使用不同語言的人們緊密聯繫，也爲語言引入大量音譯等形式的外來詞。

語言使用也深刻反映社會形態。人們在不同的社交場合會切換不同的語言風格，如在做公開報告時和在朋友聚會時，語言風格明顯不同，莊諧相異。在社交場合，人們也會將有些讓人恐懼厭惡或者不雅晦氣的概念作爲禁忌或避諱詞語，進而使用委婉曲折的說法，例如大便改叫出恭或解手，死亡改叫作古歸西或見馬克思等，中外皆同。

社會語言學還有一個有趣的話題，是探究語言使用與社會地位之間的關係，曾提出語言協調理論（Language coordination），即不同社會地位的人在相互交流時，地位低的人會從語言風格上適應地位高的人，而地位高的人則不會主動調整自己的語言風格適應別人，這個理論在2012年得到了定量驗證 [6]。

最近的定量研究也表明，大規模文本中含有人類社會存在的刻板印象、政治偏見等問題，側面反映了人類社會對語言的影響 [7]。美國著名認知語言學家萊考夫甚至認爲，不同黨派的政治家甚至會通過語言使用來影響政治議題的設置 [8]。

自然語言理解難在哪

正是由於其創造性、遞歸性、多義性、主觀性和社會性等特點，既讓人類語言具備強大的表達力和生命力，同時呈現出非常複雜而難以捉摸的圖景。單從讓計算機理解人類語言的角度來考慮，問題難點也許可以歸結爲如下幾個方面。

結構語義表示空間構建

很多學者通過世界、心智和語言的三角形來表述語言的地位，這在索緒爾提出的能指和所指的概念中已初見端倪，哲學中的認識論和語言哲學也是探討這三者的關係。自然語言理解還沒有能力考慮哲學關心的這些問題，不過也能看出，語言作爲人類認識世界的產物和工具，必然不是對客觀世界的簡單映射，而帶有人類主觀認識的色彩，也受到人腦機能的影響和約束。
各種語義三角

讓計算機理解人類語言，需要建構結構化的語義表示空間，只有這個空間的語義表示能力能夠與人類心智相媲美，纔有可能將人類通過語言要表達的意義進行完美表示和解讀。同時，這個語義表示空間還要接受客觀世界的校正，消除人類認知中存在的偏見和缺陷，讓人工智能更好地服務人類社會。

現在的語義表示方案中，符號表示過於粗略，無法考慮語言符號背後反映的豐富語義信息；而分佈式表示雖然具有更強大的表示能力和自由度，但目前只能通過特定任務下的數據學習，只能建立滿足特定需求的語義表示，一方面缺少可解釋性，魯棒性差，另一方面通用性和遷移性不足。這些與人腦展現的語義表示能力相比，還有千里之遙。

未來，需要探索更強大的結構化語義表示空間。例如，是否可以將分佈式表示與符號表示相結合，既保留分佈式表示的泛化能力，又兼顧模塊化和層次化符號表示帶來的抽象能力。也許這是下一輪自然語言理解取得革命進展的突破口之一。

我們課題組正在致力於構建和利用各類型知識圖譜的研究，也算是在這個方向上的努力。通過構建常識知識、語言知識、世界知識、認知知識、領域知識等各類型知識圖譜，希望建立起更強大的結構化語義表示空間。
不同類型知識是理解人類語言的鑰匙

多模態複雜語境的理解

人類並非孤立地使用語言，語言使用需要考慮其複雜的語境。以語言的多義性爲例，存在多義的語言單元，總需要其外部的複雜語境信息進行消歧：字的多義性至少需要所組成的詞來消歧；詞的歧義性至少需要所在的句子來消歧；句子的意思至少要放在語篇或對話語境中，甚至需要複雜的世界知識來幫助理解。
語言單元的多義性需要其外部複雜語境信息進行消歧

這種語境往往是開放的，也是多模態的，如上下文句子的文本信號、對話者的語氣等語音信號、所處環境的視覺信號、甚至其他無法名狀的各類信息。實際上，很多歧義產生的笑話，在實際語境下並不會讓人產生錯誤理解。例如下圖”三餐二樓歡迎新老師生前來就餐“，雖然從句意上有”歡迎新老師生前來就餐“這種理解的可能性，但在這個場景下其實不可能是這個意思。

再如”無線電法國別研究“，雖然從句意上有”無線電法國別研究“這種理解的可能性，但作爲一本專著的書名，只可能是”無線電法國別研究“這種理解。

只是對於計算機而言，如何有效理解語言所處的開放複雜語境，從而實現對語言語義的準確理解，仍是挑戰性難題。這既與尚未建立有效的結構語義表示空間有關，也與計算機還不能像人那樣進行跨模態的高效學習和理解有關。如何有效識別語言理解所需的語境信息，並建立跨模態多通道的建模，依然任重道遠。

小結

這裏總結了我對自然語言理解到底難在哪兒的看法。自然語言理解作爲人工智能的核心問題，正引起越來越多研究者的興趣，在各類任務上努力探索，自然語言處理最重要的國際學術年會ACL 2020共有3000多篇投稿，受關注程度可見一斑。

自然語言理解大致有不同的層次，我總結研究路徑可以大致爲：字斟句酌，實現句級消歧和精準理解；瞻前顧後，初步實現文本內的複雜語境建模，建立篇章或對話理解；博學多識，引入更多外部知識，實現跨模態更復雜語境的理解；善解人意，考慮語言的社會性和主觀性因素，實現更有”人性“的自然語言理解；冥思苦想，將語言作爲思想工具，實現從語言理解到語言使用的跨越，實現創作和規劃的能力。

語言是人類文明的象徵，是人類智能的集中體現，因此得到非常多學科從不同角度的思考和關注，如語言學中對句法、語義等問題建立的理論，心理語言學對人類語言習得的探討，語言哲學對語言與世界關係的探討，認知語言學對隱喻和範疇等問題的探討，神經語言學對人腦的語言功能的研究，漢語言學界對於漢語流水句、”王冕七歲上死了父親“等語言現象的研究，等等。這些，都對人類語言不同側面的特點進行了卓有成效的考察。

自然語言理解的目標是讓計算機掌握人類語言能力，需要充分了解和融合這些對人類語言的已有探索成果，以逼近人類語言的本質，才能更好地設計結構化語義表示空間，實現多模態複雜語境的理解，像人那樣智能地理解和使用語言。希望有朝一日，計算機也能讀懂#NLP太難了#、#自然語言理解太難了#兩個話題標籤下的那些話。

參考文獻

[1] Julia Hirschberg and Christopher D. Manning. Advances in Natural Language Processing. Science, 2015.

[2] Hinton, Geoffrey E., James L. McClelland, and David E. Rumelhart. Distributed Representations. Pittsburgh, PA: Carnegie-Mellon University, 1984.

[3] 索緒爾[瑞士]. 普通語言學教程. 北京: 商務印書館, 1980.

[4] Marc D. Hauser, Noam Chomsky, and W. Tecumseh Fitch. The Faculty of Language: What Is It, Who Has It, and How Did It Evolve?. Science, 2002: 1569-1579.

[5] James W. Pennebaker. The Secret Life of Pronouns: What Our Words Say About Us. NY: Bloomsbury, 2011.

[6] Cristian Danescu-Niculescu-Mizil, Lillian Lee, Bo Pang, Jon Kleinberg. Echoes of power: Language effects and power differences in social interaction. WWW, 2012.

[7] Aylin Caliskan, Joanna J. Bryson, and Arvind Narayanan. Semantics Derived Automatically from Language Corpora Contain Human-like Biases. Science, 2017.

[8] 喬治.萊考夫[美]. 別想那隻大象. 浙江人民出版社, 2013.

自然語言理解難在哪兒？

文章目錄

自然語言理解本質是結構預測

自然語言理解的關鍵是語義表示

自然語言有哪些特點

創新性

遞歸性

多義性

主觀性

社會性

自然語言理解難在哪

結構語義表示空間構建

多模態複雜語境的理解

小結

參考文獻

.NET有哪些好用的定時任務調度框架

Python 將PDF轉爲PDF/A、PDF/X，以及PDF/A轉回PDF

elk3

Kafka存儲機制

aws語音呼叫調用，告警電話

深度學習框架火焰圖pprof和CUDA Nsys配置指南

爬蟲兩種繞過5s盾的方法

【轉】[C#] WebAPI 防止併發調用二（冥等性）

【轉】[SQL Server]關掉 SSMS 的 IntelliSense

號稱能打敗MLP的KAN到底行不行？數學核心原理全面解析

文本生成評價指標的進化與推翻

NLP 任務中有哪些巧妙的 idea？

給你的數據加上槓杆：文本增強技術的研究進展及應用實踐

HeterSumGraph，異質圖神經網絡的抽取式摘要模型

萬字長文帶你一覽ICLR2020最新Transformers進展

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結