自然語言處理總概括

自然語言處理

自然語言處理是什麼

自然語言處理(Natural Language Process)就是利用計算機來處理人類語言的學科,屬於計算機與語言學的交叉學科。

自然語言處理有哪些技術

大致包括如下技術:
1.分詞(Word Segmentation或Word Breaker,WB)
在英文文本當中每個詞之間都有間隔好分,但在中文文本當中一句話之間每個詞是沒有間隔的,所以需要對一個句子當中每個字進行切分,句子的基本語義單元就變成了詞,這就是分詞任務。
2.句法分析(Parsing)
句法分析指的是將句子中每個部分的組塊(也就是每個詞、字的歸屬類)標註出來。

  • 組塊分析:標出句子的短語塊,如“This is a dog(NP)” 超級標籤分析:給每個句子加上超級標籤,超級標籤是一個樹形結構圖
  • 成分句法分析:分析句子成分,給出一顆由終結符和非終結符構成的成分句法樹
  • 依存句法分析:分析句中詞的依存關係,給出一顆由詞語依存關係構成的依存句法樹。

3.信息抽取(Information Extraction,IE):命名實體識別和關係抽取(Named Entity Recognition & Relation Extraction,NER):我們從一段文本中抽取關鍵信息即從無結構的文本中抽取結構化的信息,
4.詞性標註(Part Of Speech Tagging,POS):對詞語的詞性進行標註
5.指代消解(Coreference Resolution):消除一些對文本處理沒有意義的指代名詞,減輕程序對語言的處理。
6.詞義消歧(Word Sense Disambiguation,WSD):一個詞他可能會有歧義,該任務是用來消除歧義的。
7.機器翻譯(Machine Translation,MT):要實現文本的自動翻譯
8.自動文摘(Automatic Summarization):摘要是一大段文字,我們需要將裏面的梗提取出來然後縮短方便閱讀或方便提取信息。
9.問答系統(Question Answering):你提出一個問題機器給予你準確的答案
10.OCR:也屬於視覺模塊內容,將圖片當中的文字通過機器識別圖像翻譯成文本形式
11.信息檢索(Information Retrieval,IR):用戶進行信息查詢和獲取的主要方式,是查找信息的方法和手段。

自然語言處理核心問題是什麼

  • 文本分類
  • 關鍵詞提取
  • 情感分析
  • 語義消歧
  • 主題模型
  • 機器翻譯
  • 問題問答
  • 漢語分詞
  • 垂直領域的對話機器人

自然語言處理有哪些應用方向

搜索引擎
文本主題/標籤分類
文本創作與生成
機器翻譯
情感分析
輿情監控
語音識別系統
對話機器人

自然語言處理的難點是什麼

歧義問題:很多話的意思說的模棱兩可,具有歧義
知識問題:知識稀疏或者詞彙稀疏,詞彙稀疏導致了搭配稀疏,然後導致了語義稀疏,它有一個遞進關係。一個比較出名的定律叫齊夫定律(Zipf Law),這個定律是說在自然語言語料當中,一個單詞出現的頻率和它在頻率表當中的排名基本成一個反比關係。
離散符號計算問題:我們看到的文本其實都是一些符號,對計算機來說,它看的其實也是一些離散的符號,但我們知道計算機其實最擅長的是數值型的運算,而不是符號的推理,並且符號之間的邏輯推理會非常複雜。
語義本質的問題:到底什麼是語義?什麼是語義?語言裏面到底是什麼東西?符號背後真正的語義怎麼來表示?語言學家他走的路子就是我構建好多形式化的、結構化的圖之類的,這種結構去做語義或者是一些符號推導系統,認爲它可以接近語義本質。但是,這些其實走得越遠離計算機就越遠,因爲它越符號,語義的可解釋性就會很差。拿數字來表示語義,我們也不知道這個數字到底它是什麼東西。所以目前爲止現在研究領域對這個問題解決得比較差。

自然語言處理學習路線

  • 熟悉基本知識、基本操作
    如文本操作、正則、掌握一些基本文本處理框架英文有NLTK、spaCy,中文有中科院計算所NLPIR、哈工大LTP、清華大學THULAC、Hanlp分詞器、Python jieba工具庫
  • 知道什麼是語言模型、利用語言模型來完成一些項目
  • 文本表示:將文本中的字符串轉化爲計算機當中的向量
  • 文本分類:分類模型傳統的一個解決方法就是標帶標註的語料,再特徵提取,然後訓分類器進行分類。這個分類器就會用比如說邏輯迴歸、貝葉斯、支持向量機、決策樹等等。
  • 主題模型:使用無監督學習的方式對文本中的隱含語義進行聚類的統計模型
  • seq2seq模型:通過深度神經網絡將一個序列作爲映射爲另外一個輸出的序列。
  • 文本生成:GAN文本生成,也叫機器人寫作。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章