自然語言處理基本概念及基礎工具

基本概念

1.分詞

中文分詞(Chinese Word Segmentation) 指的是將一個漢字序列切分成 一個一個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。

2.詞性標註

詞性標註(Part-of-Speech tagging 戒POS tagging),又稱詞類標註或者簡稱標註,是指爲分詞結果中的每個單詞標註一個正確的詞性的程 序,也即確定每個詞是名詞、動詞、形容詞戒其他詞性的過程。在漢語 中,詞性標註比較簡單,因爲漢語詞彙詞性多變的情況比較少見,大多詞語只有一個詞性,戒者出現頻次最高的詞性遠遠高於第二位的詞性。

3.命名實體識別

命名實體識別(Named Entity Recognition,簡稱NER),又稱作“專名識別”,是指識別文本中具有特定意義的實體,主要包括人名、地名、 機構名、專有名詞等。一般來說,命名實體識別的任務就是識別出待處理文本中三大類(實體類、時間類和數字類)、七小類(人名、機構名、 地名、時間、日期、貨幣和百分比)命名實體。在不同的頃目中,命名實體類別具有不同的定義

基礎工具

1.NumPy

NumPy是Python的一個開源數值計算包。 主要包括:1、一個強大的N維數組對象Array;2、比較成熟的(廣播)函數庫;3、用於整合C/C++和Fortran代碼的工具包;4、實用的線性代數、 傅里葉變換和隨機數生成函數。numpy和稀疏矩陣運算包scipy配合使用更加方便

2.NLTK

NLTK全稱Natural Language Toolkit,即自然語言處理工具包,在NLP領域中最常使用的一個Python庫

3.Gensim

Gensim是一個佔內存低,接口簡單,免費的Python庫,它可以用 來從文檔中自動提取語義主題。它包含了很多非監督學習算法如: TF/IDF,潛在語義分析(Latent Semantic Analysis,LSA)、隱含狄利克雷分配(Latent Dirichlet Allocation,LDA),層次狄利克雷過程 ( Hierarchical Dirichlet Processes ,HDP )等。

4.Tensorflow

TensorFlow是谷歌基於DistBelief進行研發的第二代人工智能學習系統。 TensorFlow可被用於語音識別戒圖像識別等多頃機器學習和深度學習領域。 TensorFlow是一個採用數據流圖(data flow graphs),用於數值計算的開源軟件庫。節點(Nodes)在圖中表示數學操作,圖中的線(edges)則表示在節點間相互聯繫的多維數據數組,即張量(tensor)。它靈活的架構讓你可以在多種平臺上展開計算,例如臺式計算機中的一個或多個CPU(或GPU),服務器,移動設備等等。 TensorFlow最初由Google大腦小組(隸屬於Google機器智能研究機構)的研究員和工程師們開發出來,用於機器學習和深度神經網絡方面的研究,但這個系統的通用 性使其也可廣泛用於其他計算領域。

4.jieba

jieba即中文“結巴”的拼音,是廣泛使用的中文分詞工具,具有以下特點:

  1. 有三種分詞模式可供選擇:精確模式,全模式和搜索引擎模式
  2. 詞性標註和返回詞語在原文的起止位置( Tokenize)
  3. 可加入自定義字典
  4. 代碼對 Python 2/3 均兼容
  5. 支持多種語言,支持簡體繁體

5.Stanford NLP

Stanford NLP提供了一系列自然語言分析工具。它能夠給出基本的詞形,詞性,不管是公司名還是人名等,格式化的日期,時間,量詞, 並且能夠標記句子的結構,語法形式和字詞依賴,指明那些名字指向同樣的實體,指明情緒,提取發言中的開放關係等。

6.Hanlp

HanLP是由一系列模型與算法組成的Java工具包,目標是普及自然 語言處理在生產環境中的應用。HanLP具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。主要用於中文分詞,詞性標註,命名實體識別,依存句法分析,關鍵詞提取,新詞發現,短語提取,自動摘要,文本分類

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章