自然語言處理基本概念及基礎工具

基本概念

1.分詞

中文分詞(Chinese Word Segmentation) 指的是將一個漢字序列切分成一個一個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。

2.詞性標註

詞性標註（Part-of-Speech tagging 戒POS tagging)，又稱詞類標註或者簡稱標註，是指爲分詞結果中的每個單詞標註一個正確的詞性的程序，也即確定每個詞是名詞、動詞、形容詞戒其他詞性的過程。在漢語中，詞性標註比較簡單，因爲漢語詞彙詞性多變的情況比較少見，大多詞語只有一個詞性，戒者出現頻次最高的詞性遠遠高於第二位的詞性。

3.命名實體識別

命名實體識別（Named Entity Recognition，簡稱NER），又稱作“專名識別”，是指識別文本中具有特定意義的實體，主要包括人名、地名、機構名、專有名詞等。一般來說，命名實體識別的任務就是識別出待處理文本中三大類（實體類、時間類和數字類）、七小類（人名、機構名、地名、時間、日期、貨幣和百分比）命名實體。在不同的頃目中，命名實體類別具有不同的定義

基礎工具

1.NumPy

NumPy是Python的一個開源數值計算包。主要包括：1、一個強大的N維數組對象Array；2、比較成熟的（廣播）函數庫；3、用於整合C/C++和Fortran代碼的工具包；4、實用的線性代數、傅里葉變換和隨機數生成函數。numpy和稀疏矩陣運算包scipy配合使用更加方便

2.NLTK

NLTK全稱Natural Language Toolkit，即自然語言處理工具包，在NLP領域中最常使用的一個Python庫

3.Gensim

Gensim是一個佔內存低，接口簡單，免費的Python庫，它可以用來從文檔中自動提取語義主題。它包含了很多非監督學習算法如： TF/IDF，潛在語義分析（Latent Semantic Analysis，LSA）、隱含狄利克雷分配（Latent Dirichlet Allocation，LDA），層次狄利克雷過程（ Hierarchical Dirichlet Processes ，HDP ）等。

4.Tensorflow

TensorFlow是谷歌基於DistBelief進行研發的第二代人工智能學習系統。 TensorFlow可被用於語音識別戒圖像識別等多頃機器學習和深度學習領域。 TensorFlow是一個採用數據流圖（data flow graphs），用於數值計算的開源軟件庫。節點（Nodes）在圖中表示數學操作，圖中的線（edges）則表示在節點間相互聯繫的多維數據數組，即張量（tensor）。它靈活的架構讓你可以在多種平臺上展開計算，例如臺式計算機中的一個或多個CPU（或GPU），服務器，移動設備等等。 TensorFlow最初由Google大腦小組（隸屬於Google機器智能研究機構）的研究員和工程師們開發出來，用於機器學習和深度神經網絡方面的研究，但這個系統的通用性使其也可廣泛用於其他計算領域。

4.jieba

jieba即中文“結巴”的拼音，是廣泛使用的中文分詞工具，具有以下特點：

有三種分詞模式可供選擇：精確模式，全模式和搜索引擎模式
詞性標註和返回詞語在原文的起止位置（ Tokenize）
可加入自定義字典
代碼對 Python 2/3 均兼容
支持多種語言，支持簡體繁體

5.Stanford NLP

Stanford NLP提供了一系列自然語言分析工具。它能夠給出基本的詞形，詞性，不管是公司名還是人名等，格式化的日期，時間，量詞，並且能夠標記句子的結構，語法形式和字詞依賴，指明那些名字指向同樣的實體，指明情緒，提取發言中的開放關係等。

6.Hanlp

HanLP是由一系列模型與算法組成的Java工具包，目標是普及自然語言處理在生產環境中的應用。HanLP具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。主要用於中文分詞，詞性標註，命名實體識別，依存句法分析，關鍵詞提取，新詞發現，短語提取，自動摘要，文本分類

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

自然語言處理基本概念及基礎工具

基本概念

1.分詞

2.詞性標註

3.命名實體識別

基礎工具

1.NumPy

2.NLTK

3.Gensim

4.Tensorflow

4.jieba

5.Stanford NLP

6.Hanlp

使用序列標註方法進行關係抽取的相關論文推薦

消息隊列kafka知識總結

kubernetes集羣Pod詳細信息爲Failed create pod sandbox，缺失鏡像google_containers/pause-amd64.3.0解決方法

AAAI論文Joint Extraction of Entities and Overlapping Relations Using Position-Attentive Sequence閱讀筆記

HDFS分佈式文件系統知識總結

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結