8.HanLP實現--命名實體識別

文章目錄

8. 命名實體識別

筆記轉載於GitHub項目：https://github.com/NLP-LOVE/Introduction-NLP

8. 命名實體識別

8.1 概述

命名實體

文本中有一些描述實體的詞彙。比如人名、地名、組織機構名、股票基金、醫學術語等，稱爲命名實體。具有以下共性:
- 數量無窮。比如宇宙中的恆星命名、新生兒的命名不斷出現新組合。
- 構詞靈活。比如中國工商銀行，既可以稱爲工商銀行，也可以簡稱工行。
- 類別模糊。有一些地名本身就是機構名，比如“國家博物館”
命名實體識別

識別出句子中命名實體的邊界與類別的任務稱爲命名實體識別。由於上述難點，命名實體識別也是一個統計爲主、規則爲輔的任務。

對於規則性較強的命名實體，比如網址、E-mail、IBSN、商品編號等，完全可以通過正則表達式處理，未匹配上的片段交給統計模型處理。

命名實體識別也可以轉化爲一個序列標註問題。具體做法是將命名實體識別附着到{B,M,E,S}標籤，比如，構成地名的單詞標註爲“B/ME/S- 地名”，以此類推。對於那些命名實體邊界之外的單詞，則統一標註爲0 ( Outside )。具體實施時，HanLP做了一個簡化，即所有非複合詞的命名實體都標註爲S，不再附着類別。這樣標註集更精簡，模型更小巧。

命名實體識別實際上可以看作分詞與詞性標註任務的集成: 命名實體的邊界可以通過{B,M,E,S}確定，其類別可以通過 B-nt 等附加類別的標籤來確定。

HanLP內部提供了語料庫轉換工序，用戶無需關心，只需要傳入 PKU 格式的語料庫路徑即可。

8.2 基於隱馬爾可夫模型序列標註的命名實體識別

之前我們就介紹過隱馬爾可夫模型，詳細見: 4.隱馬爾可夫模型與序列標註

隱馬爾可夫模型命名實體識別代碼見(自動下載 PKU 語料庫): hmm_ner.py

https://github.com/NLP-LOVE/Introduction-NLP/tree/master/code/ch08/hmm_ner.py

運行代碼後結果如下:

華北電力公司/nt 董事長/n 譚旭光/nr 和/c 祕書/n 胡花蕊/nr 來到/v 美國紐約/ns 現代/ntc 藝術/n 博物館/n 參觀/v

其中機構名“華北電力公司”、人名“譚旭光”“胡花蕊”全部識別正確。但是地名“美國紐約現代藝術博物館”則無法識別。有以下兩個原因:

PKU 語料庫中沒有出現過這個樣本。
隱馬爾可夫模型無法利用詞性特徵。

對於第一個原因，只能額外標註一些語料。對於第二個原因可以通過切換到更強大的模型來解決。

8.3 基於感知機序列標註的命名實體識別

之前我們就介紹過感知機模型，詳細見: 5.感知機分類與序列標註

感知機模型詞性標註代碼見(自動下載 PKU 語料庫): perceptron_ner.py

https://github.com/NLP-LOVE/Introduction-NLP/tree/master/code/ch08/perceptron_ner.py

運行會有些慢，結果如下:

華北電力公司/nt 董事長/n 譚旭光/nr 和/c 祕書/n 胡花蕊/nr 來到/v [美國紐約/ns 現代/ntc 藝術/n 博物館/n]/ns 參觀/v

與隱馬爾可夫模型相比，已經能夠正確識別地名了。

8.4 基於條件隨機場序列標註的命名實體識別

之前我們就介紹過條件隨機場模型，詳細見: 6.條件隨機場與序列標註

條件隨機場模型詞性標註代碼見(自動下載 PKU 語料庫): crf_ner.py

https://github.com/NLP-LOVE/Introduction-NLP/tree/master/code/ch08/crf_ner.py

運行時間會比較長，結果如下:

華北電力公司/nt 董事長/n 譚旭光/nr 和/c 祕書/n 胡花蕊/nr 來到/v [美國紐約/ns 現代/ntc 藝術/n 博物館/n]/ns 參觀/v

得到了結果是一樣的。

8.5 命名實體識別標準化評測

各個命名實體識別模塊的準確率如何，並非只能通過幾個句子主觀感受。任何監督學習任務都有一套標準化評測方案，對於命名實體識別，按照慣例引入P、R 和 F1 評測指標。

在1998年1月《人民日報》語料庫上的標準化評測結果如下:

模型	P	R	F1
隱馬爾可夫模型	79.01	30.14	43.64
感知機	87.33	78.98	82.94
條件隨機場	87.93	73.75	80.22

值得一提的是，準確率與評測策略、特徵模板、語料庫規模息息相關。通常而言，當語料庫較小時，應當使用簡單的特徵模板，以防止模型過擬合；當語料庫較大時，則建議使用更多特徵，以期更高的準確率。當特徵模板固定時，往往是語料庫越大，準確率越高。

8.6 自定義領域命名實體識別

以上我們接觸的都是通用領域上的語料庫，所含的命名實體僅限於人名、地名、機構名等。假設我們想要識別專門領域中的命名實體，這時，我們就要自定義領域的語料庫了。

標註領域命名實體識別語料庫

首先我們需要收集一些文本，作爲標註語料庫的原料，稱爲生語料。由於我們的目標是識別文本中的戰鬥機名稱或型號，所以生語料的來源應當是些軍事網站的報道。在實際工程中，求由客戶提出，則應當由該客戶提供生語料。語料的量級越大越好，一般最低不少於數千個句子。

生語料準備就緒後，就可以開始標註了。對於命名實體識別語料庫，若以詞語和詞性爲特徵的話，還需要標註分詞邊界和詞性。不過我們不必從零開始標註，而可以在HanLP的標註基礎上進行校正，這樣工作量更小。

樣本標註了數千個之後，生語料就被標註成了熟語料。下面代碼自動下載語料庫。

訓練領域模型

選擇感知機作爲訓練算法(自動下載戰鬥機語料庫): plane_ner.py

https://github.com/NLP-LOVE/Introduction-NLP/tree/master/code/ch08/plane_ner.py

運行結果如下:

下載 http://file.hankcs.com/corpus/plane-re.zip 到 /usr/local/lib/python3.7/site-packages/pyhanlp/static/data/test/plane-re.zip
100.00%, 0 MB, 552 KB/s, 還有 0 分  0 秒   
米高揚/nrf 設計/v [米格/nr -/w 17/m PF/nx]/np ：/w [米格/nr -/w 17/m]/np PF/n 型/k 戰鬥機/n 比/p [米格/nr -/w 17/m P/nx]/np 性能/n 更好/l 。/w
[米格/nr -/w 阿帕奇/nrf -/w 666/m S/q]/np 橫空出世/l 。/w

這句話已經在語料庫中出現過，能被正常識別並不意外。我們可以僞造一款“米格-阿帕奇-666S”戰鬥機，試試模型的繁華能力，發現依然能夠正確識別。

8.7 GitHub

HanLP何晗–《自然語言處理入門》筆記：

https://github.com/NLP-LOVE/Introduction-NLP

項目持續更新中…

章節
第 1 章：新手上路
第 2 章：詞典分詞
第 3 章：二元語法與中文分詞
第 4 章：隱馬爾可夫模型與序列標註
第 5 章：感知機分類與序列標註
第 6 章：條件隨機場與序列標註
第 7 章：詞性標註
第 8 章：命名實體識別
第 9 章：信息抽取
第 10 章：文本聚類
第 11 章：文本分類
第 12 章：依存句法分析
第 13 章：深度學習與自然語言處理

8.HanLP實現--命名實體識別

文章目錄

8. 命名實體識別

8.1 概述

8.2 基於隱馬爾可夫模型序列標註的命名實體識別

8.3 基於感知機序列標註的命名實體識別

8.4 基於條件隨機場序列標註的命名實體識別

8.5 命名實體識別標準化評測

8.6 自定義領域命名實體識別

8.7 GitHub

移位操作搞定兩數之商

如何基於surging跨網關跨語言進行緩存降級

2024合集

程序員天天 CURD，怎麼才能成長，職業發展的思考(2)

教你用Perl實現Smgp協議

如何通過前端表格控件在10分鐘內完成一張分組報表？

win11關閉自動檢測病毒刪文件

通用代碼生成器簡介

lightdb 單機模式下數據庫平移

千兆寬帶實際網速能到達多少？

BERT預訓練模型的演進過程！(附代碼)

Transformer各層網絡結構詳解！面試必備！(附代碼實現)

XLNet預訓練模型，看這篇就夠了！(代碼實現)

seq2seq通俗理解----編碼器和解碼器(TensorFlow實現)

【Model Log】模型評估指標可視化，自動畫Loss、Accuracy曲線圖工具，無需人工參與!

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結