CRF++命名實體識別(NER)初步試探

背景

CRF++是著名的條件隨機場的開源工具,支持windows,linux系統。本文中CRF++,指的不是一種模型,不是一種算法,而是一個開源工具。

CRF++的官方文檔:http://taku910.github.io/crfpp/

Linux安裝CRF++

第一步。下載源碼,在官方文檔上,可以找到相關的下載鏈接。【需要翻牆】

 第二步,編譯與安裝

執行下面代碼。

% ./configure 
% make
% su
# make install

若是沒有root權限,則需要提前配置安裝位置

./configure --prefix=/home/kangyucheng/software/CRF
make
make install

可以看到安裝目錄下有三個文件夾,其中bin下面有兩個文件,如圖所示。這兩個文件就是等下要用的文件。

準備數據與腳本

新建文件夾,在文件夾中總共四個文件。

(1)train.txt

訓練文件,一列是文字,一列是標註的標籤

(2)text.txt和train.txt的格式一個樣子。

(3)template 是一個模版文件。從解壓的文件夾(源代碼 )中拷貝出來拷貝進來。

在/CRF++-0.58/example/seg文件夾下面。

 (4)腳本

/software/CRF/bin/crf_learn -c 4.0 template train.txt model
/software/CRF/bin/crf_test -m model test.txt >> output.txt

注意,把前面的路徑,換成自己的安裝路徑

訓練與運行

直接運行腳本 exec.sh

 結果如下

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章