TIP-LAS 藏語分詞工具使用

最近處理藏語語料的時候找到了李亞超老師的TIP-LAS,詳細介紹可見論文: TIP-LAS:一個開源的藏文分詞詞性標註系統
這個工具可以對藏語進行分詞、詞性標註處理。只是使用時遇到了一些問題,在此記錄。

1.安裝

論文中給出的github項目地址已經失效,現在的下載地址可見:TIP-LAS: An open source toolkit for Tibetan word segmentation and part of speech tagging
安裝方法已經在文檔中詳細寫出,我是在Linux環境下使用的此工具,也就是進入解壓後的主目錄然後使用make命令進行編譯即可,但是在編譯最後一個文件的時候出現了錯誤:

g++ -g -o ./tip-las utility/SentenceSplit.o utility/StringOperation.o utility/POSExtract.o utility/StringSplit.o utility/StringType.o utility/TextClassification.o utility/Tokenize.o taggin
g/Sample.o tagging/Model.o tagging/Decoder.o tagging/Perceptron.o Formatting.o Las.o Main.o -lpthread -ldl 
/usr/bin/ld:無法打開輸出文件 ./tip-las:是一個目錄

解決方法: 在解壓後的文件裏,會看到一個tip-las的空文件夾,在編譯之前刪掉即可。

2.運行

項目文檔中給出了訓練和測試的命令,也可以向李老師直接發郵件要一份已經訓練好的模型,李老師郵件地址可以在項目首頁文檔中找到(李老師回覆的還是很快的哈哈)

要注意的是進行測試的命令別忘了加上./,也就是在主文件下使用

./tip-las test ws/pos/all input output

進行處理目標藏語文件。
如果你也是使用的現成的模型文件,直接將ws.model文件放在主目錄下即可使用,輸出的結果文件默認也是在一個位置。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章