在Ubuntu上安裝 SRILM 語言模型工具

翻譯自Blog:Install SRILM on Ubuntu

在Ubuntu上安裝SRILM比在Windows上簡單得多。

  • 下載最新版本的SRILM,官方鏈接可能已經失效,github上有srilm-1.7.1版本,將下載的文件移至/Home
  • 打開終端,輸入以下命令(默認目錄爲 /usr/share/srilm,如果要更改,需將其替換爲對應的路徑):
$ mkdir /usr/share/srilm
$ mv srilm-1.7.1.tar.gz /usr/share/srilm/
$ cd /usr/share/srilm
$ tar xvf srilm-1.7.1.tar.gz
  • 打開Makefile文件
$ sudo gedit Makefile
  • 修改Makefile:在第7行中,查找以下內容
# SRILM = /home/speech/stolcke/project/srilm/devel
  • 刪除#並替換爲此行:
$ SRILM = /usr/share/srilm
  • 保存並關閉文件。返回終端,使用超級用戶權限sudo。如果遇到錯誤tcsh: command not found,請在再次嘗試之前鍵入sudo apt-get install tcsh。如果您使用的是Ubuntu 32位:
$ sudo tcsh
$ sudo make NO_TCL=1 MACHINE_TYPE=i686-gcc4 World
$ sudo ./bin/i686-gcc4/ngram-count -help
  • 或者,如果它是Ubuntu 64位:
$ sudo tcsh
$ sudo make NO_TCL=1 MACHINE_TYPE=i686-gcc4 World
$ sudo ./bin/i686-gcc4/ngram-count -help

Execute SRILM
訪問此鏈接下載相關的語料庫和代碼樣例。將文件corpus.txt和vocab.txt(語料庫中的單詞)複製到路徑\usr\share\srilm\bin\i686-gcc4(for 32 bit) 或\usr\share\srilm\i686-m64(for 64 bit)。手動複製可能不起作用,您可以使用Terminal,可以使用如下命令:

# for 64 bit
$ sudo cp vocab.txt '/usr/share/srilm/bin/i686-m64'
$ sudo cp corpus.txt '/usr/share/srilm/bin/i686-m64'

現在移到上面的文件夾並運行程序

$ cd '/usr/share/srilm/bin/i686-m64'
$ sudo ./ngram-count -vocab vocab.txt -text corpus.txt -order 3 -write count.txt -unk
$ sudo ./ngram-count -vocab vocab.txt -read count.txt -order 3 -lm lm.lm -gt1min 3 -gt1max 7 - gt2min 3 - gt2max 7 -gt3min 3 - gt3max 7

如果操作正確,您將在相應文件夾獲得名爲count.txtlm.lm的新文件。看看他們發生了什麼事:))

注意:在命令行中,您可能會遇到諸如Permission denied之類的錯誤,然後應在前面添加 sudo,這將爲您提供超級用戶權限。例如,如果第4行出錯,則應將其更改爲sudo tar xvf srilm-1.7.1.tar.gz

參考:
SRILM_Tutorial_20080512.pdf
How do I install SRILM on ubuntu 14.04?

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章