在Ubuntu上安装 SRILM 语言模型工具

翻译自Blog:Install SRILM on Ubuntu

在Ubuntu上安装SRILM比在Windows上简单得多。

  • 下载最新版本的SRILM,官方链接可能已经失效,github上有srilm-1.7.1版本,将下载的文件移至/Home
  • 打开终端,输入以下命令(默认目录为 /usr/share/srilm,如果要更改,需将其替换为对应的路径):
$ mkdir /usr/share/srilm
$ mv srilm-1.7.1.tar.gz /usr/share/srilm/
$ cd /usr/share/srilm
$ tar xvf srilm-1.7.1.tar.gz
  • 打开Makefile文件
$ sudo gedit Makefile
  • 修改Makefile:在第7行中,查找以下内容
# SRILM = /home/speech/stolcke/project/srilm/devel
  • 删除#并替换为此行:
$ SRILM = /usr/share/srilm
  • 保存并关闭文件。返回终端,使用超级用户权限sudo。如果遇到错误tcsh: command not found,请在再次尝试之前键入sudo apt-get install tcsh。如果您使用的是Ubuntu 32位:
$ sudo tcsh
$ sudo make NO_TCL=1 MACHINE_TYPE=i686-gcc4 World
$ sudo ./bin/i686-gcc4/ngram-count -help
  • 或者,如果它是Ubuntu 64位:
$ sudo tcsh
$ sudo make NO_TCL=1 MACHINE_TYPE=i686-gcc4 World
$ sudo ./bin/i686-gcc4/ngram-count -help

Execute SRILM
访问此链接下载相关的语料库和代码样例。将文件corpus.txt和vocab.txt(语料库中的单词)复制到路径\usr\share\srilm\bin\i686-gcc4(for 32 bit) 或\usr\share\srilm\i686-m64(for 64 bit)。手动复制可能不起作用,您可以使用Terminal,可以使用如下命令:

# for 64 bit
$ sudo cp vocab.txt '/usr/share/srilm/bin/i686-m64'
$ sudo cp corpus.txt '/usr/share/srilm/bin/i686-m64'

现在移到上面的文件夹并运行程序

$ cd '/usr/share/srilm/bin/i686-m64'
$ sudo ./ngram-count -vocab vocab.txt -text corpus.txt -order 3 -write count.txt -unk
$ sudo ./ngram-count -vocab vocab.txt -read count.txt -order 3 -lm lm.lm -gt1min 3 -gt1max 7 - gt2min 3 - gt2max 7 -gt3min 3 - gt3max 7

如果操作正确,您将在相应文件夹获得名为count.txtlm.lm的新文件。看看他们发生了什么事:))

注意:在命令行中,您可能会遇到诸如Permission denied之类的错误,然后应在前面添加 sudo,这将为您提供超级用户权限。例如,如果第4行出错,则应将其更改为sudo tar xvf srilm-1.7.1.tar.gz

参考:
SRILM_Tutorial_20080512.pdf
How do I install SRILM on ubuntu 14.04?

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章