Tesseract-ocr在Ubuntu12.04下的安裝下詳解

本文主要講Tesseract-OCR在Ubuntu12.04下的具體安裝過程。
1.安裝前必備的包
一般Ubuntu系統都配置好了
  sudo apt-get install  gcc
  sudo apt-get install  g++
  sudo apt-get install  automake
而爲了支持除了tif格式之外的圖片,我們可以安裝以下
  sudo apt-get install  libpng12-dev
  sudo apt-get install  libjpeg62-dev

  sudo apt-get install  libtiff4-dev


2.安裝leptonlib
  tesseract-ocr依賴於leptonlib,所以下面給出了2種方法安裝leptonlib-1.6.8
(1)通過wget下載包,然後再解壓安裝
  wget  http://www.leptonica.org/source/leptonlib-1.67.tar.gz
  tar -zxvf  leptonlib-1.67.tar.gz
  cd leptonlib-1.67
  ./configure
  make
  make install
  注意:在configure的時候可以選擇最終的安裝路徑,比如安裝在/home/administrator/tesseract-ocr目錄下邊:
 ./configure --prefix=//home/administrator/tesseract-ocr
 本博文選擇的是默認安裝。
(2)直接通過sudo安裝
    sudo apt-get install libleptonica-dev
    下載完源文件包後,進入當前目錄
   ./configure
   make
   sudo make install

3.安裝Tesseract-ocr
  wget http://tesseract-ocr.googlecode.com/files/tesseract-3.00.tar.gz
  tar -zxvf  tesseract-3.00.tar.gz
  cd tesseract-3.00
  ./configure
  make
 make install
 注意:
 ./configure --prefix=/home/administrator/tesseract-ocr 

 與leptonlib-1.67安裝目錄相同。本博文選擇默認安裝。


4.安裝語言包
(1)英文支持包
cd /usr/local/share/tessdata
sudo wget http://tesseract-ocr.googlecode.com/files/eng.traineddata.gz
sudo gunzip eng.traineddata.gz

也可以下載完解壓好之後移動到相應的安裝目錄下
1.gzip -d eng.traineddata.gz
移動到安裝目錄下,默認的地方是/usr/local/share/tessdata
mv eng.traineddata /usr/local/share/tessdata
export TESSDATA_PREFIX=/usr/local/share

(2)中文支持包
cd /usr/local/share/tessdata
sudo wget http://tesseract-ocr.googlecode.com/files/chi_sim.traineddata.gz
sudo gunzip chi_sim.traineddata.gz

同樣的,可以下載完中文支持包後解壓完移動到相應的安裝目錄下,參照英文包

5.配置環境變量
查看PATH環境變量,可以用echo $PATH命令查詢
通常設置環境變量有三種方法:
(1)、臨時設置
  export PATH=/usr/local/tesseract-cor/bin:$PATH
(2)、當前用戶的全局設置
 打開~/.bashrc,添加行:
 export PATH=/usr/local/tesseract-cor/bin:$PATH
然後運行source bashrc使生效
(3)、所有用戶的全局設置
  $ vim /etc/profile
  在裏面加入:
  export PATH=/usr/local/tesseract-cor/bin:$PATH
  然後運行source profile使生效

 本博文選擇第三種設置方式,在/etc/profile中加入環境變量
  export PATH=/usr/local/tesseract-cor/bin:$PATH
  export LD_LIBRARY_PATH=/usr/local/tesseract-ocr/lib:$LD_LIBRARY_PATH

6.測試
在終端輸入命令
tesseract picture.tif  test -l chi_sim
picture.tif是圖片,test是存放結果的test.txt文件,-l是指定使用的語言包參數,默認是英文

如果在測試時,出現問題,需要再次配置一下子ldconfig。
sudo gedit /etc/ld.so.conf
在其中添加:
/usr/local/tesseract-ocr/lib

然後sudo ldconfig


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章