ubuntu繁簡體轉換 opencc的安裝與使用

最近在看word2vec的使用,看的是下面這個教程:中英文維基百科語料上的Word2Vec實驗

opencc介紹

opencc是一款非常實用的繁簡體字轉換工具,轉換速度非常快而且效果非常好。看了教程上面的各種安裝方式介紹,最後才發現其實直接使用apt-get命令安裝就能正常使用了。

opencc安裝與使用

" 一行命令搞定安裝 "
sudo apt-get install opencc
" 一行命令使用 "
opencc -i wiki.zh.text -o wiki.zh.text.jian -c zht2zhs.ini

其中wiki.zh.text爲輸入文本文件, wiki.zh.text.jian爲文本文件。zht2zhs.ini 是轉換方式,默認的是zhs2zht.ini,即簡體字轉爲繁體字。

使用演示

實驗結果表明還是非常不錯的,而且在我i5 2代CPU,8G內存的破機器上轉換944MB的文本好像只用了兩三分鐘。

原文爲繁體字

歐幾裏得 西元前三世紀的希臘數學家 現在被認為是幾何之父 此畫為拉斐爾的作品 
雅典學院 數學 是利用符號語言研究數量

轉換後

歐幾里得 西元前三世紀的希臘數學家 現在被認爲是幾何之父 此畫爲拉斐爾的作品 
雅典學院 數學 是利用符號語言研究數量
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章