最近在看word2vec的使用,看的是下面這個教程:中英文維基百科語料上的Word2Vec實驗。
opencc介紹
opencc是一款非常實用的繁簡體字轉換工具,轉換速度非常快而且效果非常好。看了教程上面的各種安裝方式介紹,最後才發現其實直接使用apt-get命令安裝就能正常使用了。
opencc安裝與使用
" 一行命令搞定安裝 "
sudo apt-get install opencc
" 一行命令使用 "
opencc -i wiki.zh.text -o wiki.zh.text.jian -c zht2zhs.ini
其中wiki.zh.text爲輸入文本文件, wiki.zh.text.jian爲文本文件。zht2zhs.ini 是轉換方式,默認的是zhs2zht.ini,即簡體字轉爲繁體字。
使用演示
實驗結果表明還是非常不錯的,而且在我i5 2代CPU,8G內存的破機器上轉換944MB的文本好像只用了兩三分鐘。
原文爲繁體字
歐幾裏得 西元前三世紀的希臘數學家 現在被認為是幾何之父 此畫為拉斐爾的作品
雅典學院 數學 是利用符號語言研究數量
轉換後
歐幾里得 西元前三世紀的希臘數學家 現在被認爲是幾何之父 此畫爲拉斐爾的作品
雅典學院 數學 是利用符號語言研究數量