word2vect實戰

需要代碼的可以聯繫我,python建議用anaconda,非常強大

安裝gensim

pip install gensim  

中文語料數據

英文語料數據

步驟

將xml的文件轉換成txt文件

python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.cn.text

得到wiki.cn.text

繁體轉成簡體

opencc windows

1.進入opencc文件中

2.把簡繁轉換的源文件(例如是深藍詞庫轉換出來的無拼音純簡體字文檔)放在D:\opencc目錄下,假設是sc.txt

2.打開命令提示符,進入D:\opencc目錄

3.鍵入opencc -i wiki.cn.text -o wiki.cn.text.jian -c t2s.json(也可鍵入“opencc –help”參閱詳細命令說明)

4.轉換後的文檔就是 wiki.cn.text.jian,同樣在D:\opencc目錄下

結巴分詞

python separate_words.py wiki.cn.text.jian wiki.cn.text.jian.seq 

得到wiki.cn.text.jian.seq

去除多餘的其他字符

python remove_words.py wiki.cn.text.jian.seq wiki.cn.text.jian.removed

得到wiki.cn.text.jian.removed

訓練模型

python train_word2vec_model.py wiki.cn.text.jian.removed wiki.en.text.jian.model wiki.en.text.jian.vector

其中wiki.en.text.jian.model是我們訓練出來的模型

模型測試

python test_model.py

中文語料訓練結果

英文語料訓練結果

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章