需要代碼的可以聯繫我,python建議用anaconda,非常強大
安裝gensim
pip install gensim
步驟
將xml的文件轉換成txt文件
python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.cn.text
得到wiki.cn.text
繁體轉成簡體
opencc windows
1.進入opencc文件中
2.把簡繁轉換的源文件(例如是深藍詞庫轉換出來的無拼音純簡體字文檔)放在D:\opencc目錄下,假設是sc.txt
2.打開命令提示符,進入D:\opencc目錄
3.鍵入opencc -i wiki.cn.text -o wiki.cn.text.jian -c t2s.json
(也可鍵入“opencc –help”參閱詳細命令說明)
4.轉換後的文檔就是 wiki.cn.text.jian,同樣在D:\opencc目錄下
結巴分詞
python separate_words.py wiki.cn.text.jian wiki.cn.text.jian.seq
得到wiki.cn.text.jian.seq
去除多餘的其他字符
python remove_words.py wiki.cn.text.jian.seq wiki.cn.text.jian.removed
得到wiki.cn.text.jian.removed
訓練模型
python train_word2vec_model.py wiki.cn.text.jian.removed wiki.en.text.jian.model wiki.en.text.jian.vector
其中wiki.en.text.jian.model是我們訓練出來的模型
模型測試
python test_model.py