詞向量註記

搞自然語言處理,肯定還是要涉及詞向量的,因此準備寫下這篇博客,把一些零散的東西做做記錄。

谷歌 word2vec 在 mac 下安裝的問題

word2vec 項目的主頁在:https://code.google.com/archive/p/word2vec/ ,不過目前的下載地址已經掛了,源代碼我也是下載別人上傳的,比如我下載的是
word2vec-2014-10-29.tar ,解壓 (tar -xzvf word2vec-2014-10-29.tar )之後會生成 w2v 文件夾,這個 csdn 上已經有很多人上傳了。我先是在 linux 上安裝了一下,也跑通了 demo,都沒有問題。可是在我的 macbook 上無法 make 成功,有一些 c 的命令還是不太一樣。於是我搜到了這個:https://github.com/William-Yeh/word2vec-mac ,這個在 mac 上是可以用的。make 也成功了,只不過在跑 demo 的時候,比如運行

./demo-word.sh

的時候,也出了點問題。其實這個腳本是先下載了文本,然後訓練了模型,我的 macbook 之前的設置好像有所改動,用 curl 下載不下來,反倒是用本來的 wget 命令可以下載,這樣就可以成功了。以上文件夾的路徑均在 /Users/lxy444/Documents/NLP下。

值得一提的是,Github 上有相應的 python 版本,地址是:https://github.com/danielfrg/word2vec 。我的 Windows 臺式機上安裝的是 Anaconda,所以直接 pip install word2vec 就行了。我的 mac 上沒有安裝 Anaconda,直接用 pip 安裝時報錯了,索性採取了暴力的辦法,就是把整個文件夾下載了下來,用 python setup.py install 安裝的。對應的例子可參考這個:https://www.cnblogs.com/Newsteinwell/p/6034747.html

不過這個包與 gensim 包還略有不同。關於 gensim 包的例子,可參見: https://blog.csdn.net/MebiuW/article/details/52303622

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章