Word2Vec訓練過程中的加速問題

       學習ML/NLP的童鞋們都知道,word2vec是NLP的一個重要應用。Word2Vec是谷歌開源的一個將語言中字詞轉化爲向量形式表達的工具。它通過在大數據量上進行高效訓練而得到詞向量,使用詞向量可以很好地度量詞與詞之間的相似性。Word2Vec採用的模型包含了連續詞袋模型Continuous Bag of Words(簡稱:CBOW)和Skip-Gram模型,其中CBOW是從原始語句(比如:中國的首都是__)推測目標字詞(比如:北京);而Skip-Gram與CBOW正好相反,它是從目標字詞對原始語句進行推測。一般情況下,CBOW在小型語料中的表現良好,而Skip-Gram對大型數據集更爲合適。 針對CBOW和Skip-Gram的具體工作原理,可以參考https://www.cnblogs.com/pinard/p/7160330.html 和 https://blog.csdn.net/u010665216/article/details/78724856

        實際上,對於大規模訓練語料來講,訓練時間是非常寶貴的。在這種情況下,我們就需要考慮提高訓練速度。如下有兩個非常好的訓練速度提升的原理,供大家參考學習。https://www.cnblogs.com/Determined22/p/5807362.htmhttps://blog.csdn.net/qunnie_yi/article/details/80128024

        儘管word2vec取得了巨大的成功,並使得期應用非常廣泛。但是隨着技術的發展,它也不免被其他技術所取代。目前,有BERT、XLNet等先進的技術,在多項任務的性能上完全超過word2vec。推薦童鞋們關注和學習。

        

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章