重磅福利!騰訊 AI Lab 開源大規模高質量中文詞向量數據,800 萬中文詞隨你用!

今日,騰訊 AI Lab 宣佈開源大規模、高質量的中文詞向量數據。該數據包含 800 多萬中文詞彙,相比現有的公開數據,在覆蓋率、新鮮度及準確性上大幅提高,爲對話回覆質量預測和醫療實體識別等自然語言處理方向的業務應用帶來顯著的效能提升。針對業界現有的中文詞向量公開數據的稀缺和不足,騰訊 AI Lab 此次開源,可爲中文環境下基於深度學習的自然語言處理(NLP)模型訓練提供高質量的底層支持,推動學術研究和工業應用環境下中文 NLP 任務效果的提升。

數據下載地址:https://ai.tencent.com/ailab/nlp/embedding.html

近年來,深度學習技術在自然語言處理領域中得到了廣泛應用。基於深度神經網絡的模型已經在詞性標註、命名實體識別、情感分類等諸多任務上顯著超越了傳統模型。用深度學習技術來處理自然語言文本,離不開文本的向量化,即把一段文本轉化成一個 n 維的向量。在大量任務中,作爲千變萬化的文本向量化網絡架構的共同底層,嵌入層(Embedding Layer)負責詞彙(文本的基本單元)到向量(神經網絡計算的核心對象)的轉換,是自然語言通向深度神經網絡的入口。大量的學界研究和業界實踐證明,使用大規模高質量的詞向量初始化嵌入層,可以在更少的訓練代價下得到性能更優的深度學習模型。

目前,針對英語環境,工業界和學術界已發佈了一些高質量的詞向量數據,並得到了廣泛的使用和驗證。其中較爲知名的有谷歌公司基於 word2vec 算法[1]、斯坦福大學基於 GloVe 算法[2]、Facebook 基於 fastText 項目[3]發佈的數據等。然而,目前公開可下載的中文詞向量數據[3,4]還比較少,並且數據的詞彙覆蓋率有所不足,特別是缺乏很多短語和網絡新詞。

騰訊 AI Lab 詞向量的特點

騰訊 AI Lab 此次公開的中文詞向量數據包含 800 多萬中文詞彙,其中每個詞對應一個 200 維的向量。相比現有的中文詞向量數據,騰訊 AI Lab 的中文詞向量着重提升了以下 3 個方面,相比已有各類中文詞向量大大改善了其質量和可用性:

1. 覆蓋率(Coverage):

該詞向量數據包含很多現有公開的詞向量數據所欠缺的短語,比如“不念僧面唸佛面”、“冰火兩重天”、“煮酒論英雄”、“皇帝菜”、“喀拉喀什河”等。以“喀拉喀什河”爲例,利用騰訊 AI Lab 詞向量計算出的語義相似詞如下:

墨玉河、和田河、玉龍喀什河、白玉河、喀什河、葉爾羌河、克里雅河、瑪納斯河

2. 新鮮度(Freshness):

該數據包含一些最近一兩年出現的新詞,如“戀與製作人”、“三生三世十里桃花”、“打 call ”、“十動然拒”、“供給側改革”、“因吹斯汀”等。以“因吹斯汀”爲例,利用騰訊 AI Lab 詞向量計算出的語義相似詞如下:

一顆賽艇、因吹斯聽、城會玩、厲害了 word 哥、emmmmm、扎心了老鐵、神吐槽、可以說是非常爆笑了

3. 準確性(Accuracy):

由於採用了更大規模的訓練數據和更好的訓練算法,所生成的詞向量能夠更好地表達詞之間的語義關係,如下列相似詞檢索結果所示:

得益於覆蓋率、新鮮度、準確性的提升,在內部評測中,騰訊 AI Lab 提供的中文詞向量數據相比於現有的公開數據,在相似度和相關度指標上均達到了更高的分值。在騰訊公司內部的對話回覆質量預測和醫療實體識別等業務場景中,騰訊 AI Lab 提供的中文詞向量數據都帶來了顯著的性能提升。

騰訊 AI Lab 詞向量的構建

爲了生成高覆蓋率、高新鮮度、高準確性的詞向量數據,騰訊 AI Lab 主要從以下 3 個方面對詞向量的構建過程進行了優化:

1. 語料採集:

訓練詞向量的語料來自騰訊新聞和天天快報的新聞語料,以及自行抓取的互聯網網頁和小說語料。大規模多來源語料的組合,使得所生成的詞向量數據能夠涵蓋多種類型的詞彙。而採用新聞數據和最新網頁數據對新詞建模,也使得詞向量數據的新鮮度大爲提升。

2. 詞庫構建:

除了引入維基百科和百度百科的部分詞條之外,還實現了 Shi 等人於 2010 年提出的語義擴展算法 [5],可從海量的網頁數據中自動發現新詞——根據詞彙模式和超文本標記模式,在發現新詞的同時計算新詞之間的語義相似度。

3. 訓練算法:

騰訊 AI Lab 採用自研的 Directional Skip-Gram (DSG)算法 [6] 作爲詞向量的訓練算法。DSG 算法基於廣泛採用的詞向量訓練算法 Skip-Gram (SG),在文本窗口中詞對共現關係的基礎上,額外考慮了詞對的相對位置,以提高詞向量語義表示的準確性。

此份中文詞向量數據的開源,是騰訊 AI Lab 依託公司數據源優勢,對自身基礎 AI 能力的一次展示,將爲中文環境下基於深度學習的 NLP 模型訓練提供高質量的底層支持,推動學術研究和工業應用環境下中文 NLP 任務效果的提升。

除發佈此份中文詞向量數據外,騰訊 AI Lab 長期以來在文本表示學習方面有着持續的投入,相關研究成果近期在 ACL、EMNLP、IJCAI 等自然語言處理及人工智能頂級會議上發表[7,8,9,10],並被應用於多個落地場景。未來,騰訊 AI Lab 將着眼於常規文本與社交媒體文本兩種不同的文本類型,繼續探索詞彙、詞組/實體、句子/消息、篇章/對話等各粒度文本對象的語義建模和理解,爲自然語言處理領域的重要應用提供基礎支持。

參考文獻

[1] Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S. Corrado, and Jeffrey Dean:Distributed Representations of Words and Phrases and their Compositionality. NIPS 2013.

[2] Jeffrey Pennington, Richard Socher, and Christopher D. Manning. GloVe: Global Vectors for Word Representation. EMNLP 2014.

[3] P. Bojanowski, E. Grave, A. Joulin, T. Mikolov, Enriching Word Vectors with Subword Information. TACL 2017 (5).

[4] Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, Xiaoyong Du. Analogical Reasoning on Chinese Morphological and Semantic Relations. ACL 2018.

[5] Shuming Shi, Huibin Zhang, Xiaojie Yuan, and Ji-Rong Wen. Corpus-based Semantic Class Mining: Distributional vs. Pattern-Based Approaches. COLING 2010.

[6] Yan Song, Shuming Shi, Jing Li, and Haisong Zhang. Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings. NAACL 2018.

[7] Jialong Han, Yan Song, Wayne Xin Zhao, Shuming Shi, and Haisong Zhang. hyperdoc2vec: Distributed Representations of Hypertext Documents. ACL 2018.

[8] Jichuan Zeng, Jing Li, Yan Song, Cuiyun Gao, Michael R. Lyu, and Irwin King. Topic Memory Networks for Short Text Classification. EMNLP 2018.

[9] Yan Song and Shuming Shi. Complementary Learning of Word Embeddings. IJCAI 2018.

[10] Yan Song, Shuming Shi, and Jing Li. Joint Learning Embeddings for Chinese Words and their Components via Ladder Structured Networks. IJCAI 2018.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章