【自然語言處理】對評論進行處理的推薦系統的論文總結

NLP語料庫介紹的以及連接

騰訊語料庫

數據鏈接:
https://ai.tencent.com/ailab/nlp/embedding.html
數據簡介:
騰訊AI實驗室宣佈,正式開源一個大規模、高質量的中文詞向量數據集。

該數據包含800多萬中文詞彙,相比現有的公開數據集,在覆蓋率、新鮮度及準確性上大幅提高。

在對話回覆質量預測、醫療實體識別等自然語言處理方向的業務應用方面,騰訊內部效果提升顯著。
數據特點:
總體來講,騰訊AI實驗室此次公開的中文詞向量數據集包含800多萬中文詞彙,其中每個詞對應一個200維的向量。

具體方面,騰訊自稱,該數據集着重在3方面進行了提升:

覆蓋率(Coverage):

該詞向量數據集包含很多現有公開的詞向量數據集所欠缺的短語,比如“不念僧面唸佛面”、“冰火兩重天”、“煮酒論英雄”、“皇帝菜”、“喀拉喀什河”等。

以“喀拉喀什河”爲例,利用騰訊AI Lab詞向量計算出的語義相似詞如下:

墨玉河、和田河、玉龍喀什河、白玉河、喀什河、葉爾羌河、克里雅河、瑪納斯河

新鮮度(Freshness):

該數據集包含一些最近一兩年出現的新詞,如“戀與製作人”、“三生三世十里桃花”、“打call”、“十動然拒”、“供給側改革”、“因吹斯汀”等。

以“因吹斯汀”爲例,利用騰訊AI Lab詞向量計算出的語義相似詞如下:

一顆賽艇、因吹斯聽、城會玩、厲害了word哥、emmmmm、扎心了老鐵、神吐槽、可以說是非常爆笑了

準確性(Accuracy):

由於採用了更大規模的訓練數據和更好的訓練算法,所生成的詞向量能夠更好地表達詞之間的語義關係,如下列相似詞檢索結果所示:

在開源前,騰訊內部經歷了多次測評,認爲該數據集相比於現有的公開數據集,在相似度和相關度指標上均達到了更高的分值。

github上40個nlp中文語料庫

數據鏈接:
https://github.com/fighting41love/funNLP
數據簡介:
包括中英文敏感詞、語言檢測、中外手機/電話歸屬地/運營商查詢、名字推斷性別、手機號抽取、身份證抽取、郵箱抽取、中日文人名庫、中文縮寫庫、拆字詞典。

詞彙情感值、停用詞、反動詞表、暴恐詞表、繁簡體轉換、英文模擬中文發音、汪峯歌詞生成器、職業名稱詞庫、同義詞庫、反義詞庫。

否定詞庫、汽車品牌詞庫、汽車零件詞庫、連續英文切割、各種中文詞向量、公司名字大全、古詩詞庫、IT詞庫、財經詞庫、成語詞庫。

地名詞庫、歷史名人詞庫、詩詞詞庫、醫學詞庫、飲食詞庫、法律詞庫、汽車詞庫、動物詞庫、中文聊天語料、中文謠言數據。

推薦系統中常見的文本處理方法

詞袋模型 BOW

認爲文檔是文檔中的詞組成的多重集合(和普通集合不同,考慮集合中元素出現的次數),不考慮語法和次序,只考慮詞的出現次數。

推薦系統中的應用

在推薦系統中,如果將一個物品看作一個詞袋,我們可以根據袋中的詞來召回相關物品,例如用戶瀏覽了一個包含“羽絨服”關鍵詞的商品,我們可以召回包含“羽絨服”的其他商品作爲該次推薦的候選商品,並且可以根據這個詞在詞袋中出現的次數(詞頻)對召回商品進行排序。

存在的問題

首先,將文本進行分詞後得到的詞裏面,並不是每個詞都可以用來做召回和排序,例如“的地得你我他”這樣的“停用詞”就該去掉,此外,一些出現頻率特別高或者特別低的詞也需要做特殊處理,否則會導致召回結果相關性低或召回結果過少等問題。

其次,使用詞頻來度量重要性也顯得合理性不足。以上面的“羽絨服”召回爲例,如果在羽絨服的類別裏使用“羽絨服”這個詞在商品描述中的出現頻率來衡量商品的相關性,會導致所有的羽絨服都具有類似的相關性,因爲在描述中大家都會使用類似數量的該詞彙。所以我們需要一種更爲科學合理的方法來度量文本之間的相關性。

解決思路

我們還可以將詞袋中的每個詞作爲一維特徵加入到排序模型中。例如,在一個以LR爲模型的CTR排序模型中,如果這一維特徵的權重爲w,則可解釋爲“包含這個詞的樣本相比不包含這個詞的樣本在點擊率的log odds上要高出w”。在排序模型中使用詞特徵的時候,爲了增強特徵的區分能力,我們常常會使用簡單詞袋模型的一種升級版——N-gram詞袋模型。

詞袋模型升級版 N-gram詞袋模型

N-gram指的就是把N個連續的詞作爲一個單位進行處理。例如**“John likes to watch movies.Mary likes movies too.”這句話處理爲簡單詞袋模型後的結果爲:**
在這裏插入圖片描述
處理爲2-gram的結果爲
在這裏插入圖片描述

TF-IDF權重計算方法

計算公式
在這裏插入圖片描述
將之前使用詞頻對物品進行排序的方法,改進爲根據TF-IDF得分進行排序。

隱語義模型LSA (Latent Semantic Analysis)

阿里自然語言處理部總監分享:NLP技術的應用及思考

原文鏈接:https://mp.weixin.qq.com/s/LntGZmP5jp0PgdcOGo-nWg
用戶需求:我要買秋天穿的紅色連衣裙
在這裏插入圖片描述
結構句法分析結果
在這裏插入圖片描述
對於電商而言,光有句法分析是不夠的,比如我要知道秋天的含義是說這是個適用季節,紅色是一個顏色分類,連衣裙是一個產品,要做到這一步纔會使得真正在電商裏面用起來。
比如我們用的是通用領域依存分析器,我們針對商品標題決定某一個依存句法分析器,假設某一個商品標題寫的是“我要買秋天穿的紅色連衣裙”,只需要把“秋天”、“紅色”、“連衣裙”這幾個關鍵的成分標出來,“我要買”和“穿的”對電商而言是沒有意義的,但會去做進一步的組合。
在這裏插入圖片描述
評論:
“雖然有點貴,不是很修身,但是顏色很亮,布料摸起來挺舒服的,圖案也好看。挺喜歡的。”
在這裏插入圖片描述
上圖是我們的情感分析結果,我們情感分析不但要知道整句的信息,比如說整句有藍色、淡藍色,淡藍色表示情感是正向的,整個句子表達的是一個比較褒義的結果,但不是非常滿意。

標題分析

在這裏插入圖片描述
標題分析主要分四步:

第一步先做分詞。把第一行變成第二行,打空格用了很多算法、詞表、人工、優化的思路;

第二步是實體打標。需要知道每個詞語是什麼含義,粉紅大布娃娃是個品牌,泡泡袖是個袖型等等,這樣你的搜索引擎就更加智能一點;

第三步是熱度計算。把熱度分數識別出來,因爲串裏面每個詞不是等價的,有些重要性非常高,有些重要性非常低;

第四步是中心識別。我們用依存句法分析方法來做,表達這個句子的最核心關係就是春裝連衣裙,這裏面可以做進一步的簡化,選取合適的某一個維度的信息。這樣,你的數據庫就非常好了,可以做很多深入的工作。

輿情文本分析

關於輿情文本分析,我們有文本的分類、標籤和文檔聚類技術。假如你在手機淘寶app評價寫了一堆東西,就進入了我們的流程。我們的系統叫摩天輪,會自動的把你寫的每一條評論做各種各樣的分析和處理,包括聚類的和標籤的很細粒度的解析。

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章