【自然語言處理】對評論進行處理的推薦系統的論文總結

NLP語料庫介紹的以及連接

騰訊語料庫

數據鏈接：
https://ai.tencent.com/ailab/nlp/embedding.html
數據簡介：
騰訊AI實驗室宣佈，正式開源一個大規模、高質量的中文詞向量數據集。

該數據包含800多萬中文詞彙，相比現有的公開數據集，在覆蓋率、新鮮度及準確性上大幅提高。

在對話回覆質量預測、醫療實體識別等自然語言處理方向的業務應用方面，騰訊內部效果提升顯著。
數據特點：
總體來講，騰訊AI實驗室此次公開的中文詞向量數據集包含800多萬中文詞彙，其中每個詞對應一個200維的向量。

具體方面，騰訊自稱，該數據集着重在3方面進行了提升：

覆蓋率（Coverage）：

該詞向量數據集包含很多現有公開的詞向量數據集所欠缺的短語，比如“不念僧面唸佛面”、“冰火兩重天”、“煮酒論英雄”、“皇帝菜”、“喀拉喀什河”等。

以“喀拉喀什河”爲例，利用騰訊AI Lab詞向量計算出的語義相似詞如下：

墨玉河、和田河、玉龍喀什河、白玉河、喀什河、葉爾羌河、克里雅河、瑪納斯河

新鮮度（Freshness）：

該數據集包含一些最近一兩年出現的新詞，如“戀與製作人”、“三生三世十里桃花”、“打call”、“十動然拒”、“供給側改革”、“因吹斯汀”等。

以“因吹斯汀”爲例，利用騰訊AI Lab詞向量計算出的語義相似詞如下：

一顆賽艇、因吹斯聽、城會玩、厲害了word哥、emmmmm、扎心了老鐵、神吐槽、可以說是非常爆笑了

準確性（Accuracy）：

由於採用了更大規模的訓練數據和更好的訓練算法，所生成的詞向量能夠更好地表達詞之間的語義關係，如下列相似詞檢索結果所示：

在開源前，騰訊內部經歷了多次測評，認爲該數據集相比於現有的公開數據集，在相似度和相關度指標上均達到了更高的分值。

github上40個nlp中文語料庫

數據鏈接：
https://github.com/fighting41love/funNLP
數據簡介：
包括中英文敏感詞、語言檢測、中外手機/電話歸屬地/運營商查詢、名字推斷性別、手機號抽取、身份證抽取、郵箱抽取、中日文人名庫、中文縮寫庫、拆字詞典。

詞彙情感值、停用詞、反動詞表、暴恐詞表、繁簡體轉換、英文模擬中文發音、汪峯歌詞生成器、職業名稱詞庫、同義詞庫、反義詞庫。

否定詞庫、汽車品牌詞庫、汽車零件詞庫、連續英文切割、各種中文詞向量、公司名字大全、古詩詞庫、IT詞庫、財經詞庫、成語詞庫。

地名詞庫、歷史名人詞庫、詩詞詞庫、醫學詞庫、飲食詞庫、法律詞庫、汽車詞庫、動物詞庫、中文聊天語料、中文謠言數據。

標題分析

標題分析主要分四步：

第一步先做分詞。把第一行變成第二行，打空格用了很多算法、詞表、人工、優化的思路；

第二步是實體打標。需要知道每個詞語是什麼含義，粉紅大布娃娃是個品牌，泡泡袖是個袖型等等，這樣你的搜索引擎就更加智能一點；

第三步是熱度計算。把熱度分數識別出來，因爲串裏面每個詞不是等價的，有些重要性非常高，有些重要性非常低；

第四步是中心識別。我們用依存句法分析方法來做，表達這個句子的最核心關係就是春裝連衣裙，這裏面可以做進一步的簡化，選取合適的某一個維度的信息。這樣，你的數據庫就非常好了，可以做很多深入的工作。

輿情文本分析

關於輿情文本分析，我們有文本的分類、標籤和文檔聚類技術。假如你在手機淘寶app評價寫了一堆東西，就進入了我們的流程。我們的系統叫摩天輪，會自動的把你寫的每一條評論做各種各樣的分析和處理，包括聚類的和標籤的很細粒度的解析。

【自然語言處理】對評論進行處理的推薦系統的論文總結

【自然語言處理】對評論進行處理的推薦系統的論文總結

NLP語料庫介紹的以及連接

騰訊語料庫

github上40個nlp中文語料庫

推薦系統中常見的文本處理方法

詞袋模型 BOW

推薦系統中的應用

存在的問題

解決思路

詞袋模型升級版 N-gram詞袋模型

TF-IDF權重計算方法

隱語義模型LSA （Latent Semantic Analysis）

阿里自然語言處理部總監分享：NLP技術的應用及思考

標題分析

輿情文本分析

基於大數據個性化音樂推薦算法分析（附代碼github地址）

【計算機視覺】（一）

pyspark學習---1、mac：pyspark安裝以及各種運行方法測試以及報錯解決方案

數據開發面試準備資料彙總

Micro Behaviors:A New Perspective in E-commerce Recommendation 文章閱讀以及代碼實驗【數據集來自京東2019年比賽數據】

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結