京東手機評論新詞識別

目標: 把jieba分詞開源的詞典作爲基礎詞典,從東上的手機評論中,找出新詞。

先從京東上把評論抓下來。京東只讓看到每個商品的前1000條評論,經過清洗、大小寫轉換、簡繁體轉換、排重後共100M數據。

統計高頻詞,採集特徵。特徵包括自由度、左右熵、詞頻,首尾字的成詞能力,3個與詞性相關的特徵等,共10多個特徵。

經過一些測試根據經驗值得到一個簡單的決策樹模型,用這個模型的測試結果並加以人工整理來創建一個小規模的測試樣本集合。

用這個測試樣本集合來訓練隨機森林和神經網絡(keras平臺),然後在整數據集上來進行分類預測,識別出的新詞經人工整理後再訓練模型。這個case裏隨機森林的準確率和召回率高於神經網絡。

經過幾次迭代後,識別新詞13000多。

以後有時間準備在筆記本評論裏面跑一下得出的隨機森林模型。

目前發現的13000多個新詞:

https://download.csdn.net/download/qq_14913617/12385499

京東手機評論上用NB方法得出的的jieba詞典+13000新詞的情感極性

https://download.csdn.net/download/qq_14913617/12394373

京東手機評論100M語料庫:

https://blog.csdn.net/qq_14913617/article/details/105910059

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章