書蘊——基於書評的人工智能推薦系統

書蘊——基於書評的智能推薦系統

前言

計算機設計大賽在即,和冬瑜、承意組隊參加人工智能組,報的題目的:書蘊——基於書評的智能書籍推薦系統。
主體上是去做一個web系統,系統的核心功能是書籍收藏與書籍推薦。根據用戶收藏書籍的書評(劃重點了),來爲用戶推薦書籍

創新點

  • 基於書籍標籤協同過濾算法
  • 基於word2vec方法的自然語言處理
  • 標籤抽取(這個名詞還沒想好)

思路

  1. 數據獲取
  2. 數據文本預處理
  3. 訓練word2vec模型
  4. 使用word2vec模型迭代獲取標籤
  5. 協同過濾算法對標籤處理,實現推薦
  6. web系統

數據獲取篇

主要是冬瑜寫的python爬蟲,來源是豆瓣讀書,目前效率較爲低下,正在盡力找到有效的方案

數據文本預處理

  • 去除html標籤與換行
  • 去除停用詞
  • 分詞
  • 保存爲文本

具體內容記錄在另一篇博客:[書蘊筆記-0]文本預處理

訓練word2vec模型

主要使用python的gensim包下的word2vec訓練模型,模型以每本書的所有書評爲主體。
之後可能考慮用一類書的書評整體訓練模型。

基於 Gensim 的 Word2Vec 實踐
Deep learning with word2vec

以下參數解釋來自博客:word2vec詞向量訓練及gensim的使用
參數解釋:

  • sg=1是skip-gram算法,對低頻詞敏感;默認sg=0爲CBOW算法。
  • size是輸出詞向量的維數,值太小會導致詞映射因爲衝突而影響結果,值太大則會耗內存並使算法計算變慢,一般值取爲100到200之間。
  • window是句子中當前詞與目標詞之間的最大距離,3表示在目標詞前看3-b個詞,後面看b個詞(b在0-3之間隨機)。
  • min_count是對詞進行過濾,頻率小於min-count的單詞則會被忽視,默認值爲5。
  • negative和sample可根據訓練結果進行微調,sample表示更高頻率的詞被隨機下采樣到所設置的閾值,默認值爲1e-3。
  • hs=1表示層級softmax將會被使用,默認hs=0且negative不爲0,則負採樣將會被選擇使用。
  • workers控制訓練的並行,此參數只有在安裝了Cpython後纔有效,否則只能使用單核。

具體內容記錄在另一篇博客:(佔坑,等下寫) [書蘊筆記-1]word2vec模型訓練

使用word2vec模型迭代獲取標籤

通過模型vocabulary詞頻最高的5個詞查詢其距離最近的5個詞,迭代100詞,得到標籤集(數字僅實驗參考,具體會重新調整)

具體內容記錄在另一篇博客:(佔坑,等下寫) [書蘊筆記-2]使用word2vec模型迭代獲取標籤

協同過濾算法對標籤處理,實現推薦

還沒看,開會之後具體制定

web系統

寫個從前端到後臺的web

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章