書蘊——基於書評的智能推薦系統
前言
計算機設計大賽在即,和冬瑜、承意組隊參加人工智能組,報的題目的:書蘊——基於書評的智能書籍推薦系統。
主體上是去做一個web系統,系統的核心功能是書籍收藏與書籍推薦。根據用戶收藏書籍的書評(劃重點了),來爲用戶推薦書籍
創新點
- 基於書籍標籤協同過濾算法
- 基於word2vec方法的自然語言處理
- 標籤抽取(這個名詞還沒想好)
思路
- 數據獲取
- 數據文本預處理
- 訓練word2vec模型
- 使用word2vec模型迭代獲取標籤
- 協同過濾算法對標籤處理,實現推薦
- web系統
數據獲取篇
主要是冬瑜寫的python爬蟲,來源是豆瓣讀書,目前效率較爲低下,正在盡力找到有效的方案
數據文本預處理
- 去除html標籤與換行
- 去除停用詞
- 分詞
- 保存爲文本
具體內容記錄在另一篇博客:[書蘊筆記-0]文本預處理
訓練word2vec模型
主要使用python的gensim包下的word2vec訓練模型,模型以每本書的所有書評爲主體。
之後可能考慮用一類書的書評整體訓練模型。
基於 Gensim 的 Word2Vec 實踐
Deep learning with word2vec
以下參數解釋來自博客:word2vec詞向量訓練及gensim的使用
參數解釋:
- sg=1是skip-gram算法,對低頻詞敏感;默認sg=0爲CBOW算法。
- size是輸出詞向量的維數,值太小會導致詞映射因爲衝突而影響結果,值太大則會耗內存並使算法計算變慢,一般值取爲100到200之間。
- window是句子中當前詞與目標詞之間的最大距離,3表示在目標詞前看3-b個詞,後面看b個詞(b在0-3之間隨機)。
- min_count是對詞進行過濾,頻率小於min-count的單詞則會被忽視,默認值爲5。
- negative和sample可根據訓練結果進行微調,sample表示更高頻率的詞被隨機下采樣到所設置的閾值,默認值爲1e-3。
- hs=1表示層級softmax將會被使用,默認hs=0且negative不爲0,則負採樣將會被選擇使用。
- workers控制訓練的並行,此參數只有在安裝了Cpython後纔有效,否則只能使用單核。
具體內容記錄在另一篇博客:(佔坑,等下寫) [書蘊筆記-1]word2vec模型訓練
使用word2vec模型迭代獲取標籤
通過模型vocabulary詞頻最高的5個詞查詢其距離最近的5個詞,迭代100詞,得到標籤集(數字僅實驗參考,具體會重新調整)
具體內容記錄在另一篇博客:(佔坑,等下寫) [書蘊筆記-2]使用word2vec模型迭代獲取標籤
協同過濾算法對標籤處理,實現推薦
還沒看,開會之後具體制定
web系統
寫個從前端到後臺的web