書蘊——基於書評的智能推薦系統

前言

計算機設計大賽在即，和冬瑜、承意組隊參加人工智能組，報的題目的：書蘊——基於書評的智能書籍推薦系統。
主體上是去做一個web系統，系統的核心功能是書籍收藏與書籍推薦。根據用戶收藏書籍的書評（劃重點了），來爲用戶推薦書籍

創新點

基於書籍標籤協同過濾算法
基於word2vec方法的自然語言處理
標籤抽取（這個名詞還沒想好）

思路

數據獲取
數據文本預處理
訓練word2vec模型
使用word2vec模型迭代獲取標籤
協同過濾算法對標籤處理，實現推薦
web系統

數據獲取篇

主要是冬瑜寫的python爬蟲，來源是豆瓣讀書，目前效率較爲低下，正在盡力找到有效的方案

數據文本預處理

去除html標籤與換行
去除停用詞
分詞
保存爲文本

具體內容記錄在另一篇博客：[書蘊筆記-0]文本預處理

訓練word2vec模型

主要使用python的gensim包下的word2vec訓練模型，模型以每本書的所有書評爲主體。
之後可能考慮用一類書的書評整體訓練模型。

基於 Gensim 的 Word2Vec 實踐
 Deep learning with word2vec

以下參數解釋來自博客：word2vec詞向量訓練及gensim的使用
參數解釋：

sg=1是skip-gram算法，對低頻詞敏感；默認sg=0爲CBOW算法。

size是輸出詞向量的維數，值太小會導致詞映射因爲衝突而影響結果，值太大則會耗內存並使算法計算變慢，一般值取爲100到200之間。

window是句子中當前詞與目標詞之間的最大距離，3表示在目標詞前看3-b個詞，後面看b個詞（b在0-3之間隨機）。

min_count是對詞進行過濾，頻率小於min-count的單詞則會被忽視，默認值爲5。

negative和sample可根據訓練結果進行微調，sample表示更高頻率的詞被隨機下采樣到所設置的閾值，默認值爲1e-3。

hs=1表示層級softmax將會被使用，默認hs=0且negative不爲0，則負採樣將會被選擇使用。

workers控制訓練的並行，此參數只有在安裝了Cpython後纔有效，否則只能使用單核。

具體內容記錄在另一篇博客：~~（佔坑，等下寫）~~ [書蘊筆記-1]word2vec模型訓練

使用word2vec模型迭代獲取標籤

通過模型vocabulary詞頻最高的5個詞查詢其距離最近的5個詞，迭代100詞，得到標籤集（數字僅實驗參考，具體會重新調整）

具體內容記錄在另一篇博客：~~（佔坑，等下寫）~~ [書蘊筆記-2]使用word2vec模型迭代獲取標籤

協同過濾算法對標籤處理，實現推薦

還沒看，開會之後具體制定

web系統

寫個從前端到後臺的web

書蘊——基於書評的人工智能推薦系統

書蘊——基於書評的智能推薦系統

前言

創新點

思路

數據獲取篇

數據文本預處理

訓練word2vec模型

使用word2vec模型迭代獲取標籤

協同過濾算法對標籤處理，實現推薦

web系統

詐騙（殺豬盤）網站進行滲透測試

Python 潮流週刊#50：我最喜歡的 Python 3.13 新特性！

【Python】保存gym截圖

【譯】使用 GitHub Copilot 作爲你的編碼 GPS

Linux 服務器配置-安裝portainer-ce社區版

外行也能讀懂的網絡硬件設備功能原理速成

安裝Auto-GPT

各電腦用途計劃

玄學問題日後瞭解一下1【已解決，智障問題】

以後發博客必保存

操作系統實驗之進程管理——生產者消費者問題

歡迎使用CSDN-markdown編輯器

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結