當前相似文章召回,較爲流行的有 bag of words,average word vectors,tfidf-weighting word vectors,這些方法能都實現文章向量的訓練,但是對文章在語義空間中的表達仍有一定的欠缺,主要原因是不能夠學習到單詞的順序或者句子的語義。Doc2vec又叫Paragraph Vector是Tomas Mikolov基於word2vec模型提出的,doc2vec 相較於傳統的 word2vec 的方法,考慮了文章中單詞的順序,能更好更準確的在向量空間中表示一篇文章的語義,而相比於神經網絡語言模型,Doc2vec 的省時省力更適合工業落地。
文章語義向量化後,利用 Milvus 對特徵向量做相似度檢索。能極大的提高相似文章的召回速度,做到實時相似文章召回。最後獲取召回的相似文章相似度,根據業務場景通過策略加權,最終排序輸出符合當前業務的相似文章結果。
| 直播流程
首先利用 doc2vec 訓練文章向量,簡單講解訓練中注意的問題。
之後將訓練好的文章向量儲存分區到 milvus,通過 milvus 快速召回相似文章,並返回相似度,milvus 的操作介紹。
最後將返回的相似文章通過 milvus 查詢其標題向量並計算相似度,通過標題和文章相似度加權得分進行排序,得到最終相似文章召回列表。最後的加權排序是與業務強相關的,這裏會介紹相似文章召回與業務場景的結合,並簡單介紹實例標題與文章相似度的加權。
答疑
| 講師介紹
松鼠, 推薦算法工程師
曾多次參加算法比賽,在阿里天池推薦比賽多次 top10%,Kaggle 比賽多次銀牌,有較豐富的推薦經驗,結合業務場景落地推薦系統。
| 活動信息
時間:5/30 (Sat.) 7:00 PM - 8:00 PM
直播報名:
https://www.huodongxing.com/event/4545398282122
https://www.slidestalk.com/m/150
| 看直播拿好禮
我們會從報名的名單中抽出 5 名幸運的童鞋送出限量的 Milvus 不鏽鋼冰石,有了它今夏的快樂加倍!5/28 前報名纔有機會參加抽獎喔,手慢無!
| 歡迎加入 Milvus 社區
github.com/milvus-io/milvus | 源碼
milvus.io | 官網
milvusio.slack.com | Slack 社區
zhihu.com/org/zilliz-11/columns | 知乎
zilliz.blog.csdn.net | CSDN 博客
space.bilibili.com/478166626 | Bilibili