本週六晚上7點直播|利用doc2vec和milvus搭建相似文章召回服務

當前相似文章召回,較爲流行的有 bag of words,average word vectors,tfidf-weighting word vectors,這些方法能都實現文章向量的訓練,但是對文章在語義空間中的表達仍有一定的欠缺,主要原因是不能夠學習到單詞的順序或者句子的語義。Doc2vec又叫Paragraph Vector是Tomas Mikolov基於word2vec模型提出的,doc2vec 相較於傳統的 word2vec 的方法,考慮了文章中單詞的順序,能更好更準確的在向量空間中表示一篇文章的語義,而相比於神經網絡語言模型,Doc2vec 的省時省力更適合工業落地。

文章語義向量化後,利用 Milvus 對特徵向量做相似度檢索。能極大的提高相似文章的召回速度,做到實時相似文章召回。最後獲取召回的相似文章相似度,根據業務場景通過策略加權,最終排序輸出符合當前業務的相似文章結果。

| 直播流程

首先利用 doc2vec 訓練文章向量,簡單講解訓練中注意的問題。

之後將訓練好的文章向量儲存分區到 milvus,通過 milvus 快速召回相似文章,並返回相似度,milvus 的操作介紹。

最後將返回的相似文章通過 milvus 查詢其標題向量並計算相似度,通過標題和文章相似度加權得分進行排序,得到最終相似文章召回列表。最後的加權排序是與業務強相關的,這裏會介紹相似文章召回與業務場景的結合,並簡單介紹實例標題與文章相似度的加權。

答疑

| 講師介紹

松鼠, 推薦算法工程師

曾多次參加算法比賽,在阿里天池推薦比賽多次 top10%,Kaggle 比賽多次銀牌,有較豐富的推薦經驗,結合業務場景落地推薦系統。

| 活動信息


時間:5/30 (Sat.) 7:00 PM - 8:00 PM

直播報名:

https://www.huodongxing.com/event/4545398282122

https://www.slidestalk.com/m/150

| 看直播拿好禮

我們會從報名的名單中抽出 5 名幸運的童鞋送出限量的 Milvus 不鏽鋼冰石,有了它今夏的快樂加倍!5/28 前報名纔有機會參加抽獎喔,手慢無!

| 歡迎加入 Milvus 社區

github.com/milvus-io/milvus | 源碼

milvus.io | 官網

milvusio.slack.com | Slack 社區

zhihu.com/org/zilliz-11/columns | 知乎

zilliz.blog.csdn.net | CSDN 博客

space.bilibili.com/478166626 | Bilibili

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章