簡介: 本文將詳細介紹如何通過“開放搜索(OpenSearch)內容增強版“在文娛垂類場景的應用,提升用戶搜索體驗,帶來更多的業務轉化
內容搜索的價值主要體現在兩個方面:
對用戶而言,用戶將搜索作爲尋找內容的工具,目標是“搜的到,搜的準”。用戶更關心搜索結果的相關性、時效性和多樣性。
對平臺而言,搜索是內容消費、流量引導的核心入口,目標是提升用戶滿意度與留存率。更進一步,搜索還能支持平臺的宣發和商業價值,實現業務增長與流量變現。
常見文娛搜索場景
- 新聞、資訊搜索
- 社區、論壇、話題搜索
- 影音娛樂搜索
- 在線閱讀小說、網漫、文章搜索
- 圖像、視頻搜索
文娛搜索業務特點
- 搜索效果需保證時效性和個性化
- 涉及多頻道、多類別,內容覆蓋廣泛,需要精準理解用戶搜索意圖
- 熱搜、下拉提示等搜索引導功能流量佔比高
- 可能有文字、語音、圖像、視頻綜合的多模態搜索需求
搜索痛點
- 用戶用詞規範程度參差不齊,文本內容複雜,用戶意圖理解要求高
- 內容垂類特殊,需要行業數據積累,分詞和查詢分析難度大
- 千人千面的的個性化搜索,需要5人以上的算法團隊持續投入,成本高,週期長
- 業務導向性差,無法通過搜索實現付費內容引導
開放搜索內容文娛增強版解決方案
內容文娛行業分詞模型
對於內容文娛行業,OpenSearch彙集多個相關數據來源,利用千萬級數據訓練了行業增強版分詞模型。
針對更加特殊的垂類業務場景,在原有分詞算法模型基礎上,支持基於業務數據的定製分詞模型,提供專屬文本分詞器。
文本 |
通用版 |
內容文娛版 |
拜仁或將簽下凱恩以接替萊萬 |
拜仁 或 將 籤 下 凱恩 以 接替 萊 萬 |
拜仁 或 將 籤 下 凱恩 以 接替 萊萬 |
夜蘭配隊 |
夜 蘭 配 隊 |
夜蘭 配 隊 |
復聯4高燃場面 |
復 聯 4 高燃 場面 |
復聯 4 高燃 場面 |
彭昱暢和江疏影演情侶 |
彭昱 暢和 江疏影 演 情侶 |
彭 昱暢 和 江 疏影 演 情侶 |
內容文娛行業向量模型
相比傳統文本搜索通過分詞、同義詞、糾錯、詞權重等算法技術增強語義搜索效果,基於深度學習的語義向量召回模型具備更強大的表徵能力,可以更好地處理用戶查詢詞中的簡寫、別名、拼寫錯誤等情況。
開放搜索OpenSearch和阿里達摩院合作自研的向量召回技術,在業界知名榜單MS MARCO上奪冠。
結合文娛行業數據訓練的向量召回模型目前已在OpenSearch對客戶透出。
query |
詹姆士絕殺 |
向量召回 TOP 1 |
詹姆斯絕殺 |
向量召回 TOP 2 |
詹姆斯不是絕殺? |
向量召回 TOP 3 |
關於詹姆斯絕殺球 |
query |
佐鳴 |
向量召回 TOP 1 |
鳴佐結局 |
向量召回 TOP 2 |
鳴人喜歡佐助哪點 |
向量召回 TOP 3 |
鳴人和佐助誰更強? |
內容文娛行業CTR排序模型
針對內容文娛行業往往個性化訴求和實時性需求較高。比如不同用戶興趣愛好的引導、以及當天的熱點事件引導。
CTR預估模型充分結合行業特點,保障搜索個性化建模和內容實時性。整體網絡框架如下:
CTR預估模型可以根據客戶特點和訴求做對應模型定製和鏈路定製,以達到更優業務轉化效果。
球鞋愛好者搜:科比 |
粉絲搜:科比 |
8.24當天搜:科比 |
科比那些年穿過的球鞋 |
科比10佳投籃精彩瞬間 |
球迷致敬科比 |
科比同款球鞋 |
體驗科比的一天 |
科比頭像 |
科比8球鞋評測 |
巔峯科比實力到底有多強? |
科比永遠的MVP |
案例實踐
某文娛資訊平臺,原自建搜索存在搜不準,跳出率較高等問題,直接影響用戶體驗和用戶粘性。通過接入開放搜索OpenSearch 15天快速實現搜索效果各項指標的提升。
- PV-CTR提升超過10%,UV-CTR提升超過5%,有點擊PV佔比提升超過5%
- 具備語義向量模型能力,針對長文本複雜關鍵詞也可準確返回語義相關文檔
- 個性化排序模型,支持千人千面的搜索結果展示
填寫問卷享開放搜索產品首月1元試用:https://page.aliyun.com/form/act4137000/index.htm
如果你想與更多開發者們進行交流、瞭解最前沿的搜索與推薦技術,可以釘釘掃碼加入社羣