丘比特之箭——知乎多場景內容匹配項目:實現各種不同類型的文本之間的準確匹配 |百萬人學AI評選

2020 無疑是特殊的一年,而 AI 在開年的這場”戰疫“中表現出了驚人的力量。站在“新十年”的起點上,CSDN【百萬人學AI】評選活動正式啓動。本屆評選活動在前兩屆的基礎上再度升級,設立了「AI優秀案例獎Top 30」、「AI新銳公司獎Top 10」、「AI開源貢獻獎Top 5」三大獎項。我們相信,榜樣的力量將成爲促進AI行業不斷髮展的重要基石,而CSDN將與這些榜樣一起,助力AI時代的”新基建“。

活動官網:https://bss.csdn.net/m/topic/ai_selection/index

申報地址:http://csdnprogrammer.mikecrm.com/WpA03hJ

一、公司簡介

知乎,中文互聯網綜合性內容平臺,以「讓每個人高效獲得可信賴的解答」爲品牌使命和北極星。自 2010  年成立以來,知乎憑藉認真、專業、友善的社區氛圍,獨特的產品機制,以及結構化、易獲得的優質內容,聚集了中文互聯網科技、商業、影視、時尚、文化等領域最具創造力的人羣,已成爲綜合性、全品類,在諸多領域具有關鍵影響力的內容平臺,構建起了以廣告和會員爲主的商業模式。截至 2019 年 1 月,知乎已擁有超過 2.2 億用戶,共產出 1.3 億個回答。目前,知乎已經覆蓋「問答」社區、全新會員服務體系「鹽選會員」、機構號、熱榜等一系列產品和服務,並建立了包括音頻、視頻在內的多元媒介形式。

 

二、案例詳情

產品詳情

多場景匹配項目是知乎 AI 團隊研發的一整套技術解決方案,旨在實現各種不同類型的文本之間的準確匹配。該項目包括兩個主要模塊:

  1. 可配置多路召回。包括詞的索引召回、自定義 Boolean 召回、分類領域召回、多標籤召回、embedding 召回等。召回階段還可配置預排序策略和截斷策略,準確召回的同時大大減少計算量。
  2. 通用匹配算法。通過抽象出通用的匹配算法,針對不同的場景:長文本匹配長文本、短文本匹配短文本、長文本匹配短文本,稍作適配即可立即應用。

技術創新

  1. 抽象簡化匹配問題。使用可配置的多路召回策略,簡化了匹配複雜度,讓模型更容易獲得關鍵信息。
  2. 提出迭代式訓練方案。抽取適量上一輪產出的高分負樣本,與正樣本混合進行訓練,使算法可以學習到較爲困難的部分。

該項目在知乎得到廣泛應用,大幅提升了運營人效、用戶體驗,有效解決用戶的需求並創造價值。

技術投入

  1. 研發通用匹配算法。基於 RoBERTa 中文預訓練模型,設計神經網絡模型的結構:embedding 表示層、transformer、映射層、softmax 輸出層。 該項目支持微服務雲部署。
  2. 構建可配置多路召回。基於 Rucene 構建通用的詞索引、標籤索引等,基於 Faiss 構建高效 embedding 索引。

 

三、典型應用場景

1、「會員問答融合」:根據知乎的會員內容,匹配出準確的、可回答的問題,提高運營效率,進而提高會員內容曝光和轉化。

2、「客服 FAQ 自動回覆」:在客服系統中,及時、有效地解答用戶的 FAQ,提高用戶體驗,減少客服壓力。

3、「圈子項目」:通過算法給新圈子儘快找到合適的問題作爲進入的入口,能很好的促進圈子的活躍和發展。算法上線後,從回答頁進入圈子點擊量提升 17.5%。

4、「商業廣告支持」:爲客戶創作的商業內容,推薦相關的站內問題,爲商業內容帶來流量的同時,有效解決用戶的實際問題。

5、「社區內容去重」:知乎每天新增大量問題、視頻、電子書,通過該算法可快速匹配站內已有相似問題和重複問題,有效減少重複性內容引入,如熱榜去重、提問去重、相似推薦等。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章