個性化搜索引擎系統架構設計

前言

個性化搜索目前發展階段不是要替換掉傳統搜索,而是對傳統搜索的一個補充。我們先看下它的架構如圖2.2所示:

在這裏插入圖片描述

圖2.2 個性化搜索架構圖

個性化搜索和個性化推薦是比較類似的,這個架構圖包含了各個子系統或模塊的協調配合、相互調用關係,從部門的組織架構上來看,目前搜索一般獨立成組,有的是在搜索推薦部門裏面,實際上比較合理的應該是分配在大數據部門更好一些,因爲依託於大數據部門的大數據平臺和人工智能優勢可以使搜索效果再上一個新的臺階。下面我們從架構圖從上到下的來詳細的講一下整個架構流程的細節。

一、搜索數據倉庫搭建、數據抽取部分

(1)和搜索相關的Mysql業務數據庫每天增量抽取到Hadoop平臺,當然第一次的時候需要全量的來做初始化,數據轉化工具可以用Sqoop,它可以分佈式的批量導入數據到Hadoop的Hive;

(2)和搜索相關的Flume分佈式日誌收集可以從各個Web服務器實時收集比如搜索用戶行爲、埋點數據等,可以指定source和sink直接把數據傳輸到Hadoop平臺。

二、大數據平臺、搜索數據集市分層設計、處理

在大數據平臺建設搜索相關的數據集市,分層設計,和推薦大致相同。

三、離線算法部分

(1)基於Spark平臺分佈式來創建搜索的索引數據庫,後續的增量索引一般靠消息隊列的方式異步準實時更新。

(2)Spark從Hadoop加載用戶畫像以及商品畫像的特徵數據訓練基於分類模型的Rerank二次重排序算法模型,來預測對搜索的候選商品被點擊的概率,因爲特徵工程里加入了和用戶個性化的特徵工程,所以搜索整體排序呈現個性化的特點。如果想增加個性化的程度,可以適當把搜索的候選集合適當擴大一些。

(3)離線計算的部分結果可以更新到線上Redis緩存裏,在線Web服務可以實時從Redis獲取推薦結果數據,進行實時推薦。

四、在線Web搜索接口服務

(1)在線Web搜索接口服務,先從Solr/ES搜索集羣裏面獲取和關鍵詞相關的搜索結果作爲候選集合,然後從Web項目初始化加載好的Rerank二次重排序模型進行實時點擊率預測,對搜索結果進行重排序,截取指定的前面的搜索結果進行展示。這個過程會讀取一部分Redis緩存數據。

(2)App客戶端、網站可以直接調用在線Web搜索接口服務進行實時展示搜索結果。由於個性化搜索比普通搜索處理更復雜,所以在性能上會有所下載,但整體在可接受的範圍內,一般可以單獨開個搜索區域進行展示,不替換之前的傳統搜索。

從架構中看,一個完整的個性化搜索涉及的技術框架也是非常多,其中個性化的因素也涉及到了用戶畫像系統,用戶畫像系統不僅僅可以用在推薦、搜索中,它是一個公司級別的通用系統,運營推廣決策都會用到它。和其它部門的系統如何對接,同時適應多種應用場景就需要我們架構設計一個合理的系統,下面我們看下用戶畫像系統架構。

總結

除了個性化搜索引擎系統架構設計

其它深度學習框架也有不錯的開源實現,比如MXNet,後面請大家關注充電了麼app,課程,微信羣,更多內容請看新書《分佈式機器學習實戰(人工智能科學與技術叢書)》

【新書介紹】
《分佈式機器學習實戰》(人工智能科學與技術叢書)【陳敬雷編著】【清華大學出版社】
新書特色:深入淺出,逐步講解分佈式機器學習的框架及應用配套個性化推薦算法系統、人臉識別、對話機器人等實戰項目

【新書介紹視頻】
分佈式機器學習實戰(人工智能科學與技術叢書)新書【陳敬雷】

視頻特色:重點對新書進行介紹,最新前沿技術熱點剖析,技術職業規劃建議!聽完此課你對人工智能領域將有一個嶄新的技術視野!職業發展也將有更加清晰的認識!

【精品課程】
《分佈式機器學習實戰》大數據人工智能AI專家級精品課程

【免費體驗視頻】:

人工智能百萬年薪成長路線/從Python到最新熱點技術

從Python編程零基礎小白入門到人工智能高級實戰系列課

視頻特色: 本系列專家級精品課有對應的配套書籍《分佈式機器學習實戰》,精品課和書籍可以互補式學習,彼此相互補充,大大提高了學習效率。本系列課和書籍是以分佈式機器學習爲主線,並對其依賴的大數據技術做了詳細介紹,之後對目前主流的分佈式機器學習框架和算法進行重點講解,本系列課和書籍側重實戰,最後講幾個工業級的系統實戰項目給大家。 課程核心內容有互聯網公司大數據和人工智能那些事、大數據算法系統架構、大數據基礎、Python編程、Java編程、Scala編程、Docker容器、Mahout分佈式機器學習平臺、Spark分佈式機器學習平臺、分佈式深度學習框架和神經網絡算法、自然語言處理算法、工業級完整系統實戰(推薦算法系統實戰、人臉識別實戰、對話機器人實戰)、就業/面試技巧/職業生涯規劃/職業晉升指導等內容。

【充電了麼公司介紹】

充電了麼App是專注上班族職業培訓充電學習的在線教育平臺。

專注工作職業技能提升和學習,提高工作效率,帶來經濟效益!今天你充電了麼?

充電了麼官網
http://www.chongdianleme.com/

充電了麼App官網下載地址
https://a.app.qq.com/o/simple.jsp?pkgname=com.charged.app

功能特色如下:

【全行業職位】 - 專注職場上班族職業技能提升

覆蓋所有行業和職位,不管你是上班族,高管,還是創業都有你要學習的視頻和文章。其中大數據智能AI、區塊鏈、深度學習是互聯網一線工業級的實戰經驗。

除了專業技能學習,還有通用職場技能,比如企業管理、股權激勵和設計、職業生涯規劃、社交禮儀、溝通技巧、演講技巧、開會技巧、發郵件技巧、工作壓力如何放鬆、人脈關係等等,全方位提高你的專業水平和整體素質。

【牛人課堂】 - 學習牛人的工作經驗

1.智能個性化引擎:

海量視頻課程,覆蓋所有行業、所有職位,通過不同行業職位的技能詞偏好挖掘分析,智能匹配你目前職位最感興趣的技能學習課程。

2.聽課全網搜索

輸入關鍵詞搜索海量視頻課程,應有盡有,總有適合你的課程。

3.聽課播放詳情

視頻播放詳情,除了播放當前視頻,更有相關視頻課程和文章閱讀,對某個技能知識點強化,讓你輕鬆成爲某個領域的資深專家。

【精品閱讀】 - 技能文章興趣閱讀

1.個性化閱讀引擎:

千萬級文章閱讀,覆蓋所有行業、所有職位,通過不同行業職位的技能詞偏好挖掘分析,智能匹配你目前職位最感興趣的技能學習文章。

2.閱讀全網搜索

輸入關鍵詞搜索海量文章閱讀,應有盡有,總有你感興趣的技能學習文章。

【機器人老師】 - 個人提升趣味學習

基於搜索引擎和智能深度學習訓練,爲您打造更懂你的機器人老師,用自然語言和機器人老師聊天學習,寓教於樂,高效學習,快樂人生。

【精短課程】 - 高效學習知識

海量精短牛人課程,滿足你的時間碎片化學習,快速提高某個技能知識點。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章