個性化推薦系統(一)---今日頭條等的內容劃分、分類

       這篇文章搞頭條號、運營知乎等流量的可以看看,可以讓你瞭解到你的文章是怎麼被推薦的、通過很好的配合頭條、知乎等的技術架構、機制可以增加你文章的曝光。

       今日頭條以前進入各大app的流量主要被幾部分刮分,一個是app內搜索、一個是固定頻道、、一個是用戶在閒逛。當前各大app、無論是電商、知乎、新聞等流量一部分還是app內部搜索,另外大頭就是各大頻道、內容、問答板塊都被個性化推薦把持。

        今日頭條是怎麼實現個性化推薦的呢?一個是用戶畫像,一個是文章分類,分類是由多種緯度組成,通過用戶在app內搜索、點擊視頻、文章、瀏覽、收藏等app內一些列的操作會不斷對用戶畫像進行完善,並且生成用戶對文章分類的喜好,通過喜好給你推薦相似的視頻、文章,最終讓用戶刷不完、離不開。

        最開始冷啓動今日頭條會推薦給你些八卦、娛樂新聞、熱門新聞、其他類型文章等多個池子,因爲最開始是沒有你的用戶畫像的,因爲你在app內沒有行爲,通過微博賬號登錄抓取微博信息進行分析生成畫像這種方式暫時不談。

        個性化推薦系統主體三部分:文章分類、用戶畫像、用戶喜好均是通過用戶在app行爲,通過數據分析師對數據分析,構建的策略算法,算法工程師構建的模型、以及推薦引擎、特徵工程等一系列的算法、工程最終構成一個內容個性化推薦系統。

        這篇主要講下文章分類主要包含哪些,怎樣構建文章分類、分類後怎麼使用三個問題。

        當下內容推薦引擎,文章由標籤、興趣、主題、其中標籤規模最大,標籤

又分爲粗標籤數據規模億級別、精標籤數據規模千萬級別,興趣數據規模粗幾十萬級、精十萬級、主題幾百級。多種類型的分類綜合構成文章數據來源。來供feed流使用。

        文章分類構建主要由hadoop、hive、spark、strom等工具實現,標籤的構建主要通過對文章進行分詞、通過TF-IDF等算法找出文章可以由哪些標籤來抽象表達。標籤比如:錘子、堅果、老羅,喬布斯、蘋果、iPhoneX。標籤下文章幾百萬、幾十萬、幾千不等。興趣的構建與標籤類似但力度更大、更粗些,興趣比如:星座、二次元、抖音等等。

        主題分類由LDA模型通過spark框架計算實現,主題比如:體育新聞、it新聞、娛樂新聞等構成。

        個性化推薦本質就做一件事:排序。數據計算主要通過hive、spark實現離線的數據排序,排序特徵包含曝光量、點擊量、點擊率、作者權重、文章質量分、等幾十個特徵綜合進行排序,排序結果作爲備選集合。光有離線計算是不夠的、當下推薦系統更加強調實時性,strom準實時框架會根據實時線上上報特徵對文章的排序進行實時調整、比如某大V作者的文章權重很高,排名好獲得很多曝光機會,但是曝光機會並轉化成點擊量、這時strom計算會將文章曝光降低,已給其他文章更多的曝光機會。

        搜索引擎的曝光更加集中、最大的曝光基本集中在首頁前三篇,而推薦引擎會拉取多個分類類別、標籤下選擇用戶多個喜好標籤下文章、多個興趣下用戶喜好文章、多個主題下用戶喜好文章。調取特徵、再通過模型實時預估每篇文章點擊量,通過點擊量預估模型預估文章被當前用戶點的機率。

        如果文章在熱門的標籤下,偏好標籤的用戶會多,文章排到熱門標籤前幾,那必定會帶來特別大的曝光量、但熱門標籤競爭激烈。冷門標籤偏好人少,但是冷門標籤下文章會少、競爭少,維護好冷門標籤,在固定人羣下也會取得持續不錯的曝光。

        後邊文章會詳細寫下怎樣構建用戶畫像、構建熱門分類、通用分類、用戶偏好分類、突發新聞分類召回集、搭建特徵工程、構建點擊量預估模型過程,以及推薦引擎架構、設計、實現。

    微信搜索:debugme123

      掃描二維碼關注:


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章