《深度學習推薦系統》閱讀筆記 1.互聯網的增長引擎—推薦系統

原創

2020-06-14 19:24

第一章互聯網的增長引擎—推薦系統

近期把王喆老師的著作《深度學習推薦系統》閱讀了一遍，受益良多。爲了再深入吸收書中的實戰經驗，決定從頭到尾梳理一遍書中的我認爲的重要知識點，並對書中介紹較少的細節進行補充，同時補充一些代碼來解釋某些理論。

推薦系統的意義

“推薦”是目前互聯網應用中不可或缺的技術手段。購物、閱讀和學習，都要面對網絡上大量的良莠不齊的內容。推薦系統從來沒有像現在這樣影響着人們的生活。從用戶和公司的兩個角度可以闡述推薦系統存在的意義：

用戶：推薦系統解決在“信息過載”的情況下，用戶如何高效獲取感興趣信息的問題。
公司：推薦系統解決產品能夠最大限度的吸引用戶、留存用戶、增加用戶粘性、提高用戶轉化率的問題，從而達到公司商業目標連續增長的目標。
結合用戶和公司角度的優化目標來看，YouTube視頻推薦的優化目標體現的非常充分。作爲一家以廣告作爲主要收入來源的公司，商業增長的關鍵在於用戶對視頻的觀看時長，所以在YouTube的推薦系統中，優化目標就是觀看時長，而非傳統推薦系統中的“點擊率”。它將點擊率與觀看時長結合，使用加權邏輯迴歸方法並在serving時轉換後的指數值進行推薦，推導後能發現建模目標就是觀看時長。後續將會詳細介紹YouTube的建模方式，感興趣的讀者可以先先閱讀論文原文《Deep Neural Network for YouTube Recommenders》。

推薦系統的架構

推薦系統邏輯框架

推薦模型的輸入是用戶、物品、場景信息以及候選的物品，根據模型輸出值的大小，按照序列對物品進行排序。

推薦系統的技術架構

推薦系統中，容易想到的着重解決的問題主要有兩類：

數據和信息相關的問題：如何存儲、更新和處理用戶、物品和場景信息？
算法和模型相關的問題：模型如何訓練、預測和達到更好的效果？
“數據和信息”包括：數據離線批處理、實時流處理的數據流框架；
“算法和模型”包括：訓練、評估、部署和線上推斷。

數據部分

推薦系統的數據部分主要負責信息的收集和處理。按照實時性排序：

客戶端及服務器端實時數據處理：包含客戶端的數據收集、服務器端的日誌輸出等等；
流處理平臺準實時數據處理：包含通過storm、spark、flink等處理後生成的模型實時特徵等；
大數據平臺離線數據處理：包含生成模型離線訓練樣本等；
推薦系統的數據部分是推薦系統的水源。

模型部分

推薦系統的模型部分是推薦系統的主體。模型的結構一般包括：召回層、排序層和補充策略與算法層。
召回層：利用高效的召回規則、算法或簡單的模型，快速從海量的候選集中召回用戶可能感興趣的物品；
排序層：利用排序模型對初篩的候選集進行精排序；
補充策略與算法層：“再排序層”，爲了兼顧結果的多樣性、新鮮度等指標，結合補充的策略與算法對推薦列表進行一定的調整，最終形成用戶可見的推薦列表。
對於模型來說，訓練方法有兩種：離線訓練和在線更新。離線訓練的特點是可以利用全量樣本的特徵，使得模型逼近全局最優點。在線更新可以準實時地消化新的數據樣本，更快地反映新的數據變化趨勢，滿足模型實時性的要求。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Keras深度神經網絡訓練IMDB情感分類的四種方法

原文 https://my.oschina.net/gaussik/blog/850642 Keras的官方Examples裏面展示了四種訓練IMDB文本情感分類的方法，藉助這4個Python程序，可以對Keras的使用做一定的瞭解。

2020-07-04 15:00:10

caffe中增加自己的layer

假設新增加的層命名爲：NEW 1. 在src/proto的LayerParameter 的 LayerType下加 NEW= 數字； 2. 在src/layer_factory.cpp中，加 case LayerParam

2020-07-07 08:02:37

Fast RCNN ubuntu下安裝筆記

微軟研究院大神Ross Girshick新作：fase CNN，測試速度比RCNN快200倍。文章：http://arxiv.org/pdf/1504.08083v1.pdf 代碼：https://github.com/rbgirshi

2020-07-07 08:02:37

python深度學習---生成式對抗網絡（GAN）

生成式對抗網絡（GAN，generative adversarial network）由 Goodfellow 等人於 2014 年提出，它可以替代VAE來學習圖像的潛在空間。 ''' # 它能夠迫使生成圖像與真實圖像在統計上幾乎無

2020-07-06 21:30:11

深度學習設計

損失函數設計： 1、目標檢測領域：不提倡使用預測框座標與GT座標的差值進行損失函數統計，因爲座標差值會受座標尺寸大小影響，座標尺寸大的時候，差值相對大，座標尺寸小，差值相對小。改進：使用IOU，IOU不受座標尺寸因素的影響。（兩種座

2020-07-06 19:28:01

cuda error

1. 問題描述想把從圖像手工生成的特徵和經過backbone提取的特徵concatenate起來再進入網絡後面的層： x_added_coord = torch.cat([x_backbone, x_coord], 1) 報錯： Ru

2020-07-05 20:39:46

pytorch Dataloader 速度慢

1. 問題描述 Dataloader每讀完一個batch中間會間隔2s左右，很浪費時間，而且確定不是由於Dataset的__getitem__()複雜導致的。並且有一個規律，如果設置num_works=4，會出現4個batch一批很快，然

2020-07-05 20:39:35

深度學習基本術語

1、關於一個事件或對象的描述，稱爲一個“示例”（instance）或“樣本”（sample），“示例”或“樣本”的集合稱爲一個“數據集”（data set）。例如，（色澤=青綠；根蒂=蜷縮；敲聲=濁響），（色澤=烏黑；根蒂=

2020-07-05 06:12:43

Deep Learning科普

首先，要由人工智能之父圖靈說起。圖靈曾經有個夢想卸載《計算機器與智能》（1950）一文中，如果有一天，計算機能夠做到，隔着牆，你根本分不清對面和你交流是一個人還是計算機，那麼這臺計算機就具有了人工智能。接下來的半個世紀裏

生命不止coding不息

2020-07-04 20:52:07

理解CNN神經網絡

首先構建好用於學習的模型，也就是各個層用什麼激活函數、輸出層的如softmax函數、各層神經元的個數、損失函數等等。然後使用訓練數據集來不斷的調整模型的參數（學習）。具體怎麼做的？首先設定一個初始參數。然後開始學習，計

2020-07-04 12:09:04

What is Back Propaganda？

反向傳播用來計算導數，但這個不是反向傳播的特性，這個導數怎麼算是要自己來寫的！把每一層的結點的導數計算公式封裝在結點內部後，再來使用反向傳播，反向傳播的特性就是：鏈式法則，或者說反向傳播是符合鏈式法則的，有了這個前提，我們纔可以

2020-07-04 12:09:04

caffe-車尾識別

caffe-車尾識別 opencv，caffe，傳統方法和深度方法結合 http://weibo.com/PVl32019.01.075t3p/2313474325750605004851/wenda_home http://weibo.

2020-07-04 11:12:41

whats is the difference between train, validation and test set, in neural networks?

The training and validation sets are used during training. for each epoch for each training data instance

2020-07-04 11:12:29

【Deep Learning】基於 Keras 的貓狗分類識別

基於 Keras 的貓狗分類識別更新：本文代碼github連接：https://github.com/Sdamu/Keras_pratice 本篇主要實現利用 Keras 來實現 Kaggle 的經典比賽 ——貓狗識別

2020-07-04 05:07:05

【軟件安裝】安裝pip 出現類似 AttributeError: module 'pip.main' has no attribute '_main'錯誤問題

解決 Ubuntu 安裝pip 出現類似 AttributeError: module ‘pip.main’ has no attribute ‘_main’ 錯誤問題最近在Ubuntu上使用conda新建虛擬環境，當虛擬環

2020-07-04 05:07:05

24小時熱門文章

最新文章

最新評論文章