《深度学习推荐系统》阅读笔记 1.互联网的增长引擎—推荐系统

原創

2020-06-14 19:24

第一章互联网的增长引擎—推荐系统

近期把王喆老师的著作《深度学习推荐系统》阅读了一遍，受益良多。为了再深入吸收书中的实战经验，决定从头到尾梳理一遍书中的我认为的重要知识点，并对书中介绍较少的细节进行补充，同时补充一些代码来解释某些理论。

推荐系统的意义

“推荐”是目前互联网应用中不可或缺的技术手段。购物、阅读和学习，都要面对网络上大量的良莠不齐的内容。推荐系统从来没有像现在这样影响着人们的生活。从用户和公司的两个角度可以阐述推荐系统存在的意义：

用户：推荐系统解决在“信息过载”的情况下，用户如何高效获取感兴趣信息的问题。
公司：推荐系统解决产品能够最大限度的吸引用户、留存用户、增加用户粘性、提高用户转化率的问题，从而达到公司商业目标连续增长的目标。
结合用户和公司角度的优化目标来看，YouTube视频推荐的优化目标体现的非常充分。作为一家以广告作为主要收入来源的公司，商业增长的关键在于用户对视频的观看时长，所以在YouTube的推荐系统中，优化目标就是观看时长，而非传统推荐系统中的“点击率”。它将点击率与观看时长结合，使用加权逻辑回归方法并在serving时转换后的指数值进行推荐，推导后能发现建模目标就是观看时长。后续将会详细介绍YouTube的建模方式，感兴趣的读者可以先先阅读论文原文《Deep Neural Network for YouTube Recommenders》。

推荐系统的架构

推荐系统逻辑框架

推荐模型的输入是用户、物品、场景信息以及候选的物品，根据模型输出值的大小，按照序列对物品进行排序。

推荐系统的技术架构

推荐系统中，容易想到的着重解决的问题主要有两类：

数据和信息相关的问题：如何存储、更新和处理用户、物品和场景信息？
算法和模型相关的问题：模型如何训练、预测和达到更好的效果？
“数据和信息”包括：数据离线批处理、实时流处理的数据流框架；
“算法和模型”包括：训练、评估、部署和线上推断。

数据部分

推荐系统的数据部分主要负责信息的收集和处理。按照实时性排序：

客户端及服务器端实时数据处理：包含客户端的数据收集、服务器端的日志输出等等；
流处理平台准实时数据处理：包含通过storm、spark、flink等处理后生成的模型实时特征等；
大数据平台离线数据处理：包含生成模型离线训练样本等；
推荐系统的数据部分是推荐系统的水源。

模型部分

推荐系统的模型部分是推荐系统的主体。模型的结构一般包括：召回层、排序层和补充策略与算法层。
召回层：利用高效的召回规则、算法或简单的模型，快速从海量的候选集中召回用户可能感兴趣的物品；
排序层：利用排序模型对初筛的候选集进行精排序；
补充策略与算法层：“再排序层”，为了兼顾结果的多样性、新鲜度等指标，结合补充的策略与算法对推荐列表进行一定的调整，最终形成用户可见的推荐列表。
对于模型来说，训练方法有两种：离线训练和在线更新。离线训练的特点是可以利用全量样本的特征，使得模型逼近全局最优点。在线更新可以准实时地消化新的数据样本，更快地反映新的数据变化趋势，满足模型实时性的要求。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Keras深度神经网络训练IMDB情感分类的四种方法

原文 https://my.oschina.net/gaussik/blog/850642 Keras的官方Examples裏面展示了四種訓練IMDB文本情感分類的方法，藉助這4個Python程序，可以對Keras的使用做一定的瞭解。

2020-07-04 15:00:10

caffe中增加自己的layer

假設新增加的層命名爲：NEW 1. 在src/proto的LayerParameter 的 LayerType下加 NEW= 數字； 2. 在src/layer_factory.cpp中，加 case LayerParam

2020-07-07 08:02:37

Fast RCNN ubuntu下安装笔记

微軟研究院大神Ross Girshick新作：fase CNN，測試速度比RCNN快200倍。文章：http://arxiv.org/pdf/1504.08083v1.pdf 代碼：https://github.com/rbgirshi

2020-07-07 08:02:37

python深度学习---生成式对抗网络（GAN）

生成式對抗網絡（GAN，generative adversarial network）由 Goodfellow 等人於 2014 年提出，它可以替代VAE來學習圖像的潛在空間。 ''' # 它能夠迫使生成圖像與真實圖像在統計上幾乎無

2020-07-06 21:30:11

深度学习设计

損失函數設計： 1、目標檢測領域：不提倡使用預測框座標與GT座標的差值進行損失函數統計，因爲座標差值會受座標尺寸大小影響，座標尺寸大的時候，差值相對大，座標尺寸小，差值相對小。改進：使用IOU，IOU不受座標尺寸因素的影響。（兩種座

2020-07-06 19:28:01

cuda error

1. 問題描述想把從圖像手工生成的特徵和經過backbone提取的特徵concatenate起來再進入網絡後面的層： x_added_coord = torch.cat([x_backbone, x_coord], 1) 報錯： Ru

2020-07-05 20:39:46

pytorch Dataloader 速度慢

1. 問題描述 Dataloader每讀完一個batch中間會間隔2s左右，很浪費時間，而且確定不是由於Dataset的__getitem__()複雜導致的。並且有一個規律，如果設置num_works=4，會出現4個batch一批很快，然

2020-07-05 20:39:35

深度学习基本术语

1、關於一個事件或對象的描述，稱爲一個“示例”（instance）或“樣本”（sample），“示例”或“樣本”的集合稱爲一個“數據集”（data set）。例如，（色澤=青綠；根蒂=蜷縮；敲聲=濁響），（色澤=烏黑；根蒂=

2020-07-05 06:12:43

Deep Learning科普

首先，要由人工智能之父圖靈說起。圖靈曾經有個夢想卸載《計算機器與智能》（1950）一文中，如果有一天，計算機能夠做到，隔着牆，你根本分不清對面和你交流是一個人還是計算機，那麼這臺計算機就具有了人工智能。接下來的半個世紀裏

生命不止coding不息

2020-07-04 20:52:07

理解CNN神经网络

首先構建好用於學習的模型，也就是各個層用什麼激活函數、輸出層的如softmax函數、各層神經元的個數、損失函數等等。然後使用訓練數據集來不斷的調整模型的參數（學習）。具體怎麼做的？首先設定一個初始參數。然後開始學習，計

2020-07-04 12:09:04

What is Back Propaganda？

反向傳播用來計算導數，但這個不是反向傳播的特性，這個導數怎麼算是要自己來寫的！把每一層的結點的導數計算公式封裝在結點內部後，再來使用反向傳播，反向傳播的特性就是：鏈式法則，或者說反向傳播是符合鏈式法則的，有了這個前提，我們纔可以

2020-07-04 12:09:04

caffe-车尾识别

caffe-車尾識別 opencv，caffe，傳統方法和深度方法結合 http://weibo.com/PVl32019.01.075t3p/2313474325750605004851/wenda_home http://weibo.

2020-07-04 11:12:41

whats is the difference between train, validation and test set, in neural networks?

The training and validation sets are used during training. for each epoch for each training data instance

2020-07-04 11:12:29

【Deep Learning】基于 Keras 的猫狗分类识别

基於 Keras 的貓狗分類識別更新：本文代碼github連接：https://github.com/Sdamu/Keras_pratice 本篇主要實現利用 Keras 來實現 Kaggle 的經典比賽 ——貓狗識別

2020-07-04 05:07:05

【软件安装】安装pip 出现类似 AttributeError: module 'pip.main' has no attribute '_main'错误问题

解決 Ubuntu 安裝pip 出現類似 AttributeError: module ‘pip.main’ has no attribute ‘_main’ 錯誤問題最近在Ubuntu上使用conda新建虛擬環境，當虛擬環

2020-07-04 05:07:05

24小時熱門文章

最新文章

最新評論文章