讀書筆記：推薦系統與深度學習-第五章-混合推薦系統

原創

2020-07-08 05:02

1 什麼是混合推薦系統

目前介紹的算法各有利弊：

基於內容的推薦方法：一類item的特徵描述
協同過濾：利用user和item的特定類型的信息轉化生成推薦結果
社交網絡的推薦算法：根據user的相互影響關係進行推薦
所以，希望構建一種混合的推薦系統，結合不同算法的有點，克服缺陷，以提高推薦系統的可用性

1.1 混合推薦系統的意義

1.1.1 海量數據推薦

海量數據推薦系統通常是三個部分構成的：在線系統、近線系統和離線系統。

離線系統是傳統的個性化推薦系統的主體，定期利用大量歷史操作日誌進行批處理運算，然後進行特徵構造及選取，最終建立模型並更新。
近線系統是將用戶產生的事件，利用流式計算得到中間結果，這些中間結果一方面發送給在線部分用於實時更新推薦模型，另一方面將中間結果存儲起來作爲備份。
在線部分利用離線部分的主體模型並考慮近線部分的實時數據對模型進行增量更新，然後得到實時的推薦模型，進而根據用戶的行爲來對用戶進行實時推薦。

1.1.2 高質量推薦

爲了提升推薦系統的推薦精度以及推薦多樣性，工業上會對推薦系統進行特徵、模型等多層面的融合來構建混合推薦系統。

1.2 混合推薦系統的算法分類

加權型混合推薦：就是將不同算法的推薦結果進行加權總和，生成最終的排序結果。權重可以根據用戶的反饋進行調整。缺點是在數據稀疏的時候，相關的推薦方法沒有辦法獲得好的效果。
切換型混合推薦：根據問題的背景和實際情況在使用不同的推薦技術
交叉型混合推薦：將不同推薦算法的生產結果，按照一定的配比融合在一起，打包後集中呈獻給用戶。主要可能存在的問題是結果組合時的衝突解決問題。
特徵組合型混合推薦：將不同推薦數據源的特徵組合，由一種單一的推薦技術使用。
瀑布型混合推薦：採用了過濾的設計思想，把不同的推薦算法看作是不同粒度的過濾器，特別適用於推薦對象與所需推薦的結果數量相差懸殊的時候，一般會把算起來快，區分度低的算法放在前面。
特徵遞增型混合推薦：將前一個推薦方法的輸出作爲後一個推薦方法的輸入，前者會爲後者提供某些特徵。
元層次型混合推薦：將不同的推薦模型在模型層面上進行深度的融合

上面的這些混合推薦方式，又可以分爲三類：

整體式混合推薦系統：對算法內部進行調整
並行式混合推薦系統：對結果進行調整
流水線式混合推薦系統：利用多個流程順序產生推薦結果

2 推薦系統特徵處理方法

2.1 特徵處理方法

2.1.1 數值特徵處理

方法一：無量綱處理：

名稱	python代碼	計算方法
標準化	sklearn.preprocessing.scale	$x^{'}=\frac {x-x} {S}$
最大最小標準化	sklearn.preprocessing.MinMaxScale	$x^{'}=\frac {x-Min} {Max-Min}$
二次核	sklearn.preprocessing.normalize	/

方法二：非線性變化：對數變換,主要的作用是解決隨着自變量增加，因變量的方差變大的問題；把非線性轉化爲線性
方法三：離散化，主要的優點，減少異常值的影響，易於存儲，使得模型更穩定
- 無監督離散化：
  - 等寬度離散方法
  - 等頻分箱法：使得分到每個箱中的數據個數是相同的
  - 基於聚類分析的離散化方法：自頂向下的分裂策略和自底向上的合併策略
- 有監督離散化：基於熵的離散化方法和基於卡方的離散化方法

2.1.2 離散特徵處理

方法一：One-Hot編碼 sklearn.preprocessing.OneHotEncoder()
方法二：特徵哈希
- 作用：把高維特徵向量壓縮成低維特徵向量
- 針對特徵：如id類型特徵
- 相比embedding方法更加節約資源
方法三：時間特徵處理

2.2 特徵選擇方法

2.2.1 單變量特徵選擇

方法	計算介紹	優缺點
皮爾森相關係數	兩個變量之間協方差與標準差的商	衡量的是線性相關性，只對線性關係敏感
距離相關係數	餘弦相似度	優點是變量大小不是必須一致的
卡方檢驗	通過觀察實際值與理論值的偏差程度	/

2.2.2 基於模型的特徵選擇

邏輯迴歸和正則化特徵選擇

方法	介紹
L1正則	弱特徵的係數會變成0，導致學習到的模型稀疏
L2正則	使得係數的取值變得平均，是一個更穩定的模型

隨機森林特徵選擇
xgboost特徵選擇
基於深度學習的特徵選擇

3 常見的預測模型

邏輯迴歸
支持向量機
梯度提升樹

4 排序學習

4.1 基於排序的指標優化

之前的排序是採用均方根作爲優化指標，但是發現：

排序問題更關心：頭部產品能否預測準確，而不是所有產品能否預測準確
排序問題更關心：所有商品的相對偏序關係，而不是預測值的絕對值的準確。

經典的排序指標

MAP（mean reciprocal rank）
MRR（mean average precision）
NDCG（Normalized Discounted Cumulative Gain）
$DCG@T=sum_{i=1}^T \frac {2^{l_i}-1} {log(1-i)}$
其中l是系統給出的前T個商品的評分，分子表示推薦對應的i的收益，墳墓是位置的偏置。計算完了以後需要進行歸一化，也就是除以一個理想的最好的DCG的結果

4.2 L2R算法的三種情形

4.2.1 point-wise

基於單個樣本的優化
問題：模型的分數是和用戶無關的；對頭部商品不敏感，無法有效容忍某個用戶或者某個商品的偏置

4.2.2 pair-wise

對偏序對的二分類問題
問題：評價指標與損失函數不一致，因爲NDGG不是連續的不能直接拿來做損失函數，lambda系列的算法就是爲了解決這個問題

4.2.3 list-wise

基於整個排序列表的優化

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

京東廣告研發 —— 京東推薦廣告排序機制演化

1、序言：廣告排序機制的前世今生 1.1、簡介：廣告排序機制在線廣告是國內外各大互聯網公司的重要收入來源之一，而在線廣告與傳統廣告最大的區別就在於其超大規模的實時競價環境：數以萬計的廣告主在一天內可以參與億級別的流量競拍。在這複雜的實

2024-04-24 23:17:14

Pinecone: 大模型時代的智能索引與搜索解決方案

隨着人工智能技術的飛速發展，大模型（Large Models）已成爲衆多領域的重要工具。無論是自然語言處理、圖像識別還是其他複雜任務，大模型都展現出了強大的性能。然而，隨着模型規模的不斷擴大，數據量的激增，如何有效地管理、索引和搜索這些模型

2024-04-19 11:29:43

深度解析大模型推理框架：原理、應用與實踐

在當今數據驅動的時代，大模型推理框架已經成爲人工智能領域的重要支柱。本文將通過簡明扼要、清晰易懂的方式，帶領讀者深入瞭解大模型推理框架的原理、應用領域和實踐經驗，幫助讀者更好地掌握這一技術，並在實際工作中發揮其價值。一、大模型推理框架簡介

2024-04-11 23:28:49

華爲雲GeminiDB，廣告RTA的“登雲梯”

本文分享自華爲雲社區《華爲雲GeminiDB，廣告RTA的“登雲梯”》，作者： GeminiDB-Redis博客。行話說，廣告RTA要想效果好，數據庫挑戰少不了。那麼，廣告RTA對數據庫究竟有哪些挑戰？在上篇文章《究竟什麼樣的數據庫，才能

2024-04-09 10:32:19

大模型推理框架：從理論到實踐的全面解析

在數據驅動的時代，深度學習技術已經滲透到各個行業，從圖像識別到自然語言處理，從推薦系統到智能客服，其應用無處不在。然而，深度學習模型的訓練和推理過程往往涉及大量數據和複雜計算，傳統的計算框架難以滿足需求。因此，大模型推理框架應運而生，成爲解

2024-03-23 00:31:01

正式支持騰訊雲！Zilliz Cloud 多雲版圖再度擴張

3 月 22 日，Zilliz 對外透露，Zilliz Cloud 的用戶可以利用騰訊雲在北京和上海區的雲服務搭建雲應用，這將進一步爲海內外用戶提供更爲豐富的多雲支持的向量數據庫雲服務！這是繼阿里雲後，Zilliz Cloud 在國內新

2024-03-22 14:51:11

解鎖深度表格學習（Deep Tabular Learning）的關鍵：算術特徵交互

近日，阿里雲人工智能平臺PAI與浙江大學吳健、應豪超老師團隊合作論文《Arithmetic Feature Interaction is Necessary for Deep Tabular Learning》正式在國際人工智能頂會AAAI

2024-03-21 01:31:46

京東廣告算法架構體系建設--高性能計算方案最佳實踐

1、前言推薦領域算法模型的在線推理是一個對高併發、高實時有較強要求的場景。算法最初是基於Wide & Deep相對簡單的網絡結構進行建模，容易滿足高實時、高併發的推理性能要求。但隨着廣告模型效果優化進入深水區，基於Transformer

2024-03-15 13:45:05

多模態+大模型會帶來哪些“化學反應”？

導語：沒人懷疑，2024 年，AI 依然將是科技界的主角。上個月，OpenAI 推出了可以生成 60 秒高清視頻的視頻生成模型 Sora，掀起了對多模態模型的進一輪討論。多模態大模型技術的最新進展如何？這一波新技術，對於行業和消費者的體驗會

2024-03-15 13:45:01

大模型技術調研與端應用形態探索

在人工智能領域，大模型（Large Model）技術的崛起標誌着深度學習進入了一個全新的階段。這些模型通常包含數十億甚至千億級別的參數，通過大規模的數據訓練，能夠在語音識別、自然語言處理、圖像識別等多個領域取得令人矚目的成就。那麼，大模型究

2024-03-08 12:36:05

Z Potentials | 星爵，他的征途不止向量數據庫

縱觀過去幾十年的科技發展史，每一代新的技術架構的出現往往都伴隨着新的數據範式的出現，也催生了多家百億到千億美金數據平臺的誕生。如果說 2023 年科技領域的關鍵詞是 LLM，那麼數據庫領域的關鍵詞一定非向量數據庫莫屬。向量數據庫是一種專門用

2024-03-07 21:26:17

揭祕 LLMs 時代向量數據庫的 3 大實用場景

過去一年，ChatGPT 和其他大語言模型（LLMs）的爆火也帶動了向量數據庫的發展。許多用戶在搭建檢索增強生成（RAG）系統過程中選擇了使用向量數據庫 Zilliz Cloud ，但 Zilliz Cloud 的功能不止於此

2024-02-23 14:52:22

覆盤了今年春節，主打一個AI應用讓我「機智過人」

鞭炮聲聲辭舊歲，春光融融迎新年。春節，這一喜慶團圓的節日意味着萬象更始，一幅嶄新的畫卷已經徐徐展開——在數字化、智能化的時代背景下，科技爲這一歷史悠久的節日注入了新的活力與魅力。春節與科技的強強聯合，不僅展現了中華民族的智慧與創新精神，也讓

2024-02-23 12:37:09

零門檻AI開發平臺EasyDL：百億參數大模型ERNIE的加持

隨着人工智能技術的不斷髮展，越來越多的企業和個人開始關注如何快速開發出高效的AI模型。在這個背景下，EasyDL應運而生，作爲一個零門檻AI開發平臺，它降低了AI開發的門檻，讓更多人能夠輕鬆地開發和部署AI模型。而當EasyDL與百億參數大

2024-02-21 12:33:38

推薦系統系列（二）：從零開始搭建基於向量的推薦策略

從零開始搭建基於向量的推薦策略背景架構離線Pipeline搭建用戶行爲日誌上報日誌存儲到數據倉庫數據預處理模型訓練構建項目索引在線服務用戶向量預測最近項目查找總結參考背景向量召回/語義向量召回是現在流行的一種推薦策略，簡單來說

2020-07-08 12:17:27

24小時熱門文章

最新文章

最新評論文章