斯坦福NG機器學習聽課筆記-推薦系統（recommender system）

原創

2020-02-21 13:05

推薦系統（recommender system）

Problem Formulation:

RecommenderSystems:爲什麼講它有兩個原因：首先它是一個很重要的機器學習應用方向，在很多公司中佔據了重要作用，像亞馬遜之類網站都是很好的建立推薦系統促進商品銷售。其次推薦系統有機器學習中一些big idea，通過學習推薦系統學習機器學習中的big idea。接着描述一個電影評級的例子(整篇博客都將以電影評級爲實例)。

電影評級有5級，打問號的是不知道的信息，推薦系統需要做的就是在已知數據上去預測打問號下的數據是什麼。直觀上我們可以分塊發現Alice Bob 偏向於看愛情片，而後面兩位偏向於看動作電影，這些是在數據上比較直白的信息獲取（這就是後面說到的我們已知特徵向量情況）。還有需要注意上圖中形式化描述整個課程都是以這個爲基礎的。

習題：就是讓大家熟悉NG對電影評級中各個變量參數表示。

Content Based Recommendations:

先看一下如果進行未評級電影預測的流程：

上圖中右邊可以看到我們把所有電影通過romance action 兩個特徵來進行描述，我們對空白位置預測思想方法就是：對每一個user 我們學習參數（怎麼學習這個參數後面說），然後再通過上圖參數向量與特徵向量乘積值來判斷。

習題：

上題只需要把參數向量代入與特徵向量相乘和已知數據比較，擬合合適的就成立。

這個問題的形式化描述：

如何學習參數向量，利用線性迴歸方法。

目標函數是：

因爲m^(j)是常數進行簡化目標函數：

上面公式第一個是描述某一個用戶的，而下面公式是對所有user 求和使得目標函數最小。這裏求目標函數最小值就類似線性迴歸中方法，梯度下降法：

總結：這個算法我們假設我們已經擁有特徵，我們知道電影用什麼特徵可以來進行描述。但是有很多電影我們可能無法通過特徵向量來進行描述，下面方法解決這裏提到的問題。

Collaborative Filtering:

這裏問題條件就改變了，我們現在無法獲得電影特徵描述，但是我們可以獲得不同用戶對不同電影愛好也就是theta參數向量。

習題：已知theta向量求特徵值。

需要優化的目標函數：

習題：梯度下降法迭代求解。

下面對Collaborative filtering 形式化描述真正的協同過濾比這個複雜，這裏只是首先就行一個概念上的認知。

前面我們提到了兩種方法：第一種是一直特徵集描述，然後估計theta ，第二種是一直theta 去估計特徵集。我們可以交叉使用這兩種方法來更好估計特徵與theta參數。這裏計算性能不高接下來會講到這個問題的計算優化。

CollaborativeFiltering Algorithm：

前面說到我們可以迭代優化theta和特徵向量，但是這樣性能比較低，所以現在考慮提升算法性能。同時對兩種方法進行求解。

上圖就是把兩種方法優化函數進行合併得到總的目標函數。

算法流程圖：

習題：

Vectorization Low rank matrix factorization:

這裏主要講的就是通過兩個向量相乘構造Predicted ratings matrix

習題：

向量化後有一個很大的便利之處就是推薦發現相似的電影或者網站推薦相似物品。我們只需要計算兩個物品特徵向量之間的距離，距離越小意味着肯定是更加相似的東西。

Implementationaldetail : Mean normalization

我們加入新的一個user Eve，通過上面說的計算theta 和電影評分，我們發下如下圖：

我們發現Eve對所有電影評分都是0，顯然這樣結果是不合適的，現在需要解決這個問題。

上面我們說了當一個user對電影沒有任何評級時，我們很難處理，用前面說到算法執行得到都爲0。現在我們改進方法如下圖：

當theta與X⁽ⁱ⁾乘積爲0 ，但是在加上均值所以像Eve這樣用戶我們不會把他評分都設定爲0。

你可以用Mean Normalization 對數據進行預處理。這樣可能會使得算法得到一些改進提高。

習題：

發佈了166 篇原創文章 · 獲贊 54 · 訪問量 37萬+

他的留言板關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

PCA解析

1.例子引入如圖所示，我們要將兩類點（紅點和藍點）分類，希望能先通過降維之後再分類（直接分肯定也能分開）。那麼我們需要將二維的數據（每個點包含橫座標和縱座標，是二維的）降維到一維直線上的點。我們可以有多種降維的策略，

2020-07-04 17:41:38

關聯性挖掘--Apriori算法詳解

首先，要感謝譚武和張朋博同學的PPT，懷念以前一起學習數據挖掘十大算法的時光！ 1.關聯挖掘例子啤酒和尿布的故事：在一家超市中，人們發現了一個特別有趣的現象：尿布與啤酒這兩種風馬牛不相及的商品居然擺在一起。但這一奇怪

2020-07-04 17:41:38

Slope One 協同過濾算法

1 背景介紹 1.1問題描述人們在網上收看電影時，常常會給看過的電影打分。從這些電影的打分情況可以發掘出一個用戶的電影收看偏好。通過發掘出的用戶偏好，可以爲用戶做出準確的電影推薦。在這個問題中，我們需要根據用戶之前的電影

2020-06-22 09:08:44

重要的數據挖掘和機器學習算法

1.廣度神經網絡： 2.中文分詞算法：方法：（1）基於詞典的方法：逐詞匹配法，最大匹配法，逆向最大匹配法，雙向匹配法；（優點）算法簡單，易於實現；（缺點）匹配速度慢，存在歧義切分，無法智能匹配（2）基於統計的方

2020-06-19 08:33:59

利用sklearn 計算 precision、recall、F1 score

精確度：precision，正確預測爲正的，佔全部預測爲正的比例，TP / (TP+FP) 召回率：recall，正確預測爲正的，佔全部實際爲正的比例，TP / (TP+FN) F1-score：精確率和召回率的調和平均數，2 *

2020-06-15 15:16:01

頻繁項集挖掘算法Apriori FPGrowth

參考：http://blog.sina.com.cn/s/blog_5357c0af0101jq6z.html http://blog.csdn.net/huagong_adu/article/details/17739247 Ap

2020-06-12 22:39:48

如何理解神經網絡裏的反向傳播

反向傳播的底層原理是數學求導裏的鏈式法則，有空再補充一般講反向傳播都離不開神經網絡，然後就得有公式和結構圖。OK。公式佔坑。結構圖：簡單的問題容易被複雜的公式和結構圖搞的很複雜，作爲行動主義者的程序員，上代碼。

二十八画_生

2020-06-09 22:32:40

常見的機器學習&數據挖掘知識點之Basis

一只鸟的天空

2020-06-03 10:09:43

python opencv獲取視頻基本信息

2020-04-03 15:25:32

sklearn中模型構建、參數調優、模型驗證等的使用

2020-03-31 06:30:43

SVM學習（四）：爲何需要核函數

2020-02-26 06:38:11

SVM學習（三）：線性分類器的求解

2020-02-26 06:38:11

SVM學習（五）：鬆弛變量與懲罰因子

2020-02-26 06:38:11

We Recommend a Singular Value Decomposition

2020-02-23 15:16:42

支持向量機(SVM)推導

2020-02-22 23:51:58

24小時熱門文章

最新文章

最新評論文章