Coursea-吳恩達-machine learning學習筆記（十六）【week 9之Recommender Systems】

推薦系統：
舉例(預測電影評分)
用戶使用 $0 \sim 5$ 星給電影打分，如下圖所示：

一些定義如下：
$n_{u}$ ：表示用戶數量；
$n_{m}$ ：表示電影數量；
$r (i, j)$ ：如果用戶 $j$ 給電影 $i$ 打過分，則 $r (i, j) = 1$ ；
$y^{(i, j)}$ ：當用戶 $j$ 給電影 $i$ 打過分，即 $r (i, j) = 1$ 時，用來表示用戶 $j$ 給電影 $i$ 的評分分值。

推薦系統問題就是給定 $r (i, j)$ 和 $y^{(i, j)}$ ，關注所有沒有評分的地方並試圖預測；
推薦系統的主要工作是想出一種學習算法，能夠幫助我們自動填充缺失值，試圖預測用戶可能感興趣的電影，進行推薦。

第一種構建推薦系統的方法—-“基於內容的推薦”

假設每部電影有兩種特徵，用 $x_{1}$ 和 $x_{2}$ 表示， $x_{1}$ 表示這部電影屬於愛情電影的程度， $x_{2}$ 表示這部電影屬於動作電影的程度，如下圖所示：

對於第一部電影來說，兩個特徵值分別是 $0.9$ 和 $0$ ，加上一個特徵變量 $x_{0} = 1$ ，則 $x^{(1)} = [\begin{matrix} 1 \\ 0.9 \\ 0 \end{matrix}]$ ， $n$ 表示特徵變量數(不包括 $x_{0}$ )，故 $n = 2$ ；
我們可以把每個用戶的打分預測當成一個獨立的線性迴歸問題，對於每個用戶 $j$ ，學習參數 $θ^{(j)} \in R^{n + 1}$ ，根據 $(θ^{(j)})^{T} x^{(i)}$ 來預測用戶 $j$ 對電影 $i$ 的打分。

更正式的表達：
$r (i, j)$ ：如果用戶 $j$ 給電影 $i$ 打過分，則爲1，否則爲0；
$y^{(i, j)}$ ：當 $r (i, j) = 1$ 時，表示用戶 $j$ 給電影 $i$ 的評分分值；

$θ^{(j)}$ ：表示用戶 $j$ 的參數向量；
$x^{(i)}$ ：表示電影 $i$ 的特徵向量。

對於用戶 $j$ 和電影 $i$ ，預測評分爲： $(θ^{(j)})^{T} x^{(i)}$ ；
$m^{(j)}$ ：表示用戶 $j$ 評分的電影數量；

爲了學習 $θ^{(j)}$ ，則：

min_{θ^{(j)}} \frac{1}{2 m^{(j)}} \sum_{i : r (i, j) = 1} ((θ^{(j)})^{T} x^{(i)} - y^{(i, j)})^{2} + \frac{λ}{2 m^{(j)}} \sum_{k = 1}^{n} (θ_{k}^{(j)})^{2}

去掉

\frac{1}{m^{(j)}}

不影響

θ^{(j)}

的最優化結果，所以，爲了學習

θ^{(j)}

，則：

J (θ^{(j)}) = min_{θ^{(j)}} \frac{1}{2} \sum_{i : r (i, j) = 1} ((θ^{(j)})^{T} x^{(i)} - y^{(i, j)})^{2} + \frac{λ}{2} \sum_{k = 1}^{n} (θ_{k}^{(j)})^{2}

爲了學習

θ^{(1)}, θ^{(2)}, \dots, θ^{(n_{u})}

，則：

J (θ^{(1)}, \dots, θ^{(n_{u})}) = min_{θ^{(1)}, \dots, θ^{(n_{u})}} \frac{1}{2} \sum_{j = 1}^{n_{u}} \sum_{i : r (i, j) = 1} ((θ^{(j)})^{T} x^{(i)} - y^{(i, j)})^{2} + \frac{λ}{2} \sum_{j = 1}^{n_{u}} \sum_{k = 1}^{n} (θ_{k}^{(j)})^{2}

梯度下降法：

θ_{k}^{(j)} := θ_{k}^{(j)} - α \sum_{i : r (i, j) = 1} ((θ^{(j)})^{T} x^{(i)} - y^{(i, j)}) x_{k}^{(i)} (f o r k = 0)

θ_{k}^{(j)} := θ_{k}^{(j)} - α (\sum_{i : r (i, j) = 1} ((θ^{(j)})^{T} x^{(i)} - y^{(i, j)}) x_{k}^{(i)} + λ θ_{k}^{(j)}) (f o r k \neq 0)

注： $\frac{\partial}{\partial θ_{k}^{(j)}} J (θ^{(1)}, \dots, θ^{(n_{u})}) = \sum_{i : r (i, j) = 1} ((θ^{(j)})^{T} x^{(i)} - y^{(i, j)}) x_{k}^{(i)} + λ θ_{k}^{(j)}$

第二種構建推薦系統的方法—-“協同過濾”

這種算法能自行學習所要使用的特徵。
假設我們並不知道每部電影的愛情成分和動作成分，如下圖：

我們採訪每位用戶，得到每個用戶是否喜歡愛情電影和動作電影：
如： $θ^{(1)} = [\begin{matrix} 0 \\ 5 \\ 0 \end{matrix}] θ^{(2)} = [\begin{matrix} 0 \\ 5 \\ 0 \end{matrix}] θ^{(3)} = [\begin{matrix} 0 \\ 0 \\ 5 \end{matrix}] θ^{(4)} = [\begin{matrix} 0 \\ 0 \\ 5 \end{matrix}]$
$θ^{(j)}$ 可以明確告訴我們每個用戶對不同題材電影的喜歡程度。

通過 $θ^{(j)}$ 及 $y^{(i, j)}$ 可以推算出每部電影的特徵值。
將問題標準化：
已知 $θ^{(1)}, \dots, θ^{(n_{u})}$ ，學習 $x^{(i)}$ ，使得

min_{x^{(i)}} \frac{1}{2} \sum_{j : r (i, j) = 1} ((θ^{(j)})^{T} x^{(i)} - y^{(i, j)})^{2} + \frac{λ}{2} \sum_{k = 1}^{n} (x_{k}^{(i)})^{2}

已知

θ^{(1)}, \dots, θ^{(n_{u})}

，學習

x^{(1)}, \dots, x^{(n_{m})}

，使得

min_{x^{(1)}, \dots, x^{(n_{m})}} \frac{1}{2} \sum_{i = 1}^{n_{m}} \sum_{j : r (i, j) = 1} ((θ^{(j)})^{T} x^{(i)} - y^{(i, j)})^{2} + \frac{λ}{2} \sum_{i = 1}^{n_{m}} \sum_{k = 1}^{n} (x_{k}^{(i)})^{2}

結合前兩種方法，得到協同過濾算法的代價函數：

J (x^{(1)}, \dots, x^{(n_{m})}, θ^{(1)}, \dots, θ^{(n_{u})}) = \frac{1}{2} \sum_{(i, j) : r (i, j) = 1} ((θ^{(j)})^{T} x^{(i)} - y^{(i, j)})^{2} + \frac{λ}{2} \sum_{i = 1}^{n_{m}} \sum_{k = 1}^{n} (x_{k}^{(i)})^{2} + \frac{λ}{2} \sum_{j = 1}^{n_{u}} \sum_{k = 1}^{n} (θ_{k}^{(j)})^{2}

算法目標爲： $min_{x^{(1)}, \dots, x^{(n_{m})} θ^{(1)}, \dots, θ^{(n_{u})}} J (x^{(1)}, \dots, x^{(n_{m})}, θ^{(1)}, \dots, θ^{(n_{u})})$
注：當用這種形式去學習特徵量時，應摒棄 $x_{0} = 1$ 和 $θ_{0}$ ， $x \in R^{n}$ ， $θ \in R^{n}$ 。

協同過濾算法步驟：

初始化 $x^{(1)}, \dots, x^{(n_{m})}, θ^{(1)}, \dots, θ^{(n_{u})}$ 爲小的隨機值；
用梯度下降法或其他高級優化算法，最小化代價函數( $f o r e v e r y j = 1, \dots, n_{u}, i = 1, \dots, n_{m}$ )
$x_{k}^{(i)} := x_{k}^{(i)} - α (\sum_{j : r (i, j) = 1} ((θ^{(j)})^{T} x^{(i)} - y^{(i, j)}) θ_{k}^{(j)} + λ x_{k}^{(i)})$ $θ_{k}^{(j)} := θ_{k}^{(j)} - α (\sum_{i : r (i, j) = 1} ((θ^{(j)})^{T} x^{(i)} - y^{(i, j)}) x_{k}^{(i)} + λ θ_{k}^{(j)})$
對一個用戶(參數 $θ$ )和一個電影(特徵值 $x$ )，預測評分 $θ^{T} x$ (即 $(θ^{(j)})^{T} x^{(i)}$ )

協同過濾算法的向量化方法：
有五部電影的數據集如下圖：

將用戶評分存儲到矩陣中：
$Y = [\begin{matrix} 5 & 5 & 0 & 0 \\ 5 & ? & ? & 0 \\ ? & 4 & 0 & ? \\ 0 & 0 & 5 & 4 \\ 0 & 0 & 5 & ? \end{matrix}]$
預測評分矩陣爲：
$[\begin{matrix} (θ^{(1)})^{T} x^{(1)} & (θ^{(2)})^{T} x^{(1)} & \dots & (θ^{(n_{u})})^{T} x^{(1)} \\ (θ^{(1)})^{T} x^{(2)} & (θ^{(2)})^{T} x^{(2)} & \dots & (θ^{(n_{u})})^{T} x^{(2)} \\ ⋮ & ⋮ & ⋮ \\ (θ^{(1)})^{T} x^{(n_{m})} & (θ^{(2)})^{T} x^{(n_{m})} & \dots & (θ^{(n_{u})})^{T} x^{(n_{m})} \end{matrix}]$
若電影特徵矩陣爲 $X = [\begin{matrix} (x^{(1)})^{T} \\ (x^{(2)})^{T} \\ ⋮ \\ (x^{(n_{m})})^{T} \end{matrix}]$ 用戶參數矩陣爲 $Θ = [\begin{matrix} (θ^{(1)})^{T} \\ (θ^{(2)})^{T} \\ ⋮ \\ (θ^{(n_{u})})^{T} \end{matrix}]$
則預測評分矩陣爲 $X Θ^{T}$ ，這種方法叫作低秩矩陣分解。

尋找相關電影
對於每個電影 $i$ ，存在特徵向量 $x^{(i)} \in R^{n}$
尋找電影 $i$ 的關聯電影 $j$ ：
若 $‖ x^{(i)} - x^{(j)} ‖$ 很小 $\to$ 電影 $i$ 和電影 $j$ 相似。

協同過濾算法實現細節：均值歸一化
如下圖，有一個用戶沒有給任何電影評分

在協同過濾算法中，目標爲：

min_{x^{(1)}, \dots, x^{(n_{m})} θ^{(1)}, \dots, θ^{(n_{u})}} \frac{1}{2} \sum_{(i, j) : r (i, j) = 1} ((θ^{(j)})^{T} x^{(i)} - y^{(i, j)})^{2} + \frac{λ}{2} \sum_{i = 1}^{n_{m}} \sum_{k = 1}^{n} (x_{k}^{(i)})^{2} + \frac{λ}{2} \sum_{j = 1}^{n_{u}} \sum_{k = 1}^{n} (θ_{k}^{(j)})^{2}

假設

n = 2

，

θ^{(5)} \in R^{2}

，由於用戶

5

沒有對任何電影評分，所以影響

θ^{(5)}

的唯一項爲

\frac{λ}{2} \sum_{k = 1}^{n} (θ_{k}^{(5)})^{2}

，爲了讓代價函數最小化，最終

θ^{(5)} = [\begin{matrix} 0 \\ 0 \end{matrix}]

，所以預測用戶5對電影的評分時

(θ^{(5)})^{T} x^{(i)} = 0

，其對所有電影的評分均爲

0

，無法推薦。

均值歸一化可以解決這一情況。
$Y = [\begin{matrix} 5 & 5 & 0 & 0 & ? \\ 5 & ? & ? & 0 & ? \\ ? & 4 & 0 & ? & ? \\ 0 & 0 & 5 & 4 & ? \\ 0 & 0 & 5 & 0 & ? \end{matrix}]$ 計算每個電影評分均值 $μ = [\begin{matrix} 2.5 \\ 2.5 \\ 2 \\ 2.25 \\ 1.25 \end{matrix}]$
令 $Y = Y . - μ = [\begin{matrix} 2.5 & 2.5 & - 2.5 & - 2.5 & ? \\ 2.5 & ? & ? & - 2.5 & ? \\ ? & 2 & - 2 & ? & ? \\ - 2.25 & - 2.25 & 2.75 & 1.75 & ? \\ - 1.25 & - 1.25 & 3.75 & - 1.25 & ? \end{matrix}]$ 用該矩陣學習 $θ^{(j)}$ 和 $x^{(i)}$
用戶 $j$ 對電影 $i$ 的評分預測爲： $(θ^{(j)})^{T} x^{(i)} + μ_{i}$
本例中，因爲 $θ^{(5)} = [\begin{matrix} 0 \\ 0 \end{matrix}]$ ，所以其對電影的評分爲 $μ = [\begin{matrix} 2.5 \\ 2.5 \\ 2 \\ 2.25 \\ 1.25 \end{matrix}]$

Coursea-吳恩達-machine learning學習筆記（十六）【week 9之Recommender Systems】

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

Windows cmd窗口的切換目錄命令無法切換盤符

Coursea-吳恩達-machine learning學習筆記（十六）【week 9之Recommender Systems】

Coursea-吳恩達-machine learning學習筆記（十四）【week 8之Dimensionality Reduction】

Coursea-吳恩達-machine learning學習筆記（十二）【week 7之Support Vector Machines】

Coursea-吳恩達-machine learning學習筆記（九）【week 5之Neural Networks: Learning】

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結