推薦系統實踐筆記(三)

1. 線性迴歸

  • 最小二乘估計的概率解釋

線性迴歸模型如下:

y(i)=θTx(i)+ϵ(i)y^{(i)}=\theta^Tx^{(i)}+\epsilon^{(i)}

並假設誤差ϵ\epsilon符合正太分佈,即:

p(ϵ(i))=1σ2πe(ϵ(i)μ)22σ2p(\epsilon^{(i)})=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(\epsilon^{(i)}-\mu)^2}{2\sigma^2}}

且一般認爲誤差的均值爲0,即μ=0\mu=0, ,得出:

p(σ(i))=1σ2πe(ϵ(i))22σ2p(\sigma^{(i)})=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(\epsilon^{(i)})^2}{2\sigma^2}}

p(ϵ(i))=1σ2πe(y(i)θTx(i))22σ2p(\epsilon^{(i)})=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}}

p(y(i)x(i);θ)=1σ2πe(y(i)θTx(i))22σ2p(y^{(i)}|x^{(i)};\theta)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}}

上式的含義爲給定參數θ\theta情況下,y(i)y^{(i)}相對x(i)x^{(i)}的條件概率。樣本中滿足獨立同分布,則所有樣本成立的概率爲:

L(θ)=i1np(y(i)x(i);θ)=(1σ2π)ne12σi=1n(y(i)θTx(i))2L(\theta)=\prod_{i-1}^n p(y^{(i)}|x^{(i)};\theta) = (\frac{1}{\sigma\sqrt{2\pi}})^ne^{-\frac{1}{2\sigma}\sum_{i=1}^n(y^{(i)}-\theta^Tx^{(i)})^2}

logL(θ)=log(1σ2π)n12σi=1n(y(i)θTx(i))2logL(\theta)=log(\frac{1}{\sigma\sqrt{2\pi}})^n - \frac{1}{2\sigma}\sum_{i=1}^n(y^{(i)}-\theta^Tx^{(i)})^2

選擇θ\theta最打化似然函數logL(θ)logL(\theta):

θ=argmaxθlogL(θ)=arcminθ12i=1n(y(i)θTx(i))2\theta=argmax_{\theta}logL(\theta)=arcmin_{\theta}\frac{1}{2}\sum_{i=1}^n(y^{(i)}-\theta^Tx^{(i)})^2

回憶最小二乘估計的目標函數:

Q(θ)=i=12(y(i)θTx(i))2Q(\theta)=\sum_{i=1}^2(y^{(i)}-\theta^Tx^{(i)})^2

選擇參數θ\theta最小化函數Q(θ)Q(\theta):

θ=argminθQ(θ)=argminθi=1n(y(i)θx(i))2\theta=argmin_{\theta}Q(\theta)=argmin_{\theta}\sum_{i=1}^n(y^{(i)}-\theta x^{(i)})^2

可以看出最小二乘估計與最大似然估計同解。

2. 邏輯迴歸

Logit函數定義如下:

Logit(p)=logp1pLogit(p)=log\frac{p}{1-p}

我們用線性迴歸模型擬合Logit函數,即:

logp1p=θTxlog\frac{p}{1-p}=\theta^Tx

得到:

p=11+eθTxp=\frac{1}{1+e^{-\theta^Tx}}

3. Youtube 時長預估

Youtube時長預估的計算方式爲:

y=eθTxy = e^{\theta^Tx}

簡單解釋一下爲什麼,首先由Logit迴歸的定義:

logp1p=θTxlog\frac{p}{1-p}=\theta^Tx

p1p=eθTx\frac{p}{1-p}=e^{\theta^Tx}

可見Youtubed預測值yy實際上事是這個概率比值,也就是所謂的Odd值。

此外,YouTube訓練過程採用了播放時長加權,即損失函數爲:

loss=Tlabellogp(1label)log(1p)loss=T*label*logp - (1-label)log(1-p)

此操作實際相當於將當前正樣本賦值了T次,這使得樣本的odd值變爲

odd=Tp1pE[T]1pE[T](1+p)E[T]odd=\frac{Tp}{1-p}\approx \frac{E[T]}{1-p}\approx E[T](1 + p)\approx E[T]

其中p值在Youtube的場景下較小,由此可以看出odd表示觀看時長的期望值。

4. Selection Bias

所謂的Selection Bias指的是模型的訓練樣本和預測樣本的分佈不一致問題。

召回模型和排序模型一般使用曝光樣本訓練,召回模型需要處理全集和曝光樣本的select bias,排序模型需要處理曝光樣本與召回集的select bias。

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章