推荐系统实践笔记(三)

1. 线性回归

  • 最小二乘估计的概率解释

线性回归模型如下:

y(i)=θTx(i)+ϵ(i)y^{(i)}=\theta^Tx^{(i)}+\epsilon^{(i)}

并假设误差ϵ\epsilon符合正太分布,即:

p(ϵ(i))=1σ2πe(ϵ(i)μ)22σ2p(\epsilon^{(i)})=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(\epsilon^{(i)}-\mu)^2}{2\sigma^2}}

且一般认为误差的均值为0,即μ=0\mu=0, ,得出:

p(σ(i))=1σ2πe(ϵ(i))22σ2p(\sigma^{(i)})=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(\epsilon^{(i)})^2}{2\sigma^2}}

p(ϵ(i))=1σ2πe(y(i)θTx(i))22σ2p(\epsilon^{(i)})=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}}

p(y(i)x(i);θ)=1σ2πe(y(i)θTx(i))22σ2p(y^{(i)}|x^{(i)};\theta)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}}

上式的含义为给定参数θ\theta情况下,y(i)y^{(i)}相对x(i)x^{(i)}的条件概率。样本中满足独立同分布,则所有样本成立的概率为:

L(θ)=i1np(y(i)x(i);θ)=(1σ2π)ne12σi=1n(y(i)θTx(i))2L(\theta)=\prod_{i-1}^n p(y^{(i)}|x^{(i)};\theta) = (\frac{1}{\sigma\sqrt{2\pi}})^ne^{-\frac{1}{2\sigma}\sum_{i=1}^n(y^{(i)}-\theta^Tx^{(i)})^2}

logL(θ)=log(1σ2π)n12σi=1n(y(i)θTx(i))2logL(\theta)=log(\frac{1}{\sigma\sqrt{2\pi}})^n - \frac{1}{2\sigma}\sum_{i=1}^n(y^{(i)}-\theta^Tx^{(i)})^2

选择θ\theta最打化似然函数logL(θ)logL(\theta):

θ=argmaxθlogL(θ)=arcminθ12i=1n(y(i)θTx(i))2\theta=argmax_{\theta}logL(\theta)=arcmin_{\theta}\frac{1}{2}\sum_{i=1}^n(y^{(i)}-\theta^Tx^{(i)})^2

回忆最小二乘估计的目标函数:

Q(θ)=i=12(y(i)θTx(i))2Q(\theta)=\sum_{i=1}^2(y^{(i)}-\theta^Tx^{(i)})^2

选择参数θ\theta最小化函数Q(θ)Q(\theta):

θ=argminθQ(θ)=argminθi=1n(y(i)θx(i))2\theta=argmin_{\theta}Q(\theta)=argmin_{\theta}\sum_{i=1}^n(y^{(i)}-\theta x^{(i)})^2

可以看出最小二乘估计与最大似然估计同解。

2. 逻辑回归

Logit函数定义如下:

Logit(p)=logp1pLogit(p)=log\frac{p}{1-p}

我们用线性回归模型拟合Logit函数,即:

logp1p=θTxlog\frac{p}{1-p}=\theta^Tx

得到:

p=11+eθTxp=\frac{1}{1+e^{-\theta^Tx}}

3. Youtube 时长预估

Youtube时长预估的计算方式为:

y=eθTxy = e^{\theta^Tx}

简单解释一下为什么,首先由Logit回归的定义:

logp1p=θTxlog\frac{p}{1-p}=\theta^Tx

p1p=eθTx\frac{p}{1-p}=e^{\theta^Tx}

可见Youtubed预测值yy实际上事是这个概率比值,也就是所谓的Odd值。

此外,YouTube训练过程采用了播放时长加权,即损失函数为:

loss=Tlabellogp(1label)log(1p)loss=T*label*logp - (1-label)log(1-p)

此操作实际相当于将当前正样本赋值了T次,这使得样本的odd值变为

odd=Tp1pE[T]1pE[T](1+p)E[T]odd=\frac{Tp}{1-p}\approx \frac{E[T]}{1-p}\approx E[T](1 + p)\approx E[T]

其中p值在Youtube的场景下较小,由此可以看出odd表示观看时长的期望值。

4. Selection Bias

所谓的Selection Bias指的是模型的训练样本和预测样本的分布不一致问题。

召回模型和排序模型一般使用曝光样本训练,召回模型需要处理全集和曝光样本的select bias,排序模型需要处理曝光样本与召回集的select bias。

在这里插入图片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章