1. 線性迴歸
線性迴歸模型如下:
y(i)=θTx(i)+ϵ(i)
並假設誤差ϵ符合正太分佈,即:
p(ϵ(i))=σ2π1e−2σ2(ϵ(i)−μ)2
且一般認爲誤差的均值爲0,即μ=0, ,得出:
p(σ(i))=σ2π1e−2σ2(ϵ(i))2
p(ϵ(i))=σ2π1e−2σ2(y(i)−θTx(i))2
p(y(i)∣x(i);θ)=σ2π1e−2σ2(y(i)−θTx(i))2
上式的含義爲給定參數θ情況下,y(i)相對x(i)的條件概率。樣本中滿足獨立同分布,則所有樣本成立的概率爲:
L(θ)=∏i−1np(y(i)∣x(i);θ)=(σ2π1)ne−2σ1∑i=1n(y(i)−θTx(i))2
logL(θ)=log(σ2π1)n−2σ1∑i=1n(y(i)−θTx(i))2
選擇θ最打化似然函數logL(θ):
θ=argmaxθlogL(θ)=arcminθ21∑i=1n(y(i)−θTx(i))2
回憶最小二乘估計的目標函數:
Q(θ)=i=1∑2(y(i)−θTx(i))2
選擇參數θ最小化函數Q(θ):
θ=argminθQ(θ)=argminθ∑i=1n(y(i)−θx(i))2
可以看出最小二乘估計與最大似然估計同解。
2. 邏輯迴歸
Logit函數定義如下:
Logit(p)=log1−pp
我們用線性迴歸模型擬合Logit函數,即:
log1−pp=θTx
得到:
p=1+e−θTx1
3. Youtube 時長預估
Youtube時長預估的計算方式爲:
y=eθTx
簡單解釋一下爲什麼,首先由Logit迴歸的定義:
log1−pp=θTx
1−pp=eθTx
可見Youtubed預測值y實際上事是這個概率比值,也就是所謂的Odd值。
此外,YouTube訓練過程採用了播放時長加權,即損失函數爲:
loss=T∗label∗logp−(1−label)log(1−p)
此操作實際相當於將當前正樣本賦值了T次,這使得樣本的odd值變爲
odd=1−pTp≈1−pE[T]≈E[T](1+p)≈E[T]
其中p值在Youtube的場景下較小,由此可以看出odd表示觀看時長的期望值。
4. Selection Bias
所謂的Selection Bias指的是模型的訓練樣本和預測樣本的分佈不一致問題。
召回模型和排序模型一般使用曝光樣本訓練,召回模型需要處理全集和曝光樣本的select bias,排序模型需要處理曝光樣本與召回集的select bias。