CTR模型中的頻率矯正過程

1 簡介

在用不對稱數據訓練一個預測模型時,比如在訓練廣告的CTR模型時,訓練數據就嚴重正負樣本不對稱,負樣本可能是正樣本的幾百倍,對於這種問題,常用的做法是對負樣本進行採樣,將採樣後的負樣本和正樣本一起作爲訓練數據。但是這樣的訓練數據訓練出的模型預測概率會比實際的概念要打,以爲對負樣本採樣導致訓練數據的分佈和原始數據的分佈不一致了。所以在預測時要對模型預測出的概念進行矯正。下面介紹採樣前後的概念關係。

2 推導過程

  • n
  • N
  • r
  • p
  • p
  • 採樣後事件的機率表示爲

    p1p=nN.....(1)
  • 原始數據的事件機率爲:

    p1p=nNr

    所以有
    p(1p)r=nN.....(2)

由(1),(2)及對數機率概念得:

lnp1p=lnp(1p)r=wx

所以有

  • 採樣後訓練數據訓練出的模型預測的概念用如下公式

p=11+ewx
  • 原始數據的概率需要對訓練數據訓練出的模型做矯正,公式如下
    p=11+e(wx+ln(r))
發佈了137 篇原創文章 · 獲贊 91 · 訪問量 67萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章