1 簡介
在用不對稱數據訓練一個預測模型時,比如在訓練廣告的CTR模型時,訓練數據就嚴重正負樣本不對稱,負樣本可能是正樣本的幾百倍,對於這種問題,常用的做法是對負樣本進行採樣,將採樣後的負樣本和正樣本一起作爲訓練數據。但是這樣的訓練數據訓練出的模型預測概率會比實際的概念要打,以爲對負樣本採樣導致訓練數據的分佈和原始數據的分佈不一致了。所以在預測時要對模型預測出的概念進行矯正。下面介紹採樣前後的概念關係。
2 推導過程
n:爲正樣本的個數 N:爲採樣後的負樣本的個數 r:爲採樣頻率 p′:爲採樣後的預測概率 p:爲實際的預測概率 採樣後事件的機率表示爲
p′1−p′=nN.....(1) 原始數據的事件機率爲:
p1−p=nNr
所以有
p(1−p)r=nN.....(2)
由(1),(2)及對數機率概念得:
所以有
- 採樣後訓練數據訓練出的模型預測的概念用如下公式
- 原始數據的概率需要對訓練數據訓練出的模型做矯正,公式如下
p=11+e−(wx+ln(r))