1 簡介

在用不對稱數據訓練一個預測模型時，比如在訓練廣告的CTR模型時，訓練數據就嚴重正負樣本不對稱，負樣本可能是正樣本的幾百倍，對於這種問題，常用的做法是對負樣本進行採樣，將採樣後的負樣本和正樣本一起作爲訓練數據。但是這樣的訓練數據訓練出的模型預測概率會比實際的概念要打，以爲對負樣本採樣導致訓練數據的分佈和原始數據的分佈不一致了。所以在預測時要對模型預測出的概念進行矯正。下面介紹採樣前後的概念關係。

2 推導過程

n：爲正樣本的個數
N：爲採樣後的負樣本的個數
r：爲採樣頻率
p′：爲採樣後的預測概率
p：爲實際的預測概率
採樣後事件的機率表示爲

$p ' 1 - p ' = n N . . . . . (1)$
原始數據的事件機率爲：

$p 1 - p = n N r$
所以有
$p ( 1 - p ) r = n N . . . . . (2)$

由(1)，(2)及對數機率概念得：

l n p 1 - p = l n p ' ( 1 - p ' ) r = w x

所以有

採樣後訓練數據訓練出的模型預測的概念用如下公式

p' = 1 1 + e - w x

原始數據的概率需要對訓練數據訓練出的模型做矯正，公式如下
$p = 1 1 + e - ( w x + l n ( r ) )$

zc02051126

發佈了137 篇原創文章 · 獲贊 91 · 訪問量 67萬+

他的留言板關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

CTR模型中的頻率矯正過程

1 簡介

2 推導過程

PDManer [元數建模]-v4.9.0 發佈：一款簡單好用的數據庫建模平臺

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

cs01 CSS Syntax

挑戰程序設計競賽 2.3章習題 poj 3046 Ant Counting

[MASM拾遺]Offset僞指令

h30 HTML Layout Elements

瞭解顯卡

一款基於C#開發的通訊調試工具（支持Modbus RTU、MQTT調試）

Linux/Golang/glibC系統調用

cs04 CSS Measurement Units

TCP/IP詳解卷1-協議：IP

併發編程中的術語總結

機器學習基礎第三章分類算法

共享庫：理解動態加載

對抗網絡在文本生成圖片中的應用

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結