原文地址：http://m.blog.csdn.net/article/details?id=50492787

一、廣告計算的基本概念

1、廣告的形式

在互聯網發展的過程中，廣告成爲了互聯網企業盈利的一個很重要的部分，根據不同的廣告形式，互聯網廣告可以分爲：

展示廣告(display ads)
贊助商搜索廣告(sponsored search)
上下文廣告(contextual advertising)

2、競價模型

對於在線廣告，主要有如下的幾種競價模型：

按展示付費(pay-per-impression)：直觀來講，按展示付費是指廣告商按照廣告被展示的次數付費，這是一種最普遍的競價模型；
按行爲付費(pay-per-action)：按行爲付費是指只有在廣告產生了銷售或者類似的一些轉化時，廣告商才付費；

當然，對於以上的兩種競價模型各有其侷限性：在按展示付費模型中，壓根沒有考慮到廣告的效果，只是按照廣告流量進行售賣的模式；對於按行爲付費模型，雖然其考慮到了廣告效果，但其的條件是產生了某種轉化，這種轉化有時很難追蹤和記錄。此時，爲了解決這兩種模型的侷限性，通常可以按照一個用戶是否會點擊廣告作爲最終的度量標準，即按點擊付費模型(pay-per-click)。

按點擊付費(pay-per-click)：根據用戶是否會點擊廣告來付費。

這裏便出現了一個重要的概念，便是廣告點擊率(the click-through rate, CTR)。

3、廣告點擊率(CTR)

廣告點擊率CTR是度量一個用戶對於一個廣告的行爲的最好的度量方法，廣告點擊率可以定義爲：對於一個廣告的被點擊(click)的次數於被展示(impression)的次數的比值。

C T R = # c l i c k # i m p r e s s i o n

廣告點擊率對於在線廣告有着重要的作用，在網絡中，對於有限的流量，通常要選擇出最優質的廣告進行投放，此時，CTR可以作爲選擇廣告和確定廣告順序的一個重要的標準。

但是在計算CTR時，由於數據的稀疏性，利用上述的計算方法得到的CTR通常具有較大的偏差，這樣的偏差主要表現在如下的兩種情況：

1、例如展示impression的次數很小，如1次，其中，點擊的次數也很小(這裏的很小是指數值很小)，如1，按照上述的CTR的計算方法，其CTR爲1，此時的點擊率就被我們估計高了；
2、例如展示的次數很大，但是點擊的次數很小，此時，利用上述的方法求得的CTR就會比實際的CTR要小得多。

出現上述兩種現象的主要原因是我們對分子impression和分母click的估計不準確引起的，部分原因可能是曝光不足等等，對於這樣的問題，我們可以通過相關的一些廣告的展示和點擊數據對CTR的公式進行平滑處理。

二、CTR的平滑方法

1、數據的層次結構——貝葉斯平滑

假設有N個相同的賬號(a1,a2,⋯,aN)，對於網頁p，對於這樣的網頁和賬號組(p,ai)。假設(C1,C2,⋯,CN)爲觀測到點擊數據，(r1,r2,⋯,rN)爲隱含的CTR的值，爲點擊率，點擊率在此是一個隱含的參數，廣告是否被點擊滿足二項分佈，即Binomial(Ii,ri)，其中，Ii表示廣告被展示的次數。

貝葉斯思想認爲，隱含的參數不是一個具體的值，而是滿足某個分佈，我們知道貝葉斯參數估計的基本過程爲：

先驗分佈+數據的知識=後驗分佈

已知二項分佈的共軛分佈爲Beta分佈，對此，有以下的兩點假設：

1、對於一個廣告，其點擊Ci符合二項分佈Binomial(Ii,ri)，其中，Ii表示的是展示的次數，ri表示的是廣告被點擊的概率；
2、對於所有的廣告，有其自身的CTR，其CTR滿足參數是α和β的貝塔分佈Beta(α,β)。

假設有N個廣告，廣告被展示的次數爲(I1,I2,⋯,IN)，廣告被點擊的次數爲(C1,C2,⋯,CN)，上述的兩個假設可以表示爲如下的形式：

其對應的概率圖模型爲：

點擊率ri不僅與(Ii,Ci)相關，而且與參數α和參數β相關，我們可以通過計算得到參數α和參數β的估計α̂ 和β̂ ，一旦α̂ 和β̂ 被確定後，則ri的估計爲：

r i = C i + α ̂ I i + α ̂ + β ̂

所以，現在，我們需要求解參數α和參數β的估計α̂ 和β̂ 。

點擊C的似然函數爲：ℙ(C1,C2,⋯,CN∣I1,I2,⋯,IN,α,β)，由於點擊的次數以及展示的次數之間都是相互獨立的，因此上式可以表示爲：

ℙ (C 1, C 2, \dots, C N ∣ I 1, I 2, \dots, I N, α, β) = \prod i = 1 N ℙ (C i ∣ I i, α, β) = \prod i = 1 N \int r i ℙ (C i, r i ∣ I i, α, β) d r i = \prod i = 1 N \int r i ℙ (C i, ∣ r i, I i) ℙ (r i ∣ α, β) d r i

已知

ℙ (C i, ∣ r i, I i) = r C i i (1 - r i) I i - C i

ℙ (r i ∣ α, β) = Γ ( α + β ) Γ ( α ) Γ ( β ) r α - 1 i (1 - r i) β - 1

則上式可以寫成：

= \prod i = 1 N \int r i ℙ (C i, ∣ r i, I i) ℙ (r i ∣ α, β) d r i = \prod i = 1 N \int r i r C i i (1 - r i) I i - C i Γ ( α + β ) Γ ( α ) + Γ ( β ) r α - 1 i (1 - r i) β - 1 d r i = \prod i = 1 N \int r i Γ ( α + β ) Γ ( α ) Γ ( β ) r C i + α - 1 i (1 - r i) I i - C I + β - 1 d r i = \prod i = 1 N Γ ( α + β ) Γ ( I i + α + β ) Γ ( C i + α ) Γ ( α ) Γ ( I i - C i + β ) Γ ( β )

此時，我們需要求得該似然函數的最大值，首先，我們對上述的似然函數取對數，即爲：

l o g ℙ (C 1, C 2, \dots, C N ∣ I 1, I 2, \dots, I N, α, β)

將上述的log似然函數分別對α和β求導數，即爲：

d l o g ℙ (C 1, C 2, \dots, C N ∣ I 1, I 2, \dots, I N, α, β)

d l o g ℙ (C 1, C 2, \dots, C N ∣ I 1, I 2, \dots, I N, α, β)

其中，Ψ(x)=ddxlnΓ(x)。通過the fixed-point iteration方法，可以得到如下的結果：

α n e w = α \sum N i = 1 [ Ψ ( C i + α ) - Ψ ( α ) ] \sum N i = 1 [ Ψ ( I i + α + β ) - Ψ ( α + β ) ]

β n e w = β \sum N i = 1 [ Ψ ( I i - C i + β ) - Ψ ( β ) ] \sum N i = 1 [ Ψ ( I i + α + β ) - Ψ ( α + β ) ]

上述的求解過程是一個迭代的過程，一旦求出了參數α和參數β的估計α̂ 和β̂ ，便可以求出點擊率的估計：

r i = C i + α ̂ I i + α ̂ + β ̂

2、數據在時間上的一致性——指數平滑

相比上述的貝葉斯平滑，指數平滑相對要簡單點，對於CTR中的點擊，這是個與時間相關的量，假設對於一個廣告，有M天的點擊和展示數據(I1,I2,⋯,IM)，(C1,C2,⋯,CM)。若要估計第M天的CTR的值，我們需要對分別對I和C進行平滑，得到平滑後的Î 和Ĉ 。其計算方法如下：

{C ̂ j = C j C ̂ j = γ C j + (1 - γ) C ̂ j - 1 if j = 1 if j = 2, \dots, M

{I ̂ j = I j I ̂ j = γ I j + (1 - γ) I ̂ j - 1 if j = 1 if j = 2, \dots, M

其中，γ稱爲平滑因子，且0<γ<1。對於上述的公式，若要計算第M天的平滑點擊，可以得到下面的公式：

C ̂ M = γ C M + (1 - γ) C ̂ M - 1 = γ C M + (1 - γ) (γ C M - 1 + (1 - γ) C ̂ M - 2) = γ C M + γ (1 - γ) C M - 1 + \dots + γ (1 - γ) j C M - j + \dots + γ (1 - γ) M - 1 C 1

參考文獻

Click-Through Rate Estimation for Rare Events in Online Advertising.Xuerui Wang, Wei Li, Ying Cui, Ruofei (Bruce) Zhang, Jianchang Mao Yahoo! Labs, Silicon Valley United States

【轉載】廣告計算——平滑CTR

一、廣告計算的基本概念

1、廣告的形式

2、競價模型

3、廣告點擊率(CTR)

二、CTR的平滑方法

1、數據的層次結構——貝葉斯平滑

2、數據在時間上的一致性——指數平滑

參考文獻

《Python進階》學習筆記

Leetcode 3161. 物塊放置查詢

leetcode 60 排列序列

一個docker容器暴露多個端口

微服務實踐之使用 Visual Studio 2022 調試Dapr 應用程序

wpf附加屬性理解 WPF附加屬性

【讀書筆記】《推薦系統(recommender systems An introduction)》第六章推薦系統的解釋

【轉載】技術向：一文讀懂卷積神經網絡

【用Python玩Machine Learning】KNN * 代碼 * 二

【用Python玩Machine Learning】KNN * 代碼 * 一

【doc2vec】學習筆記：From word2vec to doc2vec: an approach driven by Chinese restaurant process

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結