互聯網廣告系統綜述四定向

互聯網廣告系統綜述四定向

聲明:

1)該博文是整理自網上很大牛和專家所無私奉獻的資料的。具體引用的資料請看參考文獻。具體的版本聲明也參考原文獻

2)本文僅供學術交流,非商用。所以每一部分具體的參考資料並沒有詳細對應,更有些部分本來就是直接從其他博客複製過來的。如果某部分不小心侵犯了大家的利益,還望海涵,並聯系老衲刪除或修改,直到相關人士滿意爲止。

3)本人才疏學淺,整理總結的時候難免出錯,還望各位前輩不吝指正,謝謝。

4)閱讀本文需要互聯網廣告業的基礎(如果沒有也沒關係了,沒有就看看,當做跟同學們吹牛的本錢)。

5)此屬於第一版本,若有錯誤,還需繼續修正與增刪。還望大家多多指點。請直接回帖,本人來想辦法處理。



所謂定向,就是廣告算法工程師提供給廣告主一些用戶屬性與條件,供廣告主用來找到自己的目標人羣的。

定向是很重要的,在古代,一個買大餅的武大郎,想必不會把大餅擔挑到幾十公里見不到人的戈壁灘去吆喝。一個賣草帽的老闆,也不會跑到青樓一條街去吆喝。定向就是廣告主選擇自己的目標人羣,避免造成“你喊啊,你喊破喉嚨也沒人理你”的尷尬場面。

這個功能可大可小,隨便做做點簡單的也許,好好做得很細也行,對小公司來說,投入產出比不見得會特別高,對大公司來說,可以投入大量人力來好好做,體現大公司風範。

在這個方面,機器學習的各種方法都可以用上,甚至可以不擇手段。

爲了能看到全面點的東西,先抄些別人總結的東西來吧,其實組內也沒有做出這麼多定向條件來。抄完後就說點自己組內做的。

 

一.廣告定向方式綜述

下面的內容來自騰訊廣點通的技術博客“火光搖曳”中的《細數廣告定向》。

1.1廣告定向方式

常見的廣告定向方式有以下幾種。

1、人羣屬性定向(Demographic Targeting)

基於用戶基本屬性,如年齡、性別、教育背景、職業、婚姻狀態、收入、消費能力、工作場所等做人羣定向,相對靜態,長期不變。

2、上下文定向(Contextual Targeting)

基於用戶當前查詢的query、瀏覽的網頁、使用的 App 等語義分析結果定向,均爲實時訪問上下文。另外,有些人喜歡把移動設備、LBS 地點、天氣也歸入此類,個人更傾向於特指內容型數據,如文本、視頻等。常見的定向屬性有關鍵詞(Google Adsense、Facebook、百度鳳巢)、否定關鍵詞(Google Adsense)、展示 URL(Google Adsense、百度網盟)、頁面主題(Google Adsense)、行業分類(百度網盟)等。

3、行爲定向(Behavioral Targeting)

基於用戶歷史行爲數據挖掘用戶興趣,行爲數據如網頁瀏覽、網頁點擊、查詢 query、UGC 內容(如微博、朋友圈等),一般需要區分長期、短期和實時興趣。常見的定向屬性就是興趣愛好,依靠人工定義一套層次化的類別體系,有些平臺還會按照時間段(Google Adsense、百度網盟)或者商業性(品友互動)進一步區分。

4、再營銷(Remarketing)

常見的有到訪再營銷、搜索再營銷、廣告點擊再營銷等。其中,到訪再營銷需要用戶訪問過商品頁面或者在商品頁發生過某種預定義的行爲(如收藏、下單、轉發等),在廣告投放時,廣告平臺爲用戶展示相同(直接查表)或類似(item-based、content-based)的商品;搜索再營銷根據用戶在搜索引擎中搜過的 query,在廣告聯盟網站上展示內容相關的廣告;廣告點擊再營銷則是依據用戶點擊的廣告數據,爲其展示相同或類似的廣告。一般實時性要求高,效果好,但是用戶覆蓋少。

5、相似用戶定向(Look-Alike Targeting)

側重基於確定的一小波人羣,圈出更大規模類似的人羣,保證定向效果的同時,擴大用戶覆蓋。因爲挖掘相似用戶過程中,主要依據用戶基本屬性或興趣(長期),更新頻率不高。Google Adsense 將曾經到訪過廣告頁面的用戶作爲基準定製人羣,然後按照用戶在 Google Display Network 上的頁面訪問行爲衡量用戶之間的相似性,以擴展更多用戶;而 Facebook 需要廣告主提交基準定製人羣,比如 Email、Phone、Facebook Ids、App Ids,後臺自動找到相似用戶。

這塊工作和 DSP 中的 audienceselection 非常類似。

6、地理位置定向(Geo Targeting)

移動互聯網比較熱門的定向,可以定位城市、商圈、學校等區域。

7、其他

時間定向(TimeTargeting):一天中的不同時間段。

設備定向(DeviceTargeting):如手機品牌、型號,操作系統,運營商等。

天氣定向(WeatherTargeting):對經常出現霧霾天氣的北京,投放口罩、空氣清新器應該是靠譜的。

語言定向(LanguageTargeting):一般具有國際化市場的廣告平臺會提供,如 Google、Facebook。

 

1.2廣告定向方式對比

按照用戶覆蓋和定向效果兩個維度,綜合考量不同定向方式之間的關係,如下圖所示:

廣告定向對比


橫座標是覆蓋率,縱座標是效果。不同類型的定向條件,效果不一樣,覆蓋率也不一樣,如remareting,覆蓋率低,但效果很好。

 

二.廣告定向方式數據生成

上面說的那麼多定向方式,一個公司全部實現的非常難,這裏挑幾個組內實現過的來說。

簡單的,在多數的平臺上,性別用戶都會自己填,手機平臺或者PC能從前端直接取到,根據日誌再統計一下就夠了。

下面說些需要做點工作的。

1、年齡

年齡很重要,廣告主很需要。對於一個平臺來說,有部分年齡是可以準確獲取到的。

還有很多未知年齡的用戶,可以跟這個用戶的好友,做一個平均值,這樣,很多用戶就有了年齡,這個方法雖然很簡單,卻很湊效,其他看來不少paper,倒也沒發現哪個更靠譜了。

2、興趣

基於用戶歷史行爲數據挖掘用戶興趣。

首先要做的工作是定義興趣,對於媒體來說,簡單的方式就是用網頁(頻道)來定義。

每個網頁一般會打一些標籤,簡單的可以通過運營團隊給這些網頁(頻道)標一些商業相關的興趣標籤(這個可以使用機器學習方法自己來搞,就是統計看每個頻道的用戶對各類廣告的點擊率,廣告自己是有商業相關信息的,那麼就能得到了各個頻道跟各個興趣的相關度,就把這些相關度作爲這個頻道的興趣向量)。

網頁被定義興趣標籤後(機器學習挖掘出來的是向量),用戶會在平臺上瀏覽一些網頁,就直接把這個網頁代表的興趣標籤(或者是向量)分給這個用戶。計算一個用戶的興趣時,就把他最近一段時間看過的網頁的興趣向量累加(標籤就用one hot表示),當然要對時間做一些衰減,很多天前看的,興趣會被減弱,權重小點;最近幾天看的,這個權重就大點。

這樣用戶就有了一個興趣向量,再根據一些歸一化的方法,把興趣向量歸一成一個全局的,就得到了用戶興趣向量,然後根據閾值選取,就得到了用戶的興趣。

3、關鍵字

跟興趣類似,首先對網頁分詞,得到每個網頁的詞。利用topic model選擇topic 明顯的優質詞,再根據運營或者某些方法得到的一批的商業詞(跟廣告主有半毛錢關係的詞),過濾每個網頁的裏面的商業詞,得到了每個網頁都用若干個商業詞表示。

計算一個用戶的關鍵詞時,就把他最近一段時間看過的網頁的商業詞分給該用戶。

分完後每個用戶都有了一大堆的關鍵詞(有可能重複),利用tf-idf對每個關鍵詞都弄出個權重來,再根據閾值選取,就得到了用戶的關鍵詞。

4、指定頁面用戶

用戶會瀏覽過很多網頁,其中有些是廣告主的主頁。

這裏就可以來些大招了——word2vec。用戶瀏覽過的網頁可以用一個id表示,那麼每個用戶就有了一串的id(表示這個用戶瀏覽過的網頁),把這串id當作一句話。那麼多個用戶的瀏覽記錄,就有了多句話。這麼多句話,就能作爲word2vec的輸入了,等word2vec算法跑完,每個網頁id就有了一個向量來表示了。

每個id的向量本身每一維沒啥意義(目前找不出來),只有他們的距離有意義。

廣告主過來下單的時候,哪個頁面跟這個廣告主的主頁最接近能計算出來的,那麼就可以事先計算好每個廣告主最相似的頁面,這時展示給廣告主一些勾選項,讓廣告主選擇指定瀏覽過某頁面的用戶投放。

這就是指定頁面用戶定向條件的挖掘方法,想看多點的話看另一組word2vec的博文的應用篇。

 

三.廣告定向線上架構

再來個有關係統架構方面的。


經過廣告算法工程師的工作,利用數據倉庫和集羣計算,離線完成用戶的定向條件的挖掘後,其他團隊會根據數據建立索引。

當廣告主過來下單的時候,可以查詢他的定向條件覆蓋的人數以及歷史售賣情況,根據這些信息廣告主進行出價和下單。

廣告主下單後會建立廣告計劃,廣告計劃以及定向條件會加載到存儲器。

離線挖掘好的用戶定向條件也會加載到線上存儲器。一個用戶過來後,線上服務會查詢廣告計劃的定向條件,也會查詢用戶的profile,根據這兩個東西的匹配來篩選適合投給這個用戶的廣告計劃。

然後剩下的就是算分排序,扣費等等事情了。後面的博文會討論。

 

致謝

多位互聯網博主如@Rickjin等。

多位同事的指點。

 

參考文獻

[1] http://www.flickering.cn/ads/2014/06/%E7%BB%86%E6%95%B0%E5%B9%BF%E5%91%8A%E5%AE%9A%E5%90%91/#comment-105騰訊的廣點通的技術博客《細數廣告定向》

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章