《計算廣告學(劉鵬)》聽課筆記1-3

網址:http://study.163.com/course/courseLearn.htm?courseId=321007#/learn/video?lessonId=435070&courseId=321007

1.1 廣告的目的
三個主體:advertiser medium audience
廣告是非人員的、低成本的用戶接觸(reach)
品牌(brank)廣告 vs 效果(direct)廣告:離線轉化率 vs 即時轉化
1.2 廣告有效性模型
三個階段
選擇:曝光-廣告位屬性;關注-減少干擾、推薦解釋、符合需求;
解釋:理解-用戶能看懂;信息接受-認同(廣告位不能只看流量,要高大上);
態度:保持-藝術性帶來的記憶效果;購買-價格可接受(價格敏感vs不敏感);
廣告創意
傳統廣告:幽默(+關注,-理解)、性感(+關注、-認同)、藝術(+保持,-理解)、折扣(+關注,+購買)
在線廣告:仿背景、大標識、簡單
1.3 廣告與銷售的區別
從偏廣告到偏銷售
硬廣(banner)
SEM(搜索廣告)
導航網站
淘寶直通車
返利網(跟廣告主籤銷售協議:CPS)
只看ROI(return on investment)沒意義:接近supply(媒體)的渠道(關注潛在用戶),ROI低,但對廣告主越有價值;接近demand(廣告主)的渠道(短期交易)相反
1.4 在線廣告的特點
對比
在線廣告:技術和產品驅動(精準定向、計算是核心問題、效果可衡量)
離線廣告:創業和客戶關係驅動
關鍵點和行業協會
展示廣告的標準化:iab
代理商的角色和代理費:4A
廣告主的利益:ANA
1.5 在線廣告市場
media->ad network;ad exchange; SSP(Supply Side Platform)->DSP;agency;advertiser
各方是博弈關係;有數據的一方佔優勢
1.6 核心問題和挑戰
Max ROI(users;contexts;ads)
特徵提取;ctr預測;競價市場機制;受限優化(量與質:保證受衆規模);reinforcement learning(強化學習:explore&exploit);推薦技術
實時索引;nosql存儲;離線計算(hadoop);在線學習(流計算);實時競價
large scale;動態性(用戶興趣);豐富的查詢信息(context+user)
1.7 搜索、廣告、推薦的比較
搜索 廣告 推薦
首要任務 相關性 ROI 用戶興趣
其它需求 垂直領域相互獨立 質量;安全性 多樣性;新鮮度
索引規模 十億級 百萬級 億級
個性化 展示和效果ad不同

推薦領域的downstream:把這一次點擊跟後續的行爲結合起來優化

1.8 投資回報(ROI)分析

eCPM=CTR(a,u,c)*value(a,u)

市場形態
CPM市場:固定eCPM
CPC市場:動態CTR,固定click value
CPS、CPA市場:動態CTR,動態click value
1.9 在線廣告系統結構
高併發投送系統
受衆定向系統
流式計算平臺(日誌收集、反饋、反作弊、計價)
信息高速公路(內部、外部數據收集處理)
模塊:
ad serving; ad retrieval; ad ranking; billing; anti-spam;session log generation;data warehouse;customized audience segmentation; audience targeting; ad management

2.1 常用廣告開源工具
Hadoop: HDFS, MapReduce
ZooKeeper(Yahoo)
Hive(Facebook)
Hbase
Storm(Twitter)
Mahout
Spark
Thrift(Facebook), ProtoBuf(Google)
Scribe(Facebook), Flume: 日誌收集工具

2.2 合約廣告

Guaranteed Delivery
CTR預測
流量預測(forecasting)
受衆定向(audience targeting)
Ad server
Ad retrieval;
Ad ranking; 
Allocation
代表公司
yahoo
sina

2.3 在線分配問題

三方博弈:媒體、廣告主、用戶;或四方博弈:加上代理商

二部圖匹配
ad_list<->(context, user)_list
數學基礎:拉格朗日方法、KKT條件、對偶問題
High Water Mark算法:利用歷史數據求解serving rate
受衆定向:地域、人口屬性、行爲分類

品牌廣告主的曝光有獨佔性

2.4 Hadoop介紹

Hadoop vs Strom
Hadoop:調度計算而不是調度數據
Strom:調度數據
Hadoop vs MPI
Hadoop:用戶級別的計算
MPI:文檔級別的計算
Hadoop streaming: 類似UNIX的管道

常用統計模型
指數族分佈:最大似然估計可以通過充分統計量鏈接到數據;mapper統計,reducer求解參數
指數族混合分佈:一次迭代求解不了參數,使用EM多次迭代
非指數族分佈(梯度分佈):mapper收集梯度,reducer更新參數;多次迭代
Oozie工作流引擎:job調度,用XML定義依賴;有向無環圖;(vs Azkaban:batch scheduler)

3.1 受衆定向

Ad User Context的標籤體系
上下文標籤是一種即時標籤
ad:category, advertiser, campaign, solution, creative
user:gender, age, location, category
context:domain, channel, topic, url
標籤體系主要作用
作用1:建立面向廣告主的流量售賣體系
作用2:爲CTR預估等模塊提供原始特徵
受衆定向方法
重定向:效果好
地域和人口屬性:效果差,但廣告主容易接受
上下文定向和行爲定向:效果中等
網站和頻道定向:中等
hyper-local:精確到小區級別,效果好,但要在mobile上做
look-alike:提供種子用戶,找相似的。效果中上
代表公司
AudienceScience:第三方數據標籤服務+自營ad network

3.2 行爲定向

重要行爲
Transaction:交易記錄,價值最高
Pre-transaction:商品瀏覽、比價等
Paid search click;ad click
search click; search
share
page view:只代表興趣,對廣告效果影響不大
ad view:負係數,看得越多越疲勞
系統結構
日誌  tagger 用戶標籤 
PV=*Search=*Ad click=*  pv taggersearch taggerad tagger  p(u, t1)=*p(u, t2)=*p(u, t3)=* 

long-term行爲定向
滑動窗口方式:對不同類型的標籤,窗長或衰減係數不一樣
時間衰減方式
Reach/CTR 曲線:reach=100%時,ctr=無定向的ctr;只用supply的標籤,曲線肯定不夠好

建立標籤體系的方法
分類vs聚類:聚類的標籤廣告主不易接受
demand端標籤 vs supply端:supply端量大,但效果不好

3.3 上下文定向
page attributes cache
url
keywords
topics
page fetcher & analysis
3.4 Topic Model
有向圖模型
箭頭:條件概率
灰的node:可觀測的
空心node:需要計算的變量
框:可重複的
pLSI; LDA; Gamma-Poisson
求解:VB EM; Collapsed Gibbs-sampling(MCMC, Markov-chain Monte-Carlo)
並行化:mapper上sampling;reducer上全局update;MPI或者Spark效率勝過hadoop
Supervised and hierarchy: 
Supervised LDA;
Hierarchically supervised LDA
No free lunch thesis
對問題需要先驗的假設,否則任何方法平均性能都一樣
3.5 數據加工和交易

可以類比石油行業
油田-數據源:搜索、電商、門戶、線下數據(例如銀聯)
原油-用戶行爲:
煉油廠-定向系統
成品油-用戶標籤
加油站-廣告投放
有價值的數據
用戶標識:cookie-mapping
用戶行爲:去除熱點事件的影響;越主動的、機會成本越高的、越靠近demand的價值越大
demand數據:用戶retargeting,look-alike
用戶屬性和地理位置:
社交網絡數據:好友關係;實名網絡的人口屬性數據
Data Management Platform
數據收集和加工-data highway
對外交易能力-data exchange
跨媒體的用戶標籤-tagging
定製化的用戶劃分-user segment
統一對外數據接口-tag management
代表公司
Bluekai:
接入中小網站的數據
產生收益跟網站主分成
不運營廣告業務
細分類別標籤+開放體系的標籤
規避風險:用戶可看到自己的信息被誰用
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章