《計算廣告學（劉鵬）》聽課筆記1-3

網址：http://study.163.com/course/courseLearn.htm?courseId=321007#/learn/video?lessonId=435070&courseId=321007

1.1 廣告的目的
三個主體：advertiser medium audience
廣告是非人員的、低成本的用戶接觸（reach）
品牌（brank）廣告 vs 效果（direct）廣告：離線轉化率 vs 即時轉化
1.2 廣告有效性模型
三個階段
選擇：曝光-廣告位屬性；關注-減少干擾、推薦解釋、符合需求；
解釋：理解-用戶能看懂；信息接受-認同（廣告位不能只看流量，要高大上）；
態度：保持-藝術性帶來的記憶效果；購買-價格可接受（價格敏感vs不敏感）；
廣告創意
傳統廣告：幽默（+關注，-理解）、性感（+關注、-認同）、藝術（+保持，-理解）、折扣（+關注，+購買）
在線廣告：仿背景、大標識、簡單
1.3 廣告與銷售的區別
從偏廣告到偏銷售
硬廣（banner）
SEM（搜索廣告）
導航網站
淘寶直通車
返利網（跟廣告主籤銷售協議：CPS）
只看ROI（return on investment）沒意義：接近supply（媒體）的渠道（關注潛在用戶），ROI低，但對廣告主越有價值；接近demand（廣告主）的渠道（短期交易）相反
1.4 在線廣告的特點
對比
在線廣告：技術和產品驅動（精準定向、計算是核心問題、效果可衡量）
離線廣告：創業和客戶關係驅動
關鍵點和行業協會
展示廣告的標準化：iab
代理商的角色和代理費：4A
廣告主的利益：ANA
1.5 在線廣告市場
media->ad network;ad exchange; SSP(Supply Side Platform)->DSP;agency;advertiser
各方是博弈關係；有數據的一方佔優勢
1.6 核心問題和挑戰
Max ROI（users；contexts；ads）
特徵提取；ctr預測；競價市場機制；受限優化（量與質：保證受衆規模）；reinforcement learning（強化學習：explore&exploit）;推薦技術
實時索引；nosql存儲；離線計算（hadoop）；在線學習（流計算）；實時競價
large scale；動態性（用戶興趣）；豐富的查詢信息（context+user）
1.7 搜索、廣告、推薦的比較

	搜索	廣告	推薦
首要任務	相關性	ROI	用戶興趣
其它需求	垂直領域相互獨立	質量；安全性	多樣性；新鮮度
索引規模	十億級	百萬級	億級
個性化	少	展示和效果ad不同	多

推薦領域的downstream：把這一次點擊跟後續的行爲結合起來優化

1.8 投資回報（ROI）分析

eCPM=CTR（a，u，c）*value（a，u）

市場形態
CPM市場：固定eCPM
CPC市場：動態CTR，固定click value
CPS、CPA市場：動態CTR，動態click value
1.9 在線廣告系統結構
高併發投送系統
受衆定向系統
流式計算平臺（日誌收集、反饋、反作弊、計價）
信息高速公路（內部、外部數據收集處理）
模塊：
ad serving; ad retrieval; ad ranking; billing; anti-spam;session log generation；data warehouse；customized audience segmentation； audience targeting； ad management

2.1 常用廣告開源工具
Hadoop: HDFS, MapReduce
ZooKeeper(Yahoo)
Hive(Facebook)
Hbase
Storm(Twitter)
Mahout
Spark
Thrift(Facebook)， ProtoBuf(Google)
Scribe(Facebook), Flume: 日誌收集工具

2.2 合約廣告

Guaranteed Delivery
CTR預測
流量預測（forecasting）
受衆定向(audience targeting)
Ad server
Ad retrieval;
Ad ranking;
Allocation
代表公司
yahoo
sina

2.3 在線分配問題

三方博弈：媒體、廣告主、用戶；或四方博弈：加上代理商

二部圖匹配
ad_list<->(context, user)_list
數學基礎：拉格朗日方法、KKT條件、對偶問題
High Water Mark算法：利用歷史數據求解serving rate
受衆定向：地域、人口屬性、行爲分類

品牌廣告主的曝光有獨佔性

2.4 Hadoop介紹

Hadoop vs Strom
Hadoop：調度計算而不是調度數據
Strom：調度數據
Hadoop vs MPI
Hadoop：用戶級別的計算
MPI：文檔級別的計算
Hadoop streaming：類似UNIX的管道

常用統計模型
指數族分佈：最大似然估計可以通過充分統計量鏈接到數據；mapper統計，reducer求解參數
指數族混合分佈：一次迭代求解不了參數，使用EM多次迭代
非指數族分佈（梯度分佈）：mapper收集梯度，reducer更新參數；多次迭代
Oozie工作流引擎：job調度，用XML定義依賴；有向無環圖；（vs Azkaban：batch scheduler）

3.1 受衆定向

Ad User Context的標籤體系
上下文標籤是一種即時標籤
ad：category, advertiser, campaign, solution, creative
user：gender, age, location, category
context：domain, channel, topic, url
標籤體系主要作用
作用1：建立面向廣告主的流量售賣體系
作用2：爲CTR預估等模塊提供原始特徵
受衆定向方法
重定向：效果好
地域和人口屬性：效果差，但廣告主容易接受
上下文定向和行爲定向：效果中等
網站和頻道定向：中等
hyper-local：精確到小區級別，效果好，但要在mobile上做
look-alike：提供種子用戶，找相似的。效果中上
代表公司
AudienceScience：第三方數據標籤服務+自營ad network

3.2 行爲定向

重要行爲
Transaction：交易記錄，價值最高
Pre-transaction：商品瀏覽、比價等
Paid search click；ad click
search click； search
share
page view：只代表興趣，對廣告效果影響不大
ad view：負係數，看得越多越疲勞
系統結構

日誌	tagger	用戶標籤
PV=Search=Ad click=*	pv taggersearch taggerad tagger	p(u, t1)=p(u, t2)=p(u, t3)=*

long-term行爲定向
滑動窗口方式：對不同類型的標籤，窗長或衰減係數不一樣
時間衰減方式
Reach/CTR 曲線：reach=100%時，ctr=無定向的ctr；只用supply的標籤，曲線肯定不夠好

建立標籤體系的方法
分類vs聚類：聚類的標籤廣告主不易接受
demand端標籤 vs supply端：supply端量大，但效果不好

3.3 上下文定向
page attributes cache
url
keywords
topics
page fetcher & analysis
3.4 Topic Model
有向圖模型
箭頭：條件概率
灰的node：可觀測的
空心node：需要計算的變量
框：可重複的
pLSI; LDA; Gamma-Poisson
求解：VB EM; Collapsed Gibbs-sampling(MCMC, Markov-chain Monte-Carlo)
並行化：mapper上sampling；reducer上全局update；MPI或者Spark效率勝過hadoop
Supervised and hierarchy:
Supervised LDA;
Hierarchically supervised LDA
No free lunch thesis
對問題需要先驗的假設，否則任何方法平均性能都一樣
3.5 數據加工和交易

可以類比石油行業
油田-數據源：搜索、電商、門戶、線下數據（例如銀聯）
原油-用戶行爲：
煉油廠-定向系統
成品油-用戶標籤
加油站-廣告投放
有價值的數據
用戶標識：cookie-mapping
用戶行爲：去除熱點事件的影響；越主動的、機會成本越高的、越靠近demand的價值越大
demand數據：用戶retargeting，look-alike
用戶屬性和地理位置：
社交網絡數據：好友關係；實名網絡的人口屬性數據
Data Management Platform
數據收集和加工-data highway
對外交易能力-data exchange
跨媒體的用戶標籤-tagging
定製化的用戶劃分-user segment
統一對外數據接口-tag management
代表公司
Bluekai：
接入中小網站的數據
產生收益跟網站主分成
不運營廣告業務
細分類別標籤+開放體系的標籤
規避風險：用戶可看到自己的信息被誰用

《計算廣告學（劉鵬）》聽課筆記1-3

推薦引擎：如何解決新用戶“冷啓動”

在線廣告的exploration/exploitation trade-off（勘探和開採問題）

七年過去了，讓我們重新審視一下Twitter

《計算廣告學（劉鵬）》聽課筆記1-3

CIKM2014參會印象

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結