初識計算廣告

第一部分 認識商業化體系

免費傾銷+後向變現

互聯網三項可變現核心資產

知名協會:iab、4A、ANA

直觀認識在線廣告:目的與形式

品牌觸達(Brand Awareness):提升長時期內的轉化率和利潤

直接效果(Direct Response):有短期內明確用戶轉換行爲訴求

投入產出比 Return on Investment ROI

偏直接效果性廣告形式:條幅廣告(Banner) 、文字廣告(Textual)、郵件營銷(Email Direct Marketing,EDM)

偏品牌觸達性廣告形式:視頻廣告(video)、富媒體廣告(rich-media)、開屏廣告

移動廣告普通形式:條幅、開屏、推薦牆、信息流廣告

激勵性廣告:爲了刷榜、遊戲顯得有人氣

泛廣告商業產品:團購、網址導航、遊戲聯運(騰訊)

計算廣告的核心問題:給定用戶和環境,找到最合適的廣告投放策略以優化整體廣告活動的利潤。

先畫漏斗、分成多個步驟、找到各階段轉化率、多維護分析報表找問題

eCPM = effective cost per mile 千次展示可獲得的收入

如何標識一個用戶?

web用cookie、ios app用IDFA、android app用android id、除此之外用FingerPrint(IP + User Agent 都存在於http頭中)

6大算法問題:

用戶過程:

結算方式:CPT(按時間結算)、CPM(千次展示結算)、CPC(按點擊率、最主流)、CPS

離線:hadoop 在線:storm、spark

廣告系統特點:高併發低延遲(同時關注QPS和Latency)、數據處理的規模很大(用戶、環境、廣告三元建模)、數據處理速度優先於精度、主流程一致性要求不高

廣告系統設計原則:弱一致性、避免集中讀寫、不存在關係型數據庫、利用開源社區成熟技術

排序算法是核心業務邏輯不能開源!大公司往往排序和檢索一起做了!

 

第二部分 相關知識

最優化、信息檢索、機器學習

1、最優化 Optimization

推薦兩本書 《凸優化》、《數值優化》

第一類:無約束最優化問題 minf(x) f爲標量、x爲矢量

一般思路

目標函數不可/不易求導:下降單純形法(Ameoba變形蟲法)

目標函數易求導:梯度下降(找到最快下降方向,走一步),可採用批處理模式(實際過程中用的很少,因爲有zigzag問題)或串行模式(隨機梯度下降法,SGD)

第二類:帶約束最優化問題 minf(x) s.t. g(x)中的每一個都小於等於0 或 h(x) = 0(g表示關於x的一組函數、x爲矢量)

拉格朗日法:利用拉格朗日對偶函數變原問題爲對偶問題

2、信息檢索 Information Retrieval

詞袋(Bag of Words)表示:用關鍵詞TFIDF組成的矢量來表示文檔

TF(Term Frequency):某文檔中該詞出現的次數

IDF(Inverse Document Frequency):詞權重

用餘弦距離衡量兩個文檔的相似度

用戶檢索谷歌、跳槽->求倒排鏈->求交得到D1、D3->兩句話變成詞袋->與query算餘弦距離

簡單示例如:https://blog.csdn.net/a819825294/article/details/53705664(類繼承STL + 迭代器的靈活使用)

O(1)、因爲求倒排鏈的過程之前做了

3、統計機器學習 Statistical Machine Learning

貝葉斯學習、指數族分佈(map/reduce)

4、深度學習 Deep Learning

全連接多層感知機(MLP)、線性+非線性(sigmod等)迭代最後用反向傳播求解

深度學習跟大數據緊密聯繫

卷積神經網絡CNN:採用層(n*n*4)、卷積層、採用層、全連接MLP。核心:參數、卷積核共享

遞歸神經網絡RNN:解的時候問題很多、優化過程麻煩、其中常用的有LSTM

生成對抗網絡GAN:可能work無監督學習

深度學習優化基礎設施:GPU方案、並行計算方法(Google)、開源框架Tensorflow等(可以一定程度上忽略硬件)

 

第三部分 合約廣告

廣告位與展示量合約

CPT合約:典型場景有開屏廣告、高曝光廣告位、導航網站等

展示量合約與擔保式投送:採用千次展示付費CPM方式結算、典型場景有視頻廣告、富媒體廣告

如何高效混合靜態與動態廣告?

高併發的廣告系統:在線投放引擎

nginx:輕量級Web服務器、與FastCGI(C語言)一起使用

Zookeeper:解決分佈式應用中的一些數據管理問題(Paxos算法)、集羣管理(出現宕機迅速重新分配流量、Watch機制)

頻次控制:一個用戶看了多次之後效果就不好了

flume:高可用的、高可靠的、分佈式的海量日誌採集、聚合和傳輸的系統

redis:KV存儲系統、value可支持string、list等、批量寫且高併發的實時讀取、多種語言API

廣告監播和廣告安全:確保廣告是否出現在了頁面上、是否對品牌不利(比如優衣庫不想讓廣告出現在釣魚島頁面上)

 

第四部分 競價廣告

類似市場經濟、誰出價高誰展示

A個廣告要放到S個位置上去,當某一個廣告主提高或者降低價格,其收入都不會有明顯變化,就稱爲達到了納什均衡狀態。

第二高價:比如1個位置多個廣告主爭奪,第一名出價5,第二名出價3,那麼需要按3元對第一名收取廣告投放費用才能達到納什均衡。

最賺錢的廣告產品:搜索廣告(按eCPM排序)

北區東區統一競價、屬於同一個競價序列、一般有底色

北區保證與搜索詞的強相關性、東區可以出現弱相關性廣告

搜索廣告決策過程:查詢擴展(增加query)、在廣告庫中檢索(觸發)、排序(根據eCPM)、放置(北區放幾個東區放幾個 )、定價(北區和東區底價不同)

谷歌FB百度等不是實時競價產品!

查詢擴展主要模式

查詢擴展主要方式:基於推薦方法(利用搜索日誌數據)、基於主題模型的方法(利用一般文檔數據)、基於歷史效果的方法(利用廣告本身的歷史eCPM數據)

Google推出的關鍵詞競價廣告產品AdWords 關鍵突破 1、按eCPM排序 2、引入了GSP

淘寶直通車:淘寶專門服務於賣家的廣告產品,按CPC售賣,按照eCPM排名

剩餘流量變現產品:競價廣告網絡

與搜索廣告相比只有2個區別,其一是需要頁面標籤和用戶標籤作觸發,其二是不需要廣告放置。

Facebook audience network:移動應用首選的變現方式,對無FB賬號用戶不出廣告

與搜索技術的不同:廣告檢索技術

lucene

開源的全文檢索引擎

含index(離線或在線建倒排索引)和retrieval(給query返回結果)模塊

簡單易用API實現大量文檔檢索

實現了布爾檢索(根據size加速 )、模糊查詢等

不支持相關性檢索

市場發展方向是語義檢索

廣告檢索和搜索不同的在於超長的query和大文檔集,只是求相關最大的TopK

語義檢索思路:最鄰近檢索,當把廣告與用戶向量化後,檢索這個向量空間裏最相關的K篇文檔等價於計算向量距離並取K近鄰的問題,用到方法局部敏感哈希(LSH),ID變成向量是嵌入的過程,嵌入過程的起源是Word2Vec

kafka:分佈式消息系統,數據消費模式支持pull

與搜索廣告對應的需求方產品爲搜索引擎營銷(SEM)

參考 @北冥乘海生,自學用,侵刪!

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章