第一部分 認識商業化體系
免費傾銷+後向變現
互聯網三項可變現核心資產
知名協會:iab、4A、ANA
直觀認識在線廣告:目的與形式
品牌觸達(Brand Awareness):提升長時期內的轉化率和利潤
直接效果(Direct Response):有短期內明確用戶轉換行爲訴求
投入產出比 Return on Investment ROI
偏直接效果性廣告形式:條幅廣告(Banner) 、文字廣告(Textual)、郵件營銷(Email Direct Marketing,EDM)
偏品牌觸達性廣告形式:視頻廣告(video)、富媒體廣告(rich-media)、開屏廣告
移動廣告普通形式:條幅、開屏、推薦牆、信息流廣告
激勵性廣告:爲了刷榜、遊戲顯得有人氣
泛廣告商業產品:團購、網址導航、遊戲聯運(騰訊)
計算廣告的核心問題:給定用戶和環境,找到最合適的廣告投放策略以優化整體廣告活動的利潤。
先畫漏斗、分成多個步驟、找到各階段轉化率、多維護分析報表找問題
eCPM = effective cost per mile 千次展示可獲得的收入
如何標識一個用戶?
web用cookie、ios app用IDFA、android app用android id、除此之外用FingerPrint(IP + User Agent 都存在於http頭中)
6大算法問題:
用戶過程:
結算方式:CPT(按時間結算)、CPM(千次展示結算)、CPC(按點擊率、最主流)、CPS
離線:hadoop 在線:storm、spark
廣告系統特點:高併發低延遲(同時關注QPS和Latency)、數據處理的規模很大(用戶、環境、廣告三元建模)、數據處理速度優先於精度、主流程一致性要求不高
廣告系統設計原則:弱一致性、避免集中讀寫、不存在關係型數據庫、利用開源社區成熟技術
排序算法是核心業務邏輯不能開源!大公司往往排序和檢索一起做了!
第二部分 相關知識
最優化、信息檢索、機器學習
1、最優化 Optimization
推薦兩本書 《凸優化》、《數值優化》
第一類:無約束最優化問題 minf(x) f爲標量、x爲矢量
一般思路
目標函數不可/不易求導:下降單純形法(Ameoba變形蟲法)
目標函數易求導:梯度下降(找到最快下降方向,走一步),可採用批處理模式(實際過程中用的很少,因爲有zigzag問題)或串行模式(隨機梯度下降法,SGD)
第二類:帶約束最優化問題 minf(x) s.t. g(x)中的每一個都小於等於0 或 h(x) = 0(g表示關於x的一組函數、x爲矢量)
拉格朗日法:利用拉格朗日對偶函數變原問題爲對偶問題
2、信息檢索 Information Retrieval
詞袋(Bag of Words)表示:用關鍵詞TFIDF組成的矢量來表示文檔
TF(Term Frequency):某文檔中該詞出現的次數
IDF(Inverse Document Frequency):詞權重
用餘弦距離衡量兩個文檔的相似度
用戶檢索谷歌、跳槽->求倒排鏈->求交得到D1、D3->兩句話變成詞袋->與query算餘弦距離
簡單示例如:https://blog.csdn.net/a819825294/article/details/53705664(類繼承STL + 迭代器的靈活使用)
O(1)、因爲求倒排鏈的過程之前做了
3、統計機器學習 Statistical Machine Learning
貝葉斯學習、指數族分佈(map/reduce)
4、深度學習 Deep Learning
全連接多層感知機(MLP)、線性+非線性(sigmod等)迭代最後用反向傳播求解
深度學習跟大數據緊密聯繫
卷積神經網絡CNN:採用層(n*n*4)、卷積層、採用層、全連接MLP。核心:參數、卷積核共享
遞歸神經網絡RNN:解的時候問題很多、優化過程麻煩、其中常用的有LSTM
生成對抗網絡GAN:可能work無監督學習
深度學習優化基礎設施:GPU方案、並行計算方法(Google)、開源框架Tensorflow等(可以一定程度上忽略硬件)
第三部分 合約廣告
廣告位與展示量合約
CPT合約:典型場景有開屏廣告、高曝光廣告位、導航網站等
展示量合約與擔保式投送:採用千次展示付費CPM方式結算、典型場景有視頻廣告、富媒體廣告
如何高效混合靜態與動態廣告?
高併發的廣告系統:在線投放引擎
nginx:輕量級Web服務器、與FastCGI(C語言)一起使用
Zookeeper:解決分佈式應用中的一些數據管理問題(Paxos算法)、集羣管理(出現宕機迅速重新分配流量、Watch機制)
頻次控制:一個用戶看了多次之後效果就不好了
flume:高可用的、高可靠的、分佈式的海量日誌採集、聚合和傳輸的系統
redis:KV存儲系統、value可支持string、list等、批量寫且高併發的實時讀取、多種語言API
廣告監播和廣告安全:確保廣告是否出現在了頁面上、是否對品牌不利(比如優衣庫不想讓廣告出現在釣魚島頁面上)
第四部分 競價廣告
類似市場經濟、誰出價高誰展示
A個廣告要放到S個位置上去,當某一個廣告主提高或者降低價格,其收入都不會有明顯變化,就稱爲達到了納什均衡狀態。
第二高價:比如1個位置多個廣告主爭奪,第一名出價5,第二名出價3,那麼需要按3元對第一名收取廣告投放費用才能達到納什均衡。
最賺錢的廣告產品:搜索廣告(按eCPM排序)
北區東區統一競價、屬於同一個競價序列、一般有底色
北區保證與搜索詞的強相關性、東區可以出現弱相關性廣告
搜索廣告決策過程:查詢擴展(增加query)、在廣告庫中檢索(觸發)、排序(根據eCPM)、放置(北區放幾個東區放幾個 )、定價(北區和東區底價不同)
谷歌FB百度等不是實時競價產品!
查詢擴展主要模式
查詢擴展主要方式:基於推薦方法(利用搜索日誌數據)、基於主題模型的方法(利用一般文檔數據)、基於歷史效果的方法(利用廣告本身的歷史eCPM數據)
Google推出的關鍵詞競價廣告產品AdWords 關鍵突破 1、按eCPM排序 2、引入了GSP
淘寶直通車:淘寶專門服務於賣家的廣告產品,按CPC售賣,按照eCPM排名
剩餘流量變現產品:競價廣告網絡
與搜索廣告相比只有2個區別,其一是需要頁面標籤和用戶標籤作觸發,其二是不需要廣告放置。
Facebook audience network:移動應用首選的變現方式,對無FB賬號用戶不出廣告
與搜索技術的不同:廣告檢索技術
lucene
開源的全文檢索引擎
含index(離線或在線建倒排索引)和retrieval(給query返回結果)模塊
簡單易用API實現大量文檔檢索
實現了布爾檢索(根據size加速 )、模糊查詢等
不支持相關性檢索
市場發展方向是語義檢索
廣告檢索和搜索不同的在於超長的query和大文檔集,只是求相關最大的TopK
語義檢索思路:最鄰近檢索,當把廣告與用戶向量化後,檢索這個向量空間裏最相關的K篇文檔等價於計算向量距離並取K近鄰的問題,用到方法局部敏感哈希(LSH),ID變成向量是嵌入的過程,嵌入過程的起源是Word2Vec
kafka:分佈式消息系統,數據消費模式支持pull
與搜索廣告對應的需求方產品爲搜索引擎營銷(SEM)
參考 @北冥乘海生,自學用,侵刪!