大數據的價值是如何得以彰顯的?

說明:原文2016-09-22發表於阿里云云棲社區https://yq.aliyun.com/articles/60878


大數據價值的最大彰顯——計算廣告?


大數據有價值,這個觀念似乎已得到很大程度的認可。

當然,也有質疑的,比如《21世紀商業評論》的發行人吳伯凡先生,他就曾說“大數據本質上是一種垃圾”。但話鋒一轉,他又說“如果你有好的方式,把這些垃圾,好象沒有用的東西,你能夠提煉出來,加工出來,那就是很有用的。”

這其實就是大數據的特徵之一——“價值大,但密度低”的另一種翻版說法,也就是說吳先生並沒有真的認爲“大數據就是垃圾”。
那麼我們怎樣才能讓大數據變廢爲寶,使其價值是得以彰顯的呢?

在回答這個問題之一,我們先找幾個沒有什麼爭議的大數據公司,看看他們是怎麼玩的。

大數據公司的第一道門檻,就是你得有大量的數據(此外的門檻,還包括具備大數據思維和能出活的數據工程師)。在互聯網領域的公司,在這個方面有着得天獨厚的優勢。國外的Alphabet(谷歌母公司)和Facebook,國內的BAT(百度、阿里和騰訊)都可以算是比較徹底的大數據公司。我們來看看他們2015年的營收情況(如表1所示)。

表1 幾個大數據公司的2015年的營收情況


公司 Alphabet Facebook 百度 阿里 騰訊
總收入(億美元) 817.62 179.28 102.23 122.93 158.41
廣告營收(億美元) 732.23 170.83 100.78 77.04 26.90+87.14
廣告所佔比例 89.55% 95.28% 98.58% 62.67% 16.98%+55.01%

從表1可以看出,廣告營收分別在Alphabet和Facebook整個公司營收的絕大部分,其比例分別爲89.55%和95.28%。我們再來看國內的廣告巨頭,2015年百度102.23億美元的收入裏,其中廣告收入達到100.78億,其比例達到驚人的98.58%。阿里巴巴(62.7%)和騰訊(55.01%)的比例亦不容小覷。騰訊之所以用加號(+)單獨一列,是因爲騰訊的部分廣告收入和遊戲收入攪和到一起了,剪不斷,理還亂,如它的遊戲聯運(16.98%),既可以算得上游戲收入,但其在本質上也可歸屬於廣告收入。

從上面所列的數字,可以給我們帶來一個直觀的感受,那就是互聯網行業的大數據公司,其核心商業價值的彰顯,竟然就是赤裸裸的廣告。但是,這裏的廣告,並不是我們傳統意義上的線下廣告,而是通過一種付費內容的載體,是對流量和數據進行變現,與傳統廣告有非常大的差別。

計算廣告的最大挑戰是什麼?


大數據專家劉鵬先生認爲[1],不瞭解計算廣告,就不可能深入地瞭解互聯網,也不太容易真正理解大數據。那麼,什麼是計算廣告呢?

計算廣告(Computational Advertising)是一門正在興起的交叉學科,致力於採用數據挖掘(如大規模搜索、文本分析和信息獲取)、機器學習等人工智能手段,結合用戶反饋,行爲分析,甚至心理學等,來提高廣告相關性,交互性,實現廣告主、廣告網絡(如AdSense)和用戶的自動化匹配。

我們知道,大數據的核心價值就是預測。

作爲大數據和核心應用之一,計算廣告,更是如此。它要完成的核心任務,就是預測哪些用戶對哪些廣告感興趣,然後據此推送相應的廣告。

說得更加學術點,就是在特定語境下特定用戶和相應的廣告之間找到“最佳匹配”。

這裏的語境,可以是用戶正在訪問的網頁,也可以是用戶在搜索引擎中輸入的關鍵詞,還可以是用戶正在看的書、聽的音樂等。潛在廣告池的廣告數量,可能達到幾十億,而用戶的數量也同處於這個級別。故此,這個“最佳匹配”,面臨的最大挑戰就是在複雜約束條件下的大規模優化和搜索問題。

簡單來說,在數以千萬(甚至上億)級別的網絡用戶反饋形成的、快速變化的數據空間,計算廣告並沒有確定的“ground truth”(地面實況,即用於有監督訓練的訓練集的分類精度),同時它也無法通過均勻地對總體空間進行採樣,構建魯棒性很強的訓練集。更爲要命的是,其建模的對象,是人的行爲,而人的行爲又極大程度地受到系統輸出的影響。

人類學家兼數學家托馬斯·克倫普在其著作《數字人類學》強調[2],數據的背後,其實就是人類。確切來說,數據,在本質上,是人類觀察世界的表徵形式。研究數據,在某種程度上,就是在研究人。計算廣告領域的研究,尤其如此。
前文我們提到,大數據的核心價值就是預測。而預測通常分爲三個層次(如圖1所示),最內層是對人性的預測,這個其實不用預測,人性使然。比如,人餓了會怎樣?他(她)會找事物吃,不找東西吃會餓死。手碰到火後,又會怎樣?他(她)會很快拿開,手不拿開會疼。

大數據預測的三個層次
圖1 預測的三個層次


預測的中間層就是趨勢,這是大數據的拿手好戲。著名哲學家奧古斯特·孔德(1798年~1857年)認爲,人做個體是無序的,具有“自由意志”,但樣本增加至全社會,大數定律就會發揮作用,人們就可以從中發現穩定的規律。200多年後的今天,全球複雜網絡研究權威艾伯特·拉斯洛·巴拉巴西(Albert-László Barabási),用大數據分析支撐了孔德的觀點,他在其著作《爆發》表示[3]:人類行爲93%是可以預測。

預測的最外層就是對習慣的預測,某種程度上,也就是對個人“自由意志”預測。這個是最難的。比如說,前天我吃了漢堡,昨天我也吃了漢堡,今天我還吃了漢堡,你能預測我明天吃什麼嗎?的確有可能,我明天還吃漢堡,但連續三天都吃漢堡,我完全更有可能由於吃膩了,換個口味啊。但是基於數據的歸納法(這是人類絕大多數知識存在的根基),很容易得出預測的結論:我明天還吃漢堡。這種預測,哪裏是預測,明明就是對個人自由意志的“猜測”,準不準,天知道!

而計算廣告的受衆對象,就是對個人行爲習慣(自由意志)的預測,所以我們可以給出一個推論,計算廣告的預測效果,肯定不會太好!人心叵測嘛!

那爲什麼如前文所列的大數據公司(如Alphabet、Facebook及國內的BAT)的廣告效益,還這麼好呢?其實他們取勝的祕密,也很簡單,那就是單位廣告成本極低,但規模超級大。

雖然我們說了,計算廣告的預測效果註定不會太高,但還是比毫無根據的“瞎猜”好很多。還拿前面的例子說事。如果我們有了“前天我吃了漢堡,昨天我也吃了漢堡,今天我還吃了漢堡”的數據,計算廣告的確不能很準確地預測我明天吃什麼,但總比一個人完全不知道我過往的飲食習慣,在成百上千種食物中,瞎猜一種,其預測準確率要靠譜一些。

胡適老先生曾經說過一句名言,“怕什麼真理無窮,進一寸有一寸的歡喜。”套用到計算廣告上,我們也可以說一句,“怕什麼預測不準,提高一個百分點,有一個百分點的收益。”

的確,哪怕把廣告的轉化率提高一個百分點,架不住計算廣告推送的規模之大,其收益也是相當可觀的。這就好比,一塊錢不算多,但如果每個中國人都給我一塊錢,那我就是億萬富翁了,原因很顯然,中國人口基數太大。

因此,計算廣告還是很有搞頭的。

計算廣告是如何變現的?


我們知道,當前互聯網產品的大趨勢,就是免費!

可是互聯網企業也要活下去,他們也需要有變現的的資產。那些可變現的資產又是什麼呢?

總結一下,互聯網行業可變現的核心資產,主要來自兩個方面。第一個方面,也就是最簡單粗暴的方式——利用流量(traffic)變現。

什麼是流量呢?就是有人訪問你的網站,或者有人在用你的APP,在這些產品中,除了放用戶感興趣的內容以外,還可以放一些付費內容(Sponsored content),也就是廣告。在正常內容裏夾裹付費內容,就是流量變現的基礎。這個容易理解,有點類似於很多人都愛看電視劇,那麼電視臺就可以把廣告,插播在電視劇裏。你想看電視,就得看廣告!

但電視臺播放廣告的弊端也很明顯,那就是“千人一面”——所有人看到的廣告都是一樣的,這樣的廣告轉化率勢必不會太高。如何提高廣告轉化率呢?

除了流量能夠變現之外,互聯網公司還有一項非常更重要的法寶,那就是數據!

簡單地說,通過大數據(特別是用戶的行爲大數據),互聯網公司可以做到較爲精準的用戶畫像,據此判斷用戶偏好,然後再根據這些偏好,提高付費內容的轉化率,這是數據變現的基本原理。

那麼這些用戶大數據又是如何得來的呢?自然都是來自各種免費的互聯網產品,當用戶在用這些產品過程中,就會留下蛛絲馬跡,互聯網公司就會收集這些信息,據此猜測這個用戶的屬性,比如購物偏好,然後再根據這些購物偏好,來投送相關的付費內容,這比沒有任何的指導來投放付費內容,它的效果肯定要好一些。

劉鵬先生提供了一個精彩的例子[1],如圖2所示,可以輔助讀者理解一下數據變現的原理。這個圖的左半部分說的是流量變現。比如說,假設我們有個網站,每天有10萬的訪問量,那麼就可以在上面放一個廣告位,這個廣告位可以有個報價,比如說5000塊錢,這就是流量變現的價值。

數據價值的體現


圖2 數據價值的體現

但是這種流量變現的方式,並沒有最大化發揮數字廣告的優勢。因爲剃鬚刀廣告的有效受衆,基本上都是男性,因此,這個流量裏邊,有一半的女性受衆是被浪費了,那麼,該如何合理利用另一半流量呢?

再看圖2所示的右半部分,實際上,在計算廣告體系裏,我們完全可以做到,僅僅把男性的一半流量留給這個剃鬚刀廣告客戶,對於這個客戶而言,它的有效受衆的觸達,其實並沒有損失,但由於他只用了一半流量,因此可以給他打個折, 3000塊錢就可以了。
如此一來,對流量變現的互聯網公司而言,它還剩下一半女性的流量,他可以用3000的價格賣給另外一家做化妝品的廣告主。對互聯網公司來說,它掙到了更多的錢(6000塊)。對於廣告主而言,他也是滿意的,因爲他只用花3000塊錢的成本,就獲得了原來他要花5000塊錢成本,才能觸達的有效受衆。所以,這是個雙贏的生意。

實際上,我們知道,天下沒有免費的午餐!在我們的工作生活中,基本上,存在一個利益守恆原則。也就是說,如果你在某個方面獲得了利益,通常是會在其它方面,以某種形式(或顯式的或隱性的)犧牲利益爲代價,換回來的。

雙贏(或多贏)是不符合利益守恆原則的。既然是雙贏,一定需要新的資源加入到這個利益分配過程當中,那麼這個資源是什麼呢?實際上,這就是數據的價值,也就是我們一直說的數據變現的祕密。

計算廣告的收益——我們付出了什麼代價?


互聯網公司之所以能得到這1000塊錢的溢價,是因爲他們有了每一個用戶的性別數據。如果再接着問,他們爲何能有這些數據,還不是我們用戶“免費”使用了人家的產品嘛?

我們在享受互聯網公司提供的免費“午餐”時,付出的第一個代價,就是不經意間泄露了我們的個人隱私數據。你看看,天下哪有免費的午餐?免費的背後,其實是都是要付出代價的!

天下沒有免費的午餐,不光是個普世化的認知,在計算機科學領域,甚至還給出“沒有免費的午餐定理(No Free Lunch,簡稱NFL)”的理論證明。該定理是由美國聖菲研究所(Santa Fe Institute) 教授Wolpert和Macready等在1997年提出[4],其結論是由於對所有可能函數的相互補償,最優化算法的性能是等價的。該定理通俗來說,如果某個算法在某個場景下,獲得了最優性能,但它在其它場景下,一定付出了性能代價,不可能在什麼場景下,你都最牛。就看當前場景下,算法優化後的性能改善,和付出的代價相比,值還是不值!

蘇萌、柏林森和周濤等人曾合著了一本書,叫《個性化:商業的未來》[5]。我們不能說這本書的觀點是錯的,但如果這本書的觀點是正確的,根據NFL原理,我們同樣也可以寫另外一本對應的書籍《隱私獲取:大數據公司盈利不得不說的祕密》。
因爲所有的個性化服務,都必須以獲取用戶個性化的信息(即隱私數據)作爲前提,沒有個性化的數據,自然就不會有“貼心”的個性化服務。

計算廣告盈利水平的提升,離不開用戶隱私數據的獲取,而現象用戶的大數據隱私保護,也是計算廣告繞不開的研究話題。

參考文獻


[1] 劉鵬, 王超 著.計算廣告:互聯網商業變現的市場與技術[M], 人民郵電出版社,2015
[2] 托馬斯·克倫普(著),鄭元者(譯). 數字人類學[M], 中央編譯出版社, 2007
[3] 艾伯特•拉斯洛•巴拉巴西.爆發[M]. 中國人民大學出版社.2012-6
[4] Wolpert D H, Macready W G. No free lunch theorems for optimization[J]. IEEE transactions on evolutionary computation, 1997, 1(1): 67-82.
[5] 蘇萌,柏林森,周濤 著. 個性化:商業的未來[M], 機械工業出版社, 2012


作者簡介:張玉宏,著有《品味大數據》一書。

發佈了41 篇原創文章 · 獲贊 57 · 訪問量 10萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章