原因並不重要,重要的是與什麼相關

現在,智能的商業推薦算法層出不窮,就拿我們身邊的例子來說阿里巴巴的購物推薦、抖音的視頻推薦算法。但是,你真的相信這些智能算法知道你想看什麼或者買什麼嗎?


你可能會說:“是的”,因爲你真的對算法所推薦的東西很感興趣。但是,真實的情況是這樣嗎?實際上,智能算法並不知道你爲什麼喜歡這些東西,它只是發現根據你的行爲數據,你喜歡某件物品的相關性很高,它只是把相關性最高的那件物品推薦給你。這種“不知道爲什麼,只知道是什麼”的解決辦法人們以前很少去關注,但是它確實非常有效果。不知道你是否聽說過啤酒與紙尿褲的故事,商家通過數據分析發現在世界盃期間,啤酒與紙尿褲的銷量在同步上漲,因爲在世界盃期間,男人一般會在家看球賽,這個時候有孩子的女人會抓住這個機會把孩子給爸爸照顧,爸爸們在買啤酒的時候買上幾捲紙尿褲給自己的寶寶用。同樣的,用數據分析方法也發現在颶風期間,蛋撻的銷量會增加。因爲無法出門的人們會用蛋撻作爲自己的早餐。


那在這之前的小數據時代,人們是怎麼預測事物的呢?人們會通過分析因果關係,嚴格的用實驗證明某幾件事情之間的關係。這種選擇與小數據時代的技術限制有關,因爲獲取到的數據不多,通過實驗來證明因果關係是一種更可行的辦法。同時,這也與人的思維方式有關。人的思維分爲快速的直覺和慢慢的思考,在人類社會的初級階段,快速的直覺有助於人們提高生存的機率。有的時候,並不需要嚴格的證明兩者之間有因果關係,你也可以做出決策。比如遇到危險的時候,快速的反應比慢慢的思考有用的多。

但是因果關係的證明是不容易的。選擇用來證明因果關係的數據在選擇的時候就是人爲的,這就可能引入主觀的判斷。而且,當被證明的假設被發現是錯誤的,可能就需要重新開始實驗。特別是因爲有的證明根本無法進行,比如要證明被狗咬和得狂犬病之間的因果關係。難道真的能設置對照組來對比咬和沒咬的區別嗎?

在許多時候,發現因果關係也是沒必要的,只要發現相關關係就足以應付情況。紐約的沙井蓋爆炸問題一直困擾着電力公司,因爲井蓋爆炸危害太大,但是井蓋數量太多,就要花費大量的成本去找出有問題的那些井蓋。一家公司通過數據分析預測了井蓋爆照的機率,通過他們的預測電力公司節省了大量的成本。但是,他們知道爲什麼嗎?他們開始的時候也不知道,後來通過分析才發現與井蓋下電纜的年限和故障率有關。但是這並不妨礙他們這套系統發揮作用。

大數據對相關關係的發現,也使人們發現了以前因爲思維定勢而忽略的許多關係。比如你絕對想不到橙色的汽車故障率會更小,如果讓人們來找出爲什麼的話。人們可能想出各種各樣的因果關係,但是很難發現這種由於思維定勢思考不到的地方。


大數據並沒有否定因果關係,相反、相關關係的發現反而降低了因果關係發現的成本。事實上,就是因爲不受限於傳統的思維模式和特定領域裏隱含的固有偏見,大數據才能爲我們提供如此更多新的深刻洞見。大數據時代將要釋放出的巨大價值使得我們選擇大數據的理念和方法不再是一種權衡,而是通往未來的必然改變。但是在我們到達目的地之前,我們有必要了解怎樣才能到。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章