未知的information,已知的technology-寫給未來的思維範式

兩年前,還是社會學專業的我最喜歡翹的課叫做”社會統計學”,與其聽着傳統死板的抽樣調查與迴歸分析,我更喜歡和一個做數據挖掘的數學系同學四處溜達。“數據挖掘(Data mining)是什麼?”她跟我舉了一個最簡單的例子:“沃爾瑪通過對超市裏人們購買行爲的大量數據分析,發現男人們來買啤酒的時候,通常也會買尿布。這樣的發現就讓超市將尿布和啤酒擺放在一起出售,從而提高利潤。” 
  “嚴謹的社會學訓練”讓我幾乎在當時就開始思考“爲什麼?”“尿布和啤酒的銷售量爲什麼會有關聯呢?是因爲男人們買啤酒的時候,會‘順便’購買尿布?還是因爲買“尿布”的時候會聯想到‘’啤酒’?”——這使我立刻意識到在社會科學的學習中,因果關係已經成爲了一種極其普遍的範式——甚至誇張一點說,所有社會科學的研究都只是爲了解答一個問題——“爲什麼?”它面向過去,面向所有已經發生的事實,試圖通過信息收集和邏輯假設來說明一個道理:”人類社會中**事情的發生,是因爲**及**因素的作用。“ 
  我意識到,這與《大數據時代》中所提出的”大數據思維“的三個層面正好截然相反: 
   
  1、不是因果關係,而是相關性。大數據思維只關注”相關性“,而不再關注因果關係。也就是說,沃爾瑪知道尿布和啤酒、手電筒與pop-tarts蛋撻的銷量具有正相關性,就足夠做出將兩個物品擺放在一起銷售的決策了。它並不需要去分析原因,因爲只要知道這件事情”正在發生“或者”即將發生“,企業就完全能夠做出正確的決定。 
   
  2、“樣本=全部”——不是隨即樣本,而是全部數據。《大數據時代》也對傳統意義上的統計學構成了衝擊。在這樣一個我們有足夠強大的數據蒐集和數據處理能力的時代,樣本不再是萬分之一,而轉變成了”樣本=全部“,樣本,就是萬分之一萬。傳統意義上的統計學的隨機抽樣方法中有一條極其明智的真理:”採樣分析的精確性隨着採樣隨機性的增加而大幅提高,但與樣本數量的增加關係不大。”可以說,“樣本分析”奠定了絕大多數科學研究的基礎。而大數據時代,全數據分析的模式將全面替代“樣本分析方式”。正如《魔鬼經濟學》(Freakonomics)中,作者關於相撲運動員的研究,其創造性的觀點正式通過使用了11年中超過64000場摔跤比賽的全數據記錄來尋找到了異常性。這樣的洞見,恰恰是樣本分析所無法提供的。 
   
  3、不是精確性——而是混雜性。數據量的顯著增大也必然會讓我們付出一些代價——一些不準確的數據會混入數據庫,結果也可能不準確。這就是大數據時代的另一種思維——“不是精確性,而是混雜性”。 對“小數據”而言,最重要的要求就是減少錯誤。而在大數據的採集裏,在技術尚未達到完美無缺之前,混亂是無可避的。雖然我們得到的信息不再那麼準確,但收集到的數量龐大的信息讓我們放棄嚴格精確的選擇變的更爲划算。從谷歌翻譯系統中可以看到,它收集了上萬億的語料庫,來自未經過濾的網頁內容,可能會含有不準確的用法、語病,未必每一條語料庫都非常“精確”,然而這個語料庫是布朗語料庫的幾百萬倍大,這樣的龐大規模優勢完全掩蓋了它的缺點。也就是“大數據的簡單算法,比小數據的複雜算法,更加有效”。 
   
  總體而言,大數據時代透露出三個特徵——更多、更雜與更好。它面向未來,要做的事情是關於“預測”。正如作者所說"大數據要求我們有所改變,我們必須能夠接受混亂和不確定性。精確性似乎一直是我們生活的支撐,就像我們常說的‘釘是釘,鉚是鉚’,但認爲每個問題只有一個答案的想法是站不住腳的,不管我們承不承認。一旦我們承認了這個事實,甚至擁護這個事實的話,我們離真相又近了一步。“ 
   
  當我們用”物聯網“去開始測量、記錄、分析,世界,並將我們的世界”數字化“的時候,Information Technology,信息技術的變革,就將聚光燈轉向了Information的身上。 
  從三千多年前會計學的誕生開始,人們將大量的經濟活動”數字化“。然而,”數字化“只是爲”數據化”拉開序幕。 
  在google的數字圖書館中,”文字“也已經被“數據化”,人們可以檢索、對比、發現不同的詞組在幾十年來中含義和運用的沿革。人可以閱讀,機器也可以分析。 
  在Foursquare和街旁網中,“方位”也已經被“數據化”,在我們喜愛的地方”check-in“,我們通過忠誠度計劃、酒店推薦和其他計劃得到好處。 
  在Facebook或twitter的裏,"溝通"也已經被“數據化”,倫敦的金融公司通過分析每天的Twitter的大量數據,以作爲股市的投資信號。 
   
  而更令人興奮的是,”數據"作爲一種資源,本身是一種非競爭性的資源,它的價值並不會因爲被使用而減少,相反,它可能被通過不斷地重複使用而產生出更高的價值。數據本身的價值,是它所有能夠產生的可能選擇的價值的總和。書中提到了幾種數據創新: 
  1、數據再利用。數據的運用者常常不是那些擁有大量數據的機構,卻是那些恰好可以用這些數據來支持其商業模式的機構,這就是“再利用” 
  2、重組數據:將多個數據集的總和重組在一起時,充足總和本身的價值也比單個的總更大。丹麥的癌症研究就是將所有的癌症患者和手機用戶的數據結合起來,從而揭示兩者是否有關聯性——幸運的是,全數據顯示並無關聯。 
  3、可擴展數據。譬如,零售在店內安裝的監控攝像頭,不僅能認出把手,也能跟蹤經過商店的客戶流和他們停留的位置。 
  4、數據的折舊值:隨着時間的退役,大部分的數據都會失去一部分基本用途。然而,即使數據用於基本用途的價值會減少,但選擇的價值卻依然強大。從這個角度,組織機構應收集儘可能多的使用數據,並保存儘可能長的時間,同時也應當與第三方分享數據,保留所謂的“延展性”權利。 
  5、數據廢氣:在拼寫檢查中,用戶會有大量的錯誤拼寫。這些數據看起來是廢品,但收集在一起卻能夠鍛造成一塊閃亮的金元寶。例如,當couresa這樣的網絡平臺中一個班級數量超過萬人時,教授發現2000個學生在作業中犯了同樣的一個錯誤。修正後,系統將會提醒以後犯同樣錯誤的學生。通過這些’錯誤“,我們改變了教育的方式。 
  6、開放數據:政府只是收集信息的託管人,而數據應當對全球開放。 
   
  在大數據價值鏈上,會有三種不同的大數據公司,第一種是基於數據本身的公司,第二種是基於技能,第三種則是基於思維。從我的理解來看,第一種人,擁有金礦的礦山。第二種就是數據分析師,也可以說,擁有開採、提煉金礦的技術。第三種則是加工金礦的人,把金礦做成金元寶、首飾,通過創新思維讓數據具有商業價值。在大數據時代的早期,思維和技能是最有價值的,但作者認爲,最終,大部分的價值還是必須從數據本身來挖掘,也就是說——金礦本身才是最值錢的。 
   
  然而,大數據背後帶來的也是重重隱憂——從我們的隱私不斷暴露,個人在網絡上留下的千絲萬縷的蹤跡似乎讓人們又回到了”老大哥在看着你“的那種擔憂。”“數據統治”的登峯造極從哲學上會抹殺人的自由意志和選擇的可能性,正如,基於你以前的各類數據分析,陪審團斷定你以後將會犯罪。那將是人性面對技術的一次潰敗。 
   

  閱讀《大數據時代》的過程,總是讓我不斷地想起庫恩《科學革命的結構和範式》。毫無疑問,大數據帶來的是思維範式的根本性變革——我們將不再沉湎於歷史和過去,試圖解釋某種聯繫,而是更好地覺知當下,與正在發聲的未來。


http://book.douban.com/review/5774373/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章