大數據不是神話,不是泡沫,是在其上構建的創意和生意(轉載)

大數據不是神話,不是泡沫,是在其上構建的創意和生意

                  (轉載,有節刪,原文鏈接http://developer.51cto.com/art/201511/497883.htm)

大數據仍然是巨人遊戲
         每次重要的技術革新都帶給市場一次重新洗牌的機會。這次革新體現尤爲突出,值得注意的是這次變革開源社區一開始就參與進來,並且始終在技術層面上推動。這一點不同造成影響非常深刻,甚至改變了遊戲規則。
第一就是傳統巨頭和初創公司之間的硬件資源壁壘變的不明顯了。Hadoop 問世之初被稱爲’窮人的大數據’,因爲可以低成本使用廉價硬件堆疊計算能力,給那些買不起 IBM 小型機的企業,特別是創業公司,與巨頭競爭的機會。另外網絡和智能設備的普及讓數據的流通屬性發揮的淋漓盡致,一個熱門服務短時間就能吸收巨大的數據流量。 這其間很多創業公司迅速從幾人小團隊發展成獨角獸公司。
         相對小公司的熱情擁抱,大公司用謹慎的步伐適應這個轉變,特別是傳統行業。第一懷疑開源產品的穩定性和安全性,第二大家習慣了付費從廠商得到支持,而不是自己參與到工具維護開發,甚至回饋技術社區。可是一旦度過轉型期,大公司充分利用自己的渠道優勢,資源優勢,會想盡辦法把大數據變成巨人遊戲。技術只是入場劵,在所有門檻裏,這是最低的一道。巨人的遊戲考驗的是裝備,耐力,人力,業務積累,那些成功的小公司的絕不是憑技術勝出。
大公司的優勢之一是積累深厚,後勁足。大公司還有個優勢是,有足夠體量消化大數據的能量。如果公司業務線豐富,比如阿里、騰訊、百度、平安等,同一份數據在多個業務部門都可以釋放一次能量,這給了大公司更多空間對數據精耕細作。
不要把數據本身當作唯一壁壘,建立自己的數據閉環
         數據是非常脆弱的核心競爭力,數據本身不管多麼大,無法支撐一個公司的長久運營。脆弱的原因是收集成本與複製成本極度不對等,特別是當前監管落後市場很多,一家電商網站一年的交易情況一個盤陣就可以塞滿;在線地圖廠商走遍每條街道手工採集的POI數據一個星期就被爬蟲收入囊中。公司在制定數據戰略的時候要認真考慮這種不對等,多層佈局要把數據資產持久化運營和精細化運營。這方面的例子很多,實際上回顧 2010-2015 的互聯網的圈地狂潮,大夥兒都在做的兩件事就是:搶佔入口,自建閉環。爲了搶佔入口各種地推燒錢,明爭暗鬥無需多言。入口搶到了閉環的建立更困難。典型的數據閉環是:數據在消費端生成,通過交易、服務渠道完成採集,經過清洗彙總進入倉庫,加工分析應用到業務流程,市場反饋再通過消費端回來。這個閉環對業務流程的增量改進意義重大。
說到閉環建設,亞馬遜和 eBay 5年間的地位更替很有代表性。 2015年,亞馬遜值剛剛超過了3000億美元,eBay 曾經是亞馬遜的主要競爭對手,在金融危機的2008年,兩家公司的市值還不相上下,但是現在只是它市值的四分之一。這5年發生了什麼?亞馬遜是非常在意渠道建設和閉環打造,除了在線交易,在雲計算,物流,支付,智能硬件,電子出版,新媒體都有大量投入,相比之下 eBay 的資源高度集中在自己的主營業務上。1995~2000年互聯網剛剛起步,亞馬遜採取的直營方式便於培養早期的用戶,但到2001~2007年電商快速發展,搶到流量就是搶到錢,eBay這樣的輕資產模式很快就能實現變現,所以它也是最先盈利的電商之一,此時亞馬遜是落後的。2008年的金融危機之後,電商行業又經歷了新的變化,交易額高速增長的時代告一段落,公司價值的競爭由過去的單純交易額和用戶驅動變成了價值鏈經營驅動,而實現了閉環經營的亞馬遜的市值又實現了反超。2015年第二季度,亞馬遜服務收入已經超過60億美元,其中三分之一來自雲服務,其他的來源還包括雲平臺、物流、廣告,這部分業務可能會成爲亞馬遜未來盈利能力的主要來源。
讓大數據工作落地
         大數據最關鍵的一個環節是數據解讀。如果並不懂數據的作用時,他們就不會參與,當他們不參與時,數據就沒有價值。數據團隊的工作如果不能落在實處,前面所有環節都是徒勞。
         Airbnb 公司的例子爲數據團隊如何推廣工作結果提供了很好的範本。Airbnb是成立於2008年8月的旅行房屋租賃公司,Aifbnd 非常有遠見,在團隊只有7個人的時候就有了專職大數據工程師,公司發展中每一次重大決策,數據團隊都發揮了重要作用。在早期團隊規模小的時候,大數據團隊工作模式是集中式的,分析團隊的意見可以很快傳達到決策層,業務端的反饋也同樣。隨着公司成長,溝通鏈條變得越來越長,數據團隊有被懸掛的感覺。其他同事不明白如何和我們互動,其他人對我們沒有完全的理解。隨着時間的推移,數據團隊被看成一種靜態資源,被要求提供數據,而沒有能夠主動思考未來的機會。隨後數據團隊被重新組織。仍然遵循集中的管理,但是走出自己的小組,進入每個需求部門,直接同工程師、設計師、產品經理、營銷人員等等溝通。這樣做增加了整個公司的數據利用率,也使數據科學家成爲積極的合作伙伴。如今Airbnb用戶遍佈190個國家近34000個城市,2015年2月28日,估值將達到200億美元。
 相信數據,不憑感覺決策
         以往的分析模型大多是大模型+小數據,我們對模型本身做很多的假設和約束,人爲干預在抽樣環節已經開始,在結果出來前就已經針對預期輸出準備好可能的解釋。大數據時代有個明顯的特點是分析手段趨向粗暴簡單。無需抽樣,也不對分佈做太多假設,用全樣本輸入;以深度神經網絡爲代表的大數據模型對解釋性的要求降到最低。這種大數據+小模型在很多領域取得了成功,特別是在決策短的情況下,只要數據量足夠大,可以得到一些直接的洞見。
2006年以前,賽林格受命用大數據爲亞馬遜增加營收,那時亞馬遜作爲單純的在線零售商並不爲起平臺上的商家做廣告,塞林格認爲在廣告銷售有很大的利潤潛力,於是將這件事彙報給了自己的老闆貝索斯,後者認爲這是個愚蠢的主意 “我們是零售商。爲什麼要銷售展示廣告?”。儘管貝索斯不喜歡也不支持這個想法,但是他允許賽林格的團隊在網站上進行小規模測試,結果成爲了亞馬遜有史以來最盈利的項目,他們把協同過濾,結構最簡單的推薦算法,做成了大數據一個經典案例。
大數據不是良藥 大數據還在進化
         大數據決策的另一個極端是過分專注於大數據的技術討論,而忽略了一個基本事實:大數據不會改變業務維度的複雜性。儘管大的趨勢是很多業務問題可以變成技術問題來解決,但是經歷十年快速發展,我們仍然處於大數據的初期階段。這個時期大數據的解決問題思路仍然是橫向的,試圖從量上突破。已經積累了大量數據的企業,可以快速兌現歷史紅利,當前的火爆很大程度是確實很大一部分過去二三十年甚至更久數據積累的一次集中釋放。當淺層數據價值挖掘乾淨後,如果沒有健康持久的業務模式,問題還在哪裏。現在我們的大數據在五年後會變成小數據,MapReduce,Hadoop,stream computing 等概念會變成理所當然的基本操作,甚至集成在語言本身,在業務層面感知不到它們的存在。現在或許是大數據最熱鬧的時代,當在大數據真正迴歸業務的時候,纔是大數據最好的時代。能活到那一天的都是從現在開始把大數據往深處做的人。

    大數據不是神話,不是泡沫,它是一些實在的工具和方法的綜合,是在其上構建的創意和生意。


發佈了69 篇原創文章 · 獲贊 8 · 訪問量 15萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章