分析 BAT 互聯網巨頭在大數據方向佈局及大數據未來發展趨勢

風起雲湧的大數據戰場上，早已迎百花齊放繁榮盛景，各大企業加速跑向“大數據時代”。而我們作爲大數據的踐行者，在這個“多智時代”如何才能跟上大數據的潮流，把握住大數據的發展方向。

前言

大數據起源於2000年左右，也就是互聯網高速發展階段。經過幾年的發展，到2008年 Hadoop 成爲 Apache 頂級項目，迎來了大數據體系化的快速發展期，到如今 Hadoop 已不單單指一個軟件，而成爲了大數據生態體系的代名詞。

自2014年以來，國內大數據企業層出不窮，可以用“亂花漸欲迷人眼”形容現狀，也是在這一年，我國《政府工作報告》首次提出“大數據”，大數據作爲一種新興產業正式登陸中國舞臺。之後，又上升至國家戰略。自此“大數據”這三個字頻繁出現在各大媒體上。

在大數據的發展歷程中，互聯網企業是佈局較早且融合較深的行業之一。因其互聯網屬性的優勢在大數據領域佈局較早。

而提到國內互聯網大數據企業，就不得不提國內互聯網三巨頭（百度、阿里、騰訊），三巨頭的大數據業務圍繞其自身業務發展而成：百度重算法、阿里重電商、騰訊重社交，出於自身戰略，三巨頭在大數據領域的佈局方面各有重心，反映出其企業發展方向的戰略和思路。

BAT的大數據產業

BAT 是我國互聯網企業中大數據佈局較早也是較具有競爭優勢的公司。其中，阿里佈局大數據產業最早，騰訊次之，百度則最晚。

阿里

阿里大數據發展戰略在 2008 年提出，隨後圍繞電商業務，阿里在數據集羣、數據倉庫等方面做出了部署。

如今，提到阿里大數據，可以從兩方面來作觀察：一是以阿里電商業務基礎建立起來的阿里數據；二是阿里雲。

阿里數據以淘寶、天貓、阿里媽媽等平臺爲業務線，通過數據採集、數據計算、數據服務、數據應用等環節，形成從數據採集到數據應用的閉環系統

阿里雲則主要以在線公共服務的方式，爲用戶提供雲服務器、雲數據庫、雲安全等雲計算服以及大數據、人工智能服務、精準定製等基於場景的行業解決方案。創立於 2009年，如今，阿里雲已成爲全球前三大公共雲服務提供商。

另一方面阿里也是十分有遠見的，早在15、16年開始做Flink，深耕佈局、落地雙11、孵化Blink，據稱搞了上百人的團隊，在國內外的技術會議上不斷宣傳推廣，在2019年開年，阿里以9000萬歐元收購了Apache Flink母公司Data Artisans，將Flink收入囊中，目前，Flink 可以稱之爲 Apache 基金會中最爲活躍的項目之一，在 GitHub 上其訪問量在 Apache 項目中位居前三。同時，在全球範圍內，優步、網飛、微軟和亞馬遜等國際互聯網公司也逐漸開始使用 Apache Flink。

騰訊

2009 年 1 月，騰訊搭建第一個 Hadoop 集羣，標誌着騰訊大數據之路正式開啓。

與阿里不同，騰訊大數據主要圍繞其社交、遊戲業務展開。坐擁着海量的用戶數據。

基於微信、QQ 等社交工具，通過對移動用戶的數據分析，建立用戶個人畫像（如用戶的社會關係、性格稟賦、興趣愛好等）提供相應的營銷服務。

工具，工具主要有騰訊移動推送信息“信鴿”，同樣也是圍繞騰訊的社交用戶數據開發而成，提供向用戶推送消息的服務。

騰訊雲，起步比阿里雲晚幾年，目前暫時落後於阿里雲，但是雲計算市場是一個馬拉松賽，起步早是一方面，但最終還是要看誰能堅持到最後。

之前看過一篇資訊，中國IT領袖峯會在深圳舉行，在一個對話環節。

李彥宏說：“雲計算這個東西不客氣一點講它是新瓶裝舊酒，沒有新東西。”

馬化騰說："雲計算讓計算能力、處理能力甚至邏輯組件都能夠像水和電一樣使用，的確是有想象空間的，但可能你過幾百年、一千年後纔可能實現，現在還是確實過早了。"

馬雲大概意思：“雲計算這個東西應該好好做，今天就應該做，如果阿里巴巴不做雲計算，騰訊、百度會把阿里巴巴趕出電子商務門口。“

從對話中能看出馬雲的眼光很好。李彥宏和馬化騰雖都是技術出身，但沒有一個教師出身的馬雲眼光長遠。

另一點，騰訊相比其他巨頭在技術方面要低調不少。技術大牛很少出來做報告，更不會向百度、阿里那樣主動包裝宣傳技術大牛。其技術雖然低調，但執行力很強。據騰訊的程序員朋友說封閉開發、集體加班是常有的事情。但配套的重金激勵也能跟上。重金之下必有勇夫！

百度

BAT 中，百度大數據戰略提出時間最晚，但舉措頻頻。

2013 年，百度成立深度學習實驗室（IDL），發力人工智能。

2014 年，百度對外宣佈開放“大數據引擎”，以開放雲、數據工廠和百度大腦三個爲核心組件，
通過平臺化和接口化的方式，對外開放其大數據存儲、分析和智能化處理等核心能力。作爲全球首個開放大數據引擎，百度“大數據引擎”已與政府、非政府組織、製造、醫療、金融、零售和教育等傳統領域展開合作。

同年 8 月，百度與聯合國宣佈啓動戰略合作，共建大數據聯合實驗室 (bdl)，探索利用大數據解決全球
性問題的創新模式。
2017 年 3 月 2 日，百度揭牌深度學習技術及應用國家工程實驗室，“國字號”AI實驗室落戶百度。

可以看出，百度不同於阿里和騰訊基本以自身業務佈局大數據，其大數據佈局側重於新方向，在人工智能上尤其突出。不過，梳理百度大數據的數據產品可以發現，其大數據產品涉及數據分析、數據風控、數據營銷等，佈局較廣。

大數據領域分析

大數據技術發展到如今，已經形成了完備的體系結構及應用方向，技術迭代速度非常快，新框架層出不窮，大數據應用方向不斷細化，從業人員越來越多。

大數據時代，數據量大，數據源異構多樣，數據時效性等特徵催生了大量的新技術需求。在這樣的需求下，誕生了規模化並行處理（MPP） 的分佈式計算框架；面向海量的非結構化數據，出現了 Hadoop、Spark等生態體系的分佈式批處理框架；面對時效性及實時處理的需求，出現了Flink、Spark Streaming等分佈式流處理框架。

下圖爲 Apache 生態下的大數據框架：

未來在 Apache 中孵化成功的大數據框架會越來越多，大數據生態體系會越來越完善，也意味着大數據的門檻會越來越低，入行的人越來越多。所以爲了我們不被時代所淘汰，需要不斷學習，前期學習廣度，後期專注深度。潛心一技，練到極致！

應用層面

大數據在應用層面劃分了以下幾個大類：金融大數據、營銷大數據、交通物流大數據、醫療大數據、教育大數據、文娛大數據等。

我們接下來以大數據科研及大數據企業兩方面進行分析：

1. 大數據科研

自 2012 年大數據廣泛實際應用以來，產業界和學術界在大數據技術與應用方面的研究創新不斷取得突破，大數據領域的論文發表數量快速增長。

以下爲 2012-2020年全球大數據論文發表數量及各國佔比：

數據來源：Web of Science，2020年10月

從上圖可以看出，論文發表數量在2018年達到頂峯，是2012年的5.4倍，年增長率爲 32.5%，隨後2019年論文數量開始下降，2020年全年數量預計較去年還會近一步下滑，這也說明隨着科學研究的不斷進展，大數據的相關理論體系逐漸成熟，未來學術論文發表增長速度或將放緩。

從國家來看，中國和美國仍然是大數據學術研究的核心地帶。發表的論文數量遙遙領先於其他國家。未來在大數據領域，應該還是以中國和美國爲首，帶領大數據技術走向更高的水平。

再來看國內大數據產業的發展狀況，根據工業和信息化部發布的數據顯示，2019年我國以雲計算、大數據技術爲基礎的平臺類技術服務收入2.2萬億元，其中，典型雲服務和大數據服務收入達3284億元，提供服務的企業達2977家，由此可見，大數據產業發展日益壯大。

2. 大數據企業

大數據企業數量增長統計

數據來源：中國信息通信研究院，2020年10月

從上圖可以看出國內大數據企業在 2014 年、2015 年呈現爆發式增長，而在 2016 年
後又有回落，這與大數據在我國的發展狀況相對應。2014 年被稱爲大數據元年，隨後在國家政策的支持下，各大數據企業應運而生，之後隨着創業者的冷靜，大數據企業也趨於減少。

是否有國資背景

數據來源：數據觀

大數據行業雖然有國家政策的支持，但大部分還是以私企爲主，具有國資背景的企業較少，只佔總體的 13%。

大數據企業地域分佈

數據來源：中國信息通信研究院，2020年10月

由表中數據可以得出，北京是大數據企業的“高發區”，佔比爲35%，其次是廣東（18%），之後是上海（16%），然後是浙江（8%），所以我國大數據企業主要分佈在北京、廣東、上海、浙江等經濟發達省份。

大數據行業應用企業類型分佈

數據來源：中國信息通信研究院，2020年10月

從圖中可以看出大數據涉及的行業是非常廣泛的，其中以金融、醫療健康、政務爲大數據行業應用的主要類型。除此之外依次是互聯網，教育，交通運輸，電子商務等。

大數據獲投輪次分佈

數據來源：中國信息通信研究院，2020年10月

從上圖看出獲天使輪、A 輪融資企業較多，說明我國大數據企業數量雖然衆多，但大部分處於初級階段，技術能力、技術落地能力有待提高。另一方面也說明投資機構對大數據市場依然充滿信息，對未來估值抱有很大期望。

大數據未來發展趨勢

以下觀點來源：中國信息通信研究院

1. 以控制成本爲主要理念

大數據自誕生以來始終沿襲着基於Hadoop或者MPP的分佈式框架，形成了具備存儲、計算、處理、分析等能力的完整平臺，大數據分佈式框架採用存儲與計算耦合，使數據在自身存儲的節點上完成計算，以降低交互。

但是實際業務中數據存儲與計算能力要求不同且各自獨立的。在存儲與計算耦合的情況下，當二者之一出現瓶頸時，資源的橫向擴展必然導致存儲或計算能力的冗餘，造成難以避免的額外成本。

存儲與計算分離有效控制成本。存儲與計算在數據的生命週期中剝離開，形成兩個獨立的資源集合。兩個資源集合之間互不干涉又通力協作，使得單位資源的成本儘量減少，同時兼具充分的彈性以供橫向擴展。這種模式應是未來的發展方向。

目前國內外衆多廠商已深入進行了存算分離的實踐。國內像阿里雲使用自身 EMR+OSS產品代替原生 Hadoop 存儲架構，整體費用預估下降 50% 。華爲使用自身 FusionInsight+EC，存儲利用率從 33% 提升至 91.6%。

國外像 Snowflake 公司提出的數據倉庫服務化(DaaS)，將分析能力以雲服務的形式在AWS等雲平臺上提供按次計費的服務。

2. 自動化智能化需求緊迫

目前大數據領域的數據管理依賴人工操作，成本巨大。在基於機器學習的人工智能不斷進步的情況下，更加自動化智能化的數據管理平臺將會助力數據管理工作高效進行。

其中以 數據建模、數據標籤、主數據發現、數據標準應用成爲主要的應用方向。

3. 圖分析需求旺盛

以社交網絡、用戶行爲、網頁鏈接關係等爲代表的數據，往往需要通過“圖”的形態以最原始、最直觀的方式展現其關聯性。

所以專注於圖結構數據的圖分析技術成爲數據分析技術的新方向。與圖分析相關的技術成爲熱點的產品方向，其中以圖數據庫、圖計算引擎、知識圖譜三項技術爲主。

根據 DB-Engines 排名分析，圖數據庫關注熱度在2013-2020年間增長了10倍，關注度增長排名第一。國內阿里雲、華爲、騰訊、百度等廠商及部分初創公司已佈局這一領域。

4. 隱私計算技術熱度上升

在數據合規流通需求旺盛的環境下，隱私計算技術發展火熱，隱私計算爲實現安全合規的數據流通帶來了可能。

目前隱私計算主要分爲多方安全計算和可信硬件兩大流派。其中多方安全計算基於密碼學理論；可信硬件依賴對安全硬件的信賴。

此外，還有聯邦學習、共享學習等通過多種技術手段平衡安全性和性能的隱私保護，也爲跨企業機器學習和數據挖掘提供新的解決思路。

參考來源：中國信息通信研究院[大數據白皮書(2020年)]；數據觀(www.cbdio.com)

分析 BAT 互聯網巨頭在大數據方向佈局及大數據未來發展趨勢

前言

BAT的大數據產業

阿里

騰訊

百度

大數據領域分析

1. 大數據科研

2. 大數據企業

大數據未來發展趨勢

1. 以控制成本爲主要理念

2. 自動化智能化需求緊迫

3. 圖分析需求旺盛

4. 隱私計算技術熱度上升

分析 BAT 互聯網巨頭在大數據方向佈局及大數據未來發展趨勢

Linux中常見的指令(二): cp指令，mv指令，echo指令，cat指令，zip指令，unzip指令，tar指令，find指令，grep指令，tree指令

Julia: arrow，一種革命性的數據格式

P2303 [SDOI2012] Longge 的問題(歐拉函數，推式子)

Python進程、線程和協程實戰指歸

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結