大數據史記2013:盤點中國2013行業數據量

我們該瞭解的更多,智慧常常依賴於瞭解的內容多少。

史記2013

說人類步入了信息時代,有個事情是非常重要的,就是物理世界的信息化,包括信息基礎設施建設和數字化,緊接着就是如何將數字化的東西(數據)進行儲存、傳輸、交換以及使用,這一脈絡伴隨着移動互聯網,雲計算、大數據以及各種各樣智能終端的出現,顯得也越來越清晰。很多人都已認可,我們可能來到一個工業革命之後,一個比我們想象地更加重要的變革時代,我們把它命名爲產業互聯網的時代。畢竟這一切都是互聯網出現之後才發生的,無論是雲,通過網絡隨需調用的計算資源;大數據,關聯的可分析在線數據;還是各種智能終端,都要依託互聯網。同時這些工具又幫助互聯網從消費互聯網進化到改變各個行業的生產性互聯網,其中,數據成爲產業互聯網重要的生產要素。當然,數據成爲生產要素還有個前提,就是獲取數據,並有效的梳理與標籤。

2013 年中國產生的數據總量超過0.8ZB(相當於8億TB),2 倍於2012 年,相當於2009 年全球的數據總量。預計到2020 年,中國產生的數據總量將是2013年的10倍,超過8.5ZB。(來源,ZDNET《數據中心2013:硬件重構與軟件定義》年度技術報告)

我們通過服務器和數據中心數量,以及各行業數據梳理,大致判斷國內目前一年產生、存儲的數據總量以及大致分佈,在這一回中,我們嘗試將所收集的資料彙總起來,進一步分析下各個行業、領域的數據總量和分佈情況,以供參照。

1、BAT代表的互聯網公司

(百度)現在的數據總量接近一千個PB左右,網頁的數量大概是幾千億的網頁,從大量的網頁裏面我們拿出幾百億來建索引,對於大量的網頁,我們每年更新幾十億左右,每天會享受用戶的查詢也會在幾十億左右,我們查詢的也是幾百PB。(百度雲計算首席架構師林仕鼎2013)

根據公開的信息,作爲全球最大的中文搜索引擎,百度每天響應來自138個國家和地區的數十億次請求,百度每日新增數據10TB,要處理超過100PB的數據,從浩如煙海的信息中精確抓取約10億網頁,同時索引庫還擁有千億級在線索引能力,以幫助用戶完成搜索過程。面對海量的大數據,百度正在通過自建數據中心,開發了自己的大數據存儲系統,並使用了多項新技術。計劃投資47.08億元的百度雲計算(陽泉)中心已於2012年8月奠基,該項目預計2015年完工。建成後的百度雲計算(陽泉)中心數據存儲量將超過4000PB,可存儲的信息量相當於20多萬個中國國家圖書館的藏書總量。

百度的數據量大大家可能不會懷疑,甚至說中國擁有最大數據量的公司,大家可能也不會懷疑。因爲我們是提供搜索服務,我們要把全中國的中文網頁全部搜索起來,放到我們中心。全部的網頁多大呢?目前估計是三千億左右,三千億箇中文網頁要把它全部抓過來,放到我們的數據中心。這個數據大概是10-50個PB,這個範圍很大,因爲這個情況是每隔一小時時間就會發生很大變化。再一個想不到的是日誌,百度的系統裏面每天有很多大量的日誌,這些日誌是作爲我們分析處理用戶行爲習慣,包括數據恢復和災難備份很重要的基礎,這個數據量是最大的,目前能達到100個PB以上。數據倉庫,數據倉庫是經過清洗以後的日誌信息,這個是結構化的。再一個大家知道,百度上有百度推廣,俗話叫廣告。和傳統廣告一樣,除了有客戶的信息之外,還有廣告本身,這部分數據比較小,1TB,但是這部分數據對它處理的要求非常高,首先是要高度的一致性。最後一個是UGC,用戶產生的內容,大家都知道百度有貼吧,有百度知道,百度文庫,這些內容是廣大互聯網網民自己產生,自己上傳,大家一起分享的數據,這部分數據目前達到1PB,而且這裏的數據大量是用戶上傳的視頻、圖片等等多媒體的數據。(百度技術委員會理事長陳尚義2012)

擁有近5億註冊用戶,2013年有篇報道指出阿里巴巴掌握的總體數據量爲30P。行業內部人士預計阿里集團大概有30萬臺左右服務器,目前保存的數據量應該在近百PB(對新浪微博的投資,對高德等的收購等行爲,會進一步提高阿里巴巴可接觸的數據量)。2012年7月10日,阿里集團就宣佈設立首席數據官崗位(CDO),負責推進“數據分享平臺”戰略。阿里巴巴也一直在嘗試對數據進行加工。從早期的“淘寶指數”,到爲店鋪經營提供運營管理數據分析的“數據魔方”,到將“雲”理念與大數據結合的“聚石塔”,再到以數據分析爲基石的“阿里金融”,阿里在大數據開發方面一直走在業界前沿。

從淘寶創立之時,阿里巴巴就開始蒐集平臺上的數據,直至支付寶、聚划算、一淘等平臺,隨着業務的爆發式增長,阿里諸平臺上的數據成倍增加,彙集成海。這些數據包括交易數據、用戶瀏覽和點擊網頁數據、購物數據等等。阿里集團首席戰略官曾鳴預測,“阿里本質上,未來會是一家數據運營公司。”前者,是如何將大數據用好,而後者則意味着,如何讓大數據更好用。

在2013年大數據大會上,騰訊公司數據平臺助理總經理蔣傑表示,在國內互聯網體系中,騰訊擁有的數據覆蓋多個領域,總存儲數據量經壓縮處理以後在100PB左右。

騰訊QQ目前擁有8億用戶,4億移動用戶,在數據倉庫存儲的數據量單機羣數量已達到4400臺,總存儲數據量經壓縮處理以後在100PB左右,並且這一數據還在以日新增200TB到300TB,月增加10%的數據量不斷增長,現在正在爲1000個PB做準備。亞洲最大的數據承載中心,騰訊天津研發與數據存儲中心正在濱海新區緊張地建設中,騰訊天津中心項目總建築面積9.33萬平方米,預計服務器託管能力超過10萬臺。

其他像360、一些地圖、社交、影視娛樂類互聯網公司,也擁有PB量級數據儲備。如果按某媒體所說的BAT中阿里巴巴擁有90%以上的電商數據,百度以70%以上的搜索市場份額坐擁龐大的搜索數據,騰訊擁有大量社交、遊戲等領域積累的文本、音頻、視頻和關係類數據,這三大巨頭擁有的數據量肯定是在EB級別以上,全部互聯網公司擁有的數據量應該超過1.5EB,達到接近2EB的體量。

2、電信、金融、保險、電力、石化系統

2012年12月13日,在由雲基地主辦的“中關村大數據日”活動上,中國聯通研究院副院長黃文良介紹,“今年,中國聯通成功將大數據和Hadoop技術引入到”移動通信用戶上網記錄集中查詢與分析支撐系統”。截止到目前,我們已經部署了4.5PB的存儲空間。除了這些數據,運營商還具有用戶通話、信息、地理位置等信息,目前主要運營商擁有的數據數量應該都在10PB以上,總體年度用戶數據增長約數十個PB。

中國銀聯公開數據顯示,全國僅“銀聯”銀行卡發行量目前接近40億張,每天有近600億交易通過銀聯的銀行卡交易,儘管單張卡片數據量不大,但彙總起來,這依舊是一個非常龐大的數據量。如果再加上開戶信息數據,銀行網點和在線交易的各種數據,以及金融系統自身運營的數據,目前國內銀行和金融系統每年產生的數據也能達到數十PB,保險系統生成的數據量也會接近PB級別。

今天,國家電網建成世界最大電能計量自動化系統。截至2013年年底,累計安裝智能電能表1.82億隻,實現採集1.91億戶,採集覆蓋率56%,自動抄表覈算率超過97%。智能電網可以產生巨大的數據量。比如國網信通在北京五個小區, 353個採集點,採集1.2萬個參數,包括頻率、電壓、電流等, 15分鐘採集一次,一天就能產生34GB。僅國家電網,全國能夠採集獲得的數據總量也是上10個PB級別的,能夠保存下來的數據量也能達到近10PB,同樣,據內部資料分析,石油化工、智能水錶等領域每年產生和保存下來的數據量也達到數十PB級別。

3、公共安全、醫療、交通領域

隨着平安城市、智慧城市等工程的推進,監控攝像頭已經遍佈大街小巷,安防監控對高清化、智能化、網絡化、數字化的要求越來越高,數據量自然也不斷地迅速增加。據說,1080P高清網絡攝像機 ,速度能夠達到每秒60幀,這樣的攝像機一個月產生的視頻文件就達1.8T。北京目前用於視頻監控的攝像頭有50萬個,一個攝像頭一個小時的數據量就是幾G,每天北京市的視頻採集數據量在3PB左右,而一箇中等城市每年視頻監控產生的數據在300PB左右。儘管出於成本考慮,很多監控視頻具備定期清除循環的特點,但整個視頻監控每年能夠保存下來的數據,每年也在數百PB以上。

與此相關的交通方面,航班往返一次能產生數據就達到TB級別,還有列車、水陸路運輸產生的各種數據視頻、文本類數據,每年也在百PB級別,能夠保存下來的,也能達到數十PB。

北京市交通運行監測調度中心建立了包含“交通數據中心、監測預警中心、運行協調中心、綜合交通信息發佈中心”在內的四大中心,實現運行監測、協調聯動、決策支持與信息服務等功能,併爲政府決策、行業監管、企業運營、百姓出行等提供服務支持。具體來看,TOCC已整合接入行業內外27個應用系統、6000多項靜動態數據、6萬多路視頻,目前靜動態數據存儲達到20T,每天數據增量達30G左右。(北京市交通運行監測調度中心(TOCC)副主任張可)

上海申康醫院發展中心牽頭完成的“醫聯工程”項目將大數據應用於健康醫療產業,該項目覆蓋38家市級三甲醫院,實現了市-區各級醫院間大規模臨牀信息實時共享以及健康檔案動態更新,高效存儲檢索解決了海量影像信息高效存儲、傳輸和展示的難題,建立了PB級醫學影像檔案庫。有媒體報道說:“中國一線的大型城市,僅僅健康檔案的數據,一年就有5PB之多。”醫療健康衛生領域無疑是一個很大數據來源,包括疾病監控等方面的數據。比如,醫療數據一個大腦的CT掃描圖要讓它分辨率很高,微米的數據量產生是4.5TB的數據。例如像廣州中山大學醫院2013年數據是1000個TB。有統計表明,中國一箇中等城市(一千萬人口)50年所積累的醫療數量可達到10PB。如此推算,整個醫療衛生行業,一年能夠保存下來的數據就可以達到數百PB。

“大型醫院每年的數據增量在數十TB,僅醫學影像每年可達20TB。” 一個CT圖像含有大約150MB的數據容量,而一個基因組序列文件大小約爲750MB,一個標準的病理圖與前兩者相比則大得多,文件大小接近5GB。如果將這些數據量乘以人口數量和平均壽命,僅一個社區醫院或一箇中等規模製藥企業就可以生成和累積達數個TB甚至數個PB級的結構化和非結構化數據。(某大型三甲醫院計算機室主任)

4、氣象、教育、地理、政務等

目前,整個中國氣象局所保存的數據在4~5PB左右,每年大概增加數百個TB左右。包含了地面觀測、衛星、雷達和數據預報產品等幾大類的觀測數據。各種地圖和地理位置信息應該每年在數十PB,但此次信息容易和互聯網公司以及交通運輸、物流行業產生信息重疊,單獨佔有和保存的此類信息應該在PB級別。

除了常規的地面觀測站之外,以氣象衛星和多普勒天氣雷達爲代表的遙感遙測業務領域近三十年來取得飛速發展,這些領域一方面每天產生着數以TB級的觀測數據。(國家氣象信息中心副總工程師沈文海)

據悉,一個智慧城市的數據一個季度就是200PB之多。2013年,北京市政務數據資源網試運行一年來,已上線公佈了400餘個數據包,涵蓋旅遊、教育、交通、醫療等門類,累計訪問量超過600萬次,地理空間數據累計下載量4800餘次。有調查顯示,未來1-2年中國政府部門的數據規模超過100TB的將超過一半,達到53.3%,有將近三成(33.3%)的用戶數據規模是10-50TB。政府部門的數據多數還是集中在結構化數據上,對於非結構化數據的擁有量並沒有想象的大。整個政府部門產生的數據,排除上述提到的幾個主要部分,也能達到PB級別。

目前,絕大多數中央部委和省級政府部門的核心業務都有數據庫支撐,核心業務數據庫覆蓋率超過80%。公安部建成了覆蓋13億人口的國家人口數據庫。國家工商總局建成了企業法人數據庫,民政部和中央編制辦公室初步建成了社會團體和事業單位信息庫,全國四級國土資源主管部門積累了近6000TB的數據,國家統計局建成了統計信息庫,國家發展和改革委牽頭的自然資源和空間地理基礎信息庫正在加緊建設。此外,金融、稅務、質檢、社保、教育等領域也都建成了一批信息庫。

5、其他,商業銷售、製造業、農業、物流和流通等領域

隨着產業互聯網的普及,(線下)商業銷售、製造業、農林牧漁業、(線下)餐飲、食品、科研、物流運輸等等這些傳統行業的數據量將呈現迅速增長態勢,但目前來說,目前這些行業數據量還處於積累期,整個體量都不算大,多的達到PB級別,基本也就是百TB甚至數十TB級別。另外,中國國家圖書館藏書是2631萬冊,這相當於41TB。影視娛樂、出版傳媒方面也有一定量的數據積累,還有教育方面目前也在產生着大量的數據,這些都是未來可以挖掘的方向。

製造業的存儲數據一般被分爲以下幾種類型:其一,產品設計數據,這類數據的典型特點是以文件爲主,非結構化,共享要求比較高,保存時間也比較長;其二,企業生產環節的業務數據,其特點是以數據庫等結構化數據爲主,這些數據的重要性不言而喻,它們不僅表現企業目前運行的狀況,而且爲企業進一步發展決策提供有價值的分析;其三,生產監控數據,其特點是數據量非常大,對存儲空間以及I/O吞吐要求高。製造企業中,企業對數據的記錄多停留於兩種形態:1、傳統的紙筆記錄;2、Excel電子表格記錄。這些操作起來看似簡單的數據管理方式,在浪費人力物力的同時,還爲企業生產及質量監控埋下了巨大的隱患。而真正挖掘數據背後的價值,更是無從談起。

最後,我們再從IDC使用行業分佈看一看,互聯網客戶仍舊是主要快速增長的客戶羣體,佔到40%左右,電信、生產製造行業也屬於使用比較多的,政府、教育行業增長較快,所佔比例分別爲8.7%和7.8%。數據存儲需求方面,據IDC預測,存儲市場將繼續表現出良好的增長勢頭。在未來五年,存儲數據容量將達到15864PB(另一數據是18EB),其中尤以政府、醫療、教育等行業增長迅速,所佔份額最重。

via:公衆號雲裏數裏(cloudbigdata)

這裏是中國礦業大學CSDN社團,如果你有什麼好的原創,或者轉載+你的評論,可以投稿給我們,發送郵件到[email protected],PS:這可是內部評價標準之一哦~
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章