大數據的標準

大數據一出現,就成爲了業界的寵兒,每個企業和組織都言必稱採用大數據技術。那大數據究竟有沒有標準,是否每個產品都可以貼上大數據的標籤。大數據處理對象的4V特性大家都是耳熟能詳,此處就不多談,除此以外,大數據其實有自己數據量化指標。

“數據總體存儲量達到PB級標準,每秒數據處理速度達到GB級標準”。達到這一標準,就可以貼上一個大數據的標籤。或許會有人認爲這一標準不是難事,不就是拼硬件,不就是購買10萬個1T的硬盤,買10萬個硬盤不就解決了嗎?真的就這麼簡單?

要達到這一標準,技術門檻非常高。

給你10萬個1T的硬盤,在硬件層面,如何組網,數據備份和容災怎麼做,系統可靠性如何保證,整個系統的IO如何設計?

在軟件層面,具體到如存儲這些數據、數據格式如何、數據的管理節點如何分佈,數據冗餘和同步、備份如何設計?

在計算層面,如何快速對於數據進行檢索,如何對於數據進行高效主題計算,如何獲取到高價值的信息,如何能夠做到PB級數據計算,並保證數據計算的實時性。

當然有人會說,我們有Hadoop,這個問題不就解決了嗎?Hadoop提供的HDFS分佈式文件系統和HBASE,的確是一種好的解決方案或者技術方向,
但是這些技術提供的只是一個具體的框架性技術,技術本身也在逐漸完善,要想使用好這些技術,自己要做事情會非常多,針對各個不同的業務場景,使用HDFS和HBASE的技術實踐一直都屬於高技術難度的工作,具體到部署策略,分區域管理策略、數據同步策略都是高難度的任務,目前技術上面完全解決,是非常困難的,只能做到一個技術平衡取捨,從目前獲取到的資料看,做爲國內技術上頂尖的淘寶技術團隊,目前使用HBASE上線產品的數據管理容量也就只能達到200T水平,還沒有能夠搭建出PB級的上線產品。


就個人看法,大數據就是一把雙刃劍,面對海量數據,合理利用,就能給你帶來源源的財富,使用不當,那就是一種技術負擔,會讓人焦頭爛額,疲憊不堪。大數據核心技術,有自身的解決方向和自然規律,這與基於RDBS的MIS系統處理思路完全不一樣。好比在風景區登山技術和登珠穆朗瑪峯的技術完全就不是一個技術,修建3層小樓建築技術和修建上海中心600多米的建築技術完全不是一個技術。

因此,企業和組織在自己產品貼上大數據的標籤同時,請仔細掂量一下自己的技術積累,有沒有這種大數據處理核心能力,慎重的貼上這個標籤。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章