從技術角度看中國誰能玩轉大數據技術

毫無疑問,世界上所有關注開發技術的人都意識到“大數據”對企業商務所蘊含的潛在價值,其目的都在於解決在企業發展過程中各種業務數據增長所帶來的痛苦。

現實是,許多問題阻礙了大數據技術的發展和實際應用。

因爲一種成功的技術,需要一些衡量的標準。現在我們可以通過幾個基本要素來衡量一下大數據技術,這就是——流處理、並行性、摘要索引和可視化。

誰會用到大數據呢?

一年前,大數據技術的一些主要用戶是大型Web企業,例如Facebook和雅虎,它們需要分析點擊流數據。但是今天,“大數據技術已經超出了Web,是要是有大量數據需要處理的企業都有可能用到它。”例如銀行、公用事業機構、情報部門等都在搭乘大數據這輛車。

實際上,一些大數據技術已經被一些擁有很前衛技術的企業在使用了,比如受社交媒體推動而需要創建相應Web服務的企業。它們對於大數據項目的貢獻非常重要。

而在其他垂直行業中,有些企業正在意識到,它們基於信息服務的價值定位要比它們先前想象的要大得多,所以大數據技術很快就吸引了這些企業的注意。再加上硬件和軟件成本的下降,這些企業發現它們已經處在了一場企業大轉型機遇的完美風暴中。

大數據處理的應對三大挑戰:大容量數據、多格式數據和速度

大容量數據(TB級、PB級甚至EB級):人們和機器製造的越來越多的業務數據對IT系統帶來了更大的挑戰,數據的存儲和安全以及在未來訪問和使用這些數據已成爲難點。

多格式數據:海量數據包括了越來越多不同格式的數據,這些不同格式的數據也需要不同的處理方法。從簡單的電子郵件、數據日誌和信用卡記錄,再到儀器收集到的科學研究數據、醫療數據、財務數據以及豐富的媒體數據(包括照片、音樂、視頻等)。

速度:速度是指數據從端點移動到處理器和存儲的速度。

大數據技術涵蓋哪些內容?

一、流處理

伴隨着業務發展的步調,以及業務流程的複雜化,我們的注意力越來越集中在“數據流”而非“數據集”上面。

決策者感興趣的是緊扣其組織機構的命脈,並獲取實時的結果。他們需要的是能夠處理隨時發生的數據流的架構,當前的數據庫技術並不適合數據流處理。

例如,計算一組數據的平均值,可以使用一個傳統的腳本實現。但對於移動數據平均值的計算,不論是到達、增長還是一個又一個的單元,有更高效的算法。如果你想構建數據倉庫,並執行任意的數據分析、統計,開源的產品R或者類似於SAS的商業產品就可以實現。但是你想創建的是一個數據流統計集,對此逐步添加或移除數據塊,進行移動平均計算,而且數據庫不存在或者尚不成熟。

數據流周邊的生態系統有欠發達。換言之,如果你正在與一家供應商洽談一個大數據項目,那麼你必須知道數據流處理對你的項目而言是否重要,並且供應商是否有能力提供。

二、並行化

大數據的定義有許多種,以下這種相對有用。“小數據”的情形類似於桌面環境,磁盤存儲能力在1GB到10GB之間,“中數據”的數據量在100GB到1TB之間,“大數據”分佈式的存儲在多臺機器上,包含1TB到多個PB的數據。

如果你在分佈式數據環境中工作,並且想在很短的時間內處理數據,這就需要分佈式處理。

並行處理在分佈式數據中脫穎而出,Hadoop是一個分佈式/並行處理領域廣爲人知的例子。Hadoop包含一個大型分佈式的文件系統,支持分佈式/並行查詢。

三、摘要索引

摘要索引是一個對數據創建預計算摘要,以加速查詢運行的過程。摘要索引的問題是,你必須爲要執行的查詢做好計劃,因此它有所限制。

數據增長飛速,對摘要索引的要求遠不會停止,不論是長期考慮還是短期,供應商必須對摘要索引的制定有一個確定的策略。

四、數據可視化

可視化工具有兩大類。

探索性可視化描述工具可以幫助決策者和分析師挖掘不同數據之間的聯繫,這是一種可視化的洞察力。類似的工具有Tableau、TIBCO和QlikView,這是一類。

敘事可視化工具被設計成以獨特的方式探索數據。例如,如果你想以可視化的方式在一個時間序列中按照地域查看一個企業的銷售業績,可視化格式會被預先創建。數據會按照地域逐月展示,並根據預定義的公式排序。供應商Perceptive Pixel就屬於這一類。

五、生態系統戰略

許多最大最成功的公司都花費大量資金構建圍繞它們產品的生態系統。這些生態系統被產品特性和商務模型所支持,並與合作伙伴的產品和技術協同工作。如果一個產品沒有一個富有戰略的生態系統,是很難適應客戶的要求的。

發佈了22 篇原創文章 · 獲贊 6 · 訪問量 9萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章