《福布斯》:大數據帶來高成本 Hadoop需繼續完善

現今我們已經進入了大數據時代,因爲創新的數據管理技術的誕生,使得組織可以對所有的數據類型進行分析。這也使得企業每天都能夠發掘出新的商業機會。

隨着互聯網技術的發展,當今網絡中每天都在產生海量的信息,這其中包括半結構化和非結構化的數據。組織可以通過對海量信息的分析瞭解到他們客戶真正需要的以及爲什麼需要的原因。但新的商業模式的真實成本還尚未被人們充分認識。

數據格式的多樣化

從IT角度來看,信息結構類型大致經歷了三次浪潮。必須注意這一點,新的浪潮並沒取代舊浪潮,它們仍在不斷髮展,三種數據結構類型一直存在,只是其中一種結構類型往往主導於其他結構:

結構化信息——這種信息可以在關係數據庫中找到,多年來一直主導着IT應用。這是關鍵任務OLTP系統業務所依賴的信息,另外,還可對結構數據庫信息進行排序和查詢;

半結構化信息——這是IT的第二次浪潮,包括電子郵件,文字處理文件以及大量保存和發佈在網絡上的信息。半結構化信息是以內容爲基礎,可以用於搜索,這也是谷歌存在的理由;

非結構化信息——該信息在本質形式上可認爲主要是位映射數據。數據必須處於一種可感知的形式中(諸如可在音頻、視頻和多媒體文件中被聽或被看)。許多大數據都是非結構化的,其龐大規模和複雜性需要高級分析工具來創建或利用一種更易於人們感知和交互的結構。

市場的領導者們對存儲的多格式數據進行分析不止獲得競爭的優勢。通過對數據的分析使得他們可以更深入的洞察客戶的行爲模式,這直接影響到他們的業務。

兩個特定的行業——電信和零售已經在數據倉庫解決方案投入巨資。隨着時間的推移,電信和零售兩大行業通過對累積的大量客戶事務和互動數據研究以確定關鍵的性能指標。例如每年的收入、每個客戶通過網絡獲取促銷信息所導致花費以及銷售的高峯。

然而隨着數據的激增,即使是市場的領導者也無法承受,傳統的數據倉庫已無法存儲和管理PB級規模的原始詳細數據。企業往往將數據備份到離線的磁帶上,但這並不容易訪問。業務的挑戰無處不在,例如當聖誕節恰逢星期六時,企業就需要對7年前(恰逢聖誕節也是週六)的數據進行分析以便了解特定的模式。將大量的歷史數據導入數據倉庫不僅極具挑戰性,同時成本也是非常昂貴的。

兩大創新促進大數據發展

兩個關鍵因素正在企業級規模大數據管理和分析中發揮作用。首先是網絡創新,包括Facebook、Google、Yahoo已開發出一種大規模可擴展的存儲和計算架構以管理大數據。Hadoop框架以低成本的硬件處理大型數據集,這使得處理PB級規模數據的成本大幅降低。

其次管理大數據的技術需求已經從不同的市場領域發展爲日益增加的需求以及跨越多個部門的獨特需求。隨着越來越多的終端設備連接成千上萬的移動應用,管理PB級規模數據的通信運營商預計數據將會有10-100倍的增長,這也迫使用戶向4G或LTE網絡轉移。智能電網也受到大數據的影響,世界各地的城市都在加入新的“數字化電網”。金融服務機構看到交易和期權數據100%的複合增長,這導致金融機構最少將數據存儲7年。

在未來的3到5年,大數據已經成爲私人和公共組織的戰略關鍵。事實上,在未來5年預計有50%的大數據項目會在Hadoop框架下運行。

目前的狀況是傳統的數據倉庫的擴展性不佳,同時寫入數據速度已經無法跟上數據產生的速度。而專門涉及的數據倉庫在處理結構化數據時非常有效,但擴展硬件時的成本較高。

在大數據領域,Hadoop的低成本和高擴展性是其關鍵因素。例如一個處理PB級規模數據的Hadoop集羣(125到250節點)的費用大約爲100萬美元,而每個節點每年的費用爲4000美元。這對於企業級數據倉庫的花費(1000萬-1億美元)來說只是一小部分。這樣看來Hadoop似乎是一個不錯的解決方案。問題是企業如何利用Hadoop並將其作爲關鍵業務的核心技術。然後,現有設施與大數據生態系統的整合的整體經營真正成本的關鍵。

由於大數據的規模,如Yahoo的Hadoop系統共有50000節點和200PB的數據,管理這些數據需要更多的額外的存儲能力。許多Web 2.0組織運行Hadoop完全依賴數據冗餘。但如果企業是銀行或通信行業就必須遵守基於標準的安全性、災難恢復性和高可用性。Hadoop發展到今天也面臨諸多的問題,面對這些挑戰,Hadoop必須引入更復雜的數據管理和技術資源。

大數據時代催生數據科學家

在部署Hadoop處理大數據表面的背後,對開源平臺的創新也催生了“數據科學家”這一新興職業。數據科學家本質上更像是統計學家,他們有能力設計和利用MapReduce框架。Google的Hal Varian表示未來10年數據科學家將變成性感的工作,許多人認爲我是在開玩笑,回過頭來看,在20世紀90年代誰會猜到計算機工程師會成爲性感的工作。

前LinkedIn數據科學家DJ Patil表示數據科學家是具備獨特技能的。Bitly首席科學家Hilary Mason表達同樣的觀點,他認爲數據科學家是融合數學、算法,並可從大數據中尋求問題答案的人。而現任LinkedIn首席數據科學家Monica Rogati認爲數據科學家是黑客和分析師組成的混合體,他們通過數據發現本質。

紐約時報研發實驗室的成員Jake Porway表示數據科學家絕對是罕見的全才。數據科學家除了具備編程的能力外還需將各種來源的數據管理並利用統計學挖掘出蘊藏在內部的信息。

Kaggle總裁兼首席科學家Jeremy Howard認爲一個偉大的數據科學家應具備創新、堅韌、好奇、深厚技術這四項素質。具備數據收集、數據改寫、可視化、機器學習、計算機編程等技術的數據科學家使數據驅動決策並主導產品。他們更喜歡用數據說話。

MapReduce與現有設施的整合

MapReduce是一種處理大型及超大型數據集並生成相關的執行的編程模型。其主要思想是從函數式編程語言裏借來的,同時也包含了從矢量編程語言裏借來的特性。MapReduce將整個任務分解成成百甚至上千塊小任務,然後發送到計算機集羣中。

爲了整合MapReduce,多數企業需要開發一個基於全新技術的基礎架構,而對於技術人員的投資成本將很快超過對基礎設施的投資成本。此外,爲了充分利用現有的數據倉庫和商業智能的基礎設施,企業需要將現有的工具和技能與Hadoop加以整合。

大數據帶來了巨大的商業利益,但隱形成本和複雜性是現今發展的障礙。Hadoop應進一步朝着提高可靠性和易於使用的方面進行完善。Apache是Hadoop發展的主要貢獻者。未來對以下兩個方面的的改進將改變易用性和成本。

●在Hadoop框架下充分利用SQL和現有的BI工具。

●壓縮數據,這不僅會降低對存儲需求,還會降低對節點的數量,並簡化基礎設施。

如果不改善這兩個功能,大數據技能學習將需要更多的時間和成本。雖然大數據帶來的好處顯而易見,但CIO和CTO現在必須重新審視大數據的成本了。(李智/編譯)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章