大數據的完整解決方案和體系化

大數據的完整解決方案和體系化

[日期:2014-11-25] 來源:人月神話的新浪博客  作者:人月神話 [字體:  ]

大數據

  對於大數據,後面會作爲一個系列來談,大數據涉及的方面特別多,包括主數據,數據中心和ODS,SOA,雲計算,業務BI等很多方面的內容。前面看到一個提法,即大數據會讓我們更加關注業務方面的內容,而云平臺則更多是技術層面的內容。對於大數據會先把各個理解的關鍵點談完了,再系統來看大數據的完整解決方案和體系化。

對傳統BI的改進

  大數據對傳統BI的改進不僅僅是數據類型增加,如半結構化和非結構化數據,而更多的是實時性的改進。傳統的BI方式,如果基於ETL-》ODS-》DW的思路基本無法解決BI分析的實時性問題。數據量大,海量數據傳統BI就有,不是新問題。特別是結構化數據,再海量也是有一個度,非結構化數據則膨脹和存儲量都很大,需要考慮數據分佈式,同時數據分佈式後帶來的關鍵問題就是數據分析的實時性問題。這裏的實時性不僅僅是從ODS和DW進行分析查詢的速度,更多的是在業務事件產生後實時分析的速度。

  對於非結構化數據,考慮的是索引數據的結構化,指標體系或計算規則的結構化,而不是所有非結構化數據的全部結構化。那麼在這種模式下,傳統BI的數據倉庫和建模策略同樣帶來變化。指標體系本身並沒有變化,但是從指標體系根據業務需求檢索和分析數據的過程變化了。

對數據中心的影響

  傳統的數據中心我們已經談到基於ODS來建立一個共享數據服務平臺。ODS核心目標是建立共享數據服務,數據本身通過各種數據服務提供,數據完全開放出來不僅僅是爲DW提供服務,而面向更多的業務系統。數據本身不落地而且經過轉換和清洗,這是和傳統的數據交換平臺的差異。

  ODS存放的不僅僅是MDM主數據,還包括了核心動態數據,這些動態數據的特點就是跨多個業務系統共享。這種共享和數據不落地解決的最大問題就是傳統數據交換下帶來的數據多點複製和不一致的問題。在談到大數據的時候,帶來的改變是大數據平臺除了結構化數據外,需要包括非結構化數據等各種異構數據,那麼大數據平臺應該有一個共享的數據服務層,整合底層各種異構數據,提供數據共享服務。要知道用戶並不關心數據的結構,也不關心數據的物理存儲。

ESB總線和大數據的關係

  在談大數據的時候,ESB總線更多體現的是數據服務。對於數據採集不一定是通過ESB數據集成方式進行,但是數據服務本身的提供可以接入到ESB總線,提供統一的數據服務。大數據提供統一的大數據視圖,而ESB提供大數據服務目錄,提供統一的大數據目錄視圖。ESB不僅僅是數據集成,更多的是提供大數據服務目錄庫和統一服務視圖。ESB在大數據整個架構體系不是必須,特別是偏重的ESB總線,這點要注意。

大數據和數據分析層次

  在談BI的時候我們會談到數據分析的層次,包括了報表應用,專題分析,預測分析,實時反饋和動態智能幾個方面的內容。對於後面兩個可以作爲大數據應用的高級層次。

  在談大數據的時候,很重要的一個價值就是快速,快速的響應分析並動態提供智能決策信息。在數據量大和數據結構複雜後這個問題更加難以解決。前面談到過 EDA和CEP複雜事件處理,在大數據高級層次必須要考慮,數據初始化處理無法實時,但是對於關鍵事件增量信息完全可以基於EDA和消息技術提供一種準實時。數據推送實時了還不夠,大量數據分析還得快,兩者結合纔可能實現動態智能。

分析模式和分析技術的問題

  我們談大數據分析的時候將更多的關注點放在了分析技術上,如分佈式存儲,mapreduce分佈式計算,hive數據分析聚合等。但是當談大數據的時候,分析模式比分析技術更加重要,分析模式是面對不同的業務場景和大數據問題時最難的一個地方。

  當我們逛商場或網店的時候,應該如何實時推送相關針對性營銷信息?當我們監控電信運營網絡的時候,如何根據採集的數據實時的診斷網絡健康狀況和預警?在這裏面都是不同的分析模式,包括模式語言,也包括各種規則引擎,具體分析模式由於在引入了非結構化數據,考慮實時性後分析模式會出現大變化,這個後面專門來談,但是個人感覺是大數據分析的新重點考慮內容。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章