大數據可視化核心技術

數據採集與預處理

由於數據經常有着不同的來源,需要對數據做進一步集成處理或整合處理,將來自不同數據集的數據收集、整理、清洗、轉換後,生成到一個新的數據集,爲後續查詢和分析處理提供統一的數據視圖。所用工具有Data Flux、Data Stage及Informatica Power Center等。

數據存儲與管理

傳統的數據存儲和管理以結構化數據爲主,而大數據往往是半結構化和非結構化數據爲主、結構化數據爲輔,需要對不同類型的數據內容檢索、交叉比對、深度挖掘與綜合分析。

MPP(Massive Parallel Processing)分佈式計算模式可以管理大規模結構化數據,Hadoop則可以實現對半結構化和非結構化數據的處理。

大數據計算

大數據計算模式,即根據大數據的不同數據特徵和計算特徵,從多樣性的大數據計算問題和需求中提煉並建立的各種高層抽象(abstraction)或模型(model)。典型的大數據計算模式包括迭代計算、批處理計算、內存計算、流式計算(Spark Streaming)、數據查詢分析計算(Shark)以及圖計算(GraphX)等。

大數據分析

對大數據的深度分析主要基於大規模的機器學習技術,由於基於機器學習的大數據分析具有迭代性、容錯性、參數收斂的非均勻性等特點,直接應用傳統的分佈式計算系統應用於大數據分析,很大比例的資源都浪費在通信、等待、協調等非有效的計算上。

研究人員開發了一系列接口簡單容錯性強的分佈式計算框架服務於大數據分析算法,以MapReduce、Spark和參數服務器ParameterServer等爲代表。

大數據可視化

可視化通過交互式視覺表現的方式來幫助人們探索和理解複雜的數據。大規模數據的可視化主要是基於並行算法設計的技術,結合多分辨率表示等方法,主要涉及數據流線化、任務並行化、管道並行化和數據並行化4 種基本技術。

微軟的大規模機器學習可視化平臺(Azure Machine Learning)、阿里巴巴旗下的大數據分析平臺御膳房都是互動式大數據分析平臺的案例。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章