大數據系統由哪些核心組件構成

  大數據是新一代信息技術的核心方面和競爭前沿,也是制約大數據產業快速發展的關鍵瓶頸。大數據技術創新能力已經成爲後信息時代衡量國家競爭力的重要指標。與傳統信息產業的發展過程相似,大數據必將逐漸形成一個相對獨立、體系完善的產業形態,完成傳統信息產業的升級換代。今天我們就在來了解一下,數據系統的主要業務以及存儲方法。

大數據系統由哪些核心組件構成

 

  數據系統主要對業務數據及其他數據進行彙總和處理,對接BI、推薦或風控等系統。整個系統架構中,會包含以下比較常見的幾大核心組件:

 

  關係數據庫:用於主業務數據存儲,提供事務型數據處理,是應用系統的核心數據存儲。

 

  高速緩存:對複雜或操作代價昂貴的結果進行緩存,加速訪問。

 

  搜索引擎:提供複雜條件查詢和全文檢索。

 

  隊列:用於將數據處理流程異步化,銜接上下游對數據進行實時交換。異構數據存儲之間進行上下游對接的核心組件,例如數據庫系統與緩存系統或搜索系統間的數據對接。也用於數據的實時提取,在線存儲到離線存儲的實時歸檔。

 

  非結構化大數據存儲:用於海量圖片或視頻等非結構化數據的存儲,同時支持在線查詢或離線計算的數據訪問需求。

 

  結構化大數據存儲:在線數據庫也可作爲結構化數據存儲,但這裏提到的結構化數據存儲模塊,更偏在線到離線的銜接,特徵是能支持高吞吐數據寫入以及大規模數據存儲,存儲和查詢性能可線性擴展。可存儲面向在線查詢的非關係型數據,或者是用於關係數據庫的歷史數據歸檔,滿足大規模和線性擴展的需求,也可存儲面向離線分析的實時寫入數據。

 

  批量計算:對非結構化數據和結構化數據進行數據分析,批量計算中又分爲交互式分析和離線計算兩類,離線計算需要滿足對大規模數據集進行復雜分析的能力,交互式分析需要滿足對中等規模數據集實時分析的能力。

 

  流計算:對非結構化數據和結構化數據進行流式數據分析,低延遲產出實時視圖。

 

  在數據系統架構中,我們可以看到會存在多套存儲組件。對於這些存儲組件中的數據,有些是來自應用的直寫,有些是來自其他存儲組件的數據複製。例如業務關係數據庫的數據通常是來自業務,而高速緩存和搜索引擎的數據,通常是來自業務數據庫的數據同步與複製。不同用途的存儲組件有不同類型的上下游數據鏈路,我們可以大概將其歸類爲主存儲和輔存儲兩類,這兩類存儲有不同的設計目標,主要特徵爲:

 

  主存儲:數據產生自業務或者是計算,通常爲數據先落地的存儲。ACID等事務特性可能是強需求,提供在線應用所需的低延遲業務數據查詢。

 

  輔存儲:數據主要來自主存儲的數據同步與複製,輔存儲是主存儲的某個視圖,通常面向數據查詢、檢索和分析做優化。

 

  數據來源途徑越來越豐富,而且類型也很多花樣,存儲和數據處理的需求量很大,對於數據展現也非常的高,並且很看重數據處理的高效性和可用性。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章