《分佈式技術原理與算法解析》學習筆記Day21

分佈式數據存儲三要素

什麼是分佈式數據存儲系統?

分佈式存儲系統的核心邏輯,就是將用戶需要存儲的數據根據某種規則存儲到不同的機器上,當用戶想要獲取指定數據時,再按照規則到存儲數據的機器中獲取。

分佈式存儲系統的三要素:

  • 數據生產者 / 數據消費者
  • 數據索引
  • 數據存儲

數據生產者生產數據,將數據存儲到分佈式數據存儲系統中,數據消費者是從分佈式數據存儲系統中獲取數據進行消費;數據索引將訪問數據的請求轉發到數據所在的存儲節點;存儲設備用來存儲數據。

分佈式系統數據類型

分佈式系統中存在大量不同類型的數據,根據數據的特徵,我們可以將其分爲三類:

  • 結構化數據,指關係模型數據,特徵是數據關聯較大、格式固定,一般採用分佈式關係數據庫進行存儲和查詢。
  • 半結構化數據,指非關係模型數據,有基本固定結構模式的數據,特徵是數據之間關係比較簡單,一般採用分佈式鍵值系統進行存儲和使用。
  • 非結構化數據,指沒有固定模式的數據,特徵是數據之間關聯不大,這種數據一般存儲到文檔中,通過ElasticSearch等進行檢索。

數據分片與數據複製

數據分片技術,是指分佈式存儲系統按照一定的規則,將數據存儲到相應的存儲節點中,或者到相應的存儲節點中獲取想要的數據。這種技術一方面可以降低單個存儲節點的存儲和訪問壓力,另一方面可以通過規定好的規則快速找到數據所在的存儲節點,從而大大降低搜索延遲,提高用戶體驗。

數據分片可以採取不同的方式,包括:

  • 數據特徵分片
  • 數據範圍分片
  • 哈希分片
  • 一致性哈希分片

數據複製是指將數據進行備份,使得多個節點存儲該數據。它可以通過主備方式存儲的方式,提高分佈式系統的可用性和可靠性。

在實際的分佈式存儲系統中,數據分片和數據複製通常是共存的:

  • 數據通過分片方式存儲到不同的節點上,以減少單節點的性能瓶頸問題。
  • 數據的存儲通過主備方式保證可靠性,即對每個節點上存儲的分片數據,採用主備方式存儲,來保證數據可靠性,其中主備節點上數據一致,是通過數據複製技術實現的。

數據存儲

根據上述三種不同的數據類型,常採用的數據存儲選型方案如下:

  • 分佈式數據庫,通過表格來存儲結構化數據,方便查找。常見的方案包括:MySQL Sharding、Microsoft SQL Azure、Google Spanner、Alibaba OceanBase等。
  • 分佈式鍵值系統,通過兼職對來存儲半結構化數據。常見的方案包括:Redis、Memcache等。
  • 分佈式存儲系統,通過文件、塊、對象等來存儲非結構化數據。常見的方案包括:Ceph、GFS、HDFS、Swift等。

詳細的分佈式數據庫比較如下。

詳細的分佈式存儲系統比較如下。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章