原创 理解Hadoop通信 RPC

遠程過程調用(Remote Procedure Call, RPC) 是一種常用的分佈式網絡通信協議, 它允許運行於一臺計算機的程序調用另一臺計算機的子程序, 同時將網絡的通信細節隱藏起來, 使得用戶無須額外地爲這個交互作用編程。

原创 最終一致性算法Gossip簡介

Gossip背景 Gossip特點 Gossip本質 Gossip節點的通信方式及收斂性 Anti-Entropy的協調機制 1 精確協調Precise Reconciliation 2 整體協調Scuttlebutt Rec

原创 HBase架構解析二

HBase讀的實現 通過前文的描述,我們知道在HBase寫時,相同Cell(RowKey/ColumnFamily/Column相同)並不保證在一起,甚至刪除一個Cell也只是寫入一個新的Cell,它含有Delete標記,而不一

原创 YARN基本框架分析

YARN 是在 MRv1 基礎上演化而來的,它克服了 MRv1 中的各種侷限性,再進一步瞭解YARN之前來了解下MR1存在的侷限性,看看YARN解決了那些問題。MRv1 的侷限性,這可概括爲以下幾個方面: 擴展性差。在 MRv1

原创 HBase compaction 分析

Hbase爲了防止小文件(被刷到磁盤的menstore)過多,保證查詢效率,HBase需要在必要的時候將這些小的store file合併成相對較大的store file,這個過程就稱之爲compaction。在HBase中,主要存

原创 YARN任務提交流程

Yarn是隨着hadoop發展而催生的新框架,全稱是Yet Another Resource Negotiator,可以翻譯爲“另一個資源管理器”。yarn取代了以前hadoop中jobtracker(後面簡寫JT)的角色,因爲以

原创 Copy-On-Write COW 技術簡介

COW技術初窺:       在Linux程序中,fork()會產生一個和父進程完全相同的子進程,但子進程在此後多會exec系統調用,出於效率考慮,linux中引入了“寫時複製“技術,也就是隻有進程空間的各段的內容要發生變化時,

原创 HBase架構解析一

HBase架構組成 HBase採用Master/Slave架構搭建集羣,它隸屬於Hadoop生態系統,由一下類型節點組成:HMaster節點、HRegionServer節點、ZooKeeper集羣,而在底層,它將數據存儲於HDF

原创 漫畫HDFS原理

    分佈式文件系統比較出名的有HDFS 和 GFS,其中HDFS比較簡單一點。本文是一篇描述非常簡潔易懂的漫畫形式講解HDFS的原理。比一般PPT要通俗易懂很多。難得的學習資料。    1、三個部分: 客戶端、n

原创 HDFS 讀寫流程

1 HDFS     如上圖所示,HDFS也是基於Master/Slave的結構。分NameNode、SecondaryNameNode、DataNode這幾個角色。 NameNode:是Master節點,是大領導。管理數據塊映

原创 Hbase Split 解析

HBase Split是hbase根據一定的觸發條件和一定的分裂策略將HBase的一個region進行分裂成兩個子region並對父region進行清除處理的過程。Region是HBase中一個非常核心的組織單元,所有的regio

原创 HBase Flush 解析

在對hbase操作中,數據讀取/寫入都是發生在某個HRegion下某個Store裏的files。那麼究竟在寫入hbase時,一個region下到底發生了什麼呢? 常見的有以下三種情況: 1)、memstore flush to

原创 HBase region 定位原理

在Hbase中,大部分的操作都是在RegionServer完成的,Client進行插入,刪除,查詢數據都需要先找到相應的RegionServer。什麼叫相應的RegionServer?就是管理你要操作的那個Region的Regio

原创 HBase 協處理器 (Coprocessors)

      Hbase作爲列族數據庫最經常被人詬病的特性包括: 無法輕易建立“二級索引”; 難以執行求和、計數、排序等操作。       比如說:在舊版本的(<0.92)hbase中,統計數據表的總行數,需要使用counter

原创 Hadoop MR &MRv2(YARN)編程模型

1 MapReduce編程模型     MapReduce將作業的整個運行過程分爲兩個階段:Map階段和Reduce階段        Map階段由一定數量的Map Task組成