原创 全網最通俗易懂的zookeeper選舉機制

目前網絡上已有很多文章講解了zookeeper的選舉機制,但都比較抽象難懂,於是寫下此文,用最通俗易懂的語言闡述zookeeper的選舉機制,希望能幫助大家理解 zookeeper的選舉機制一言以蔽之:得票數超過半數的服務器就是l

原创 最通俗易懂的解釋hbase熱點問題rowkey設計原則region分區及解決方案

關於熱點問題,我簡單陳述容易理解: 我們最開始hbase創建表默認是一個region,而我們所謂的熱點問題其實就是對某一個region的過量訪問造成的 Hbase當發現一個region存儲數據量大於閾值(默認10G)時,會分裂re

原创 淺談我們爲什麼需要zookeeper?

大家都知道zookeeper是作爲一個分佈式協調工具,在很多大數據組件中都有出現 那麼zookeeper是如何成爲協調工具呢? 首先Zookeeper有自己的文件系統 ,而這個文件系統可以監控目錄的變化,這也就是協調工具的核心!

原创 windows下IDEA配置Spark調試錯誤總結

Windows10下 用IDEA編寫scala程序導入sparkjar包在本地local模式下跑 會遇到以下幾個問題: Could not locate executable null\bin\winutils.exe in t

原创 SparkUI詳解,SparkUI是個好東西啊

SparkUI是個好東西,可以很清楚的看到集羣中的幾個worker節點 還能看到每個worker節點的CPU核數和內存 甚至還能看一個job作業運行的時候哪些executor運行,哪些節點運行和本地性級別! 例如: 再點擊每個

原创 系統講解Azkaban安裝及基本操作實用篇

一,概述 1.1什麼是 Azkaban Azkaban是由Linkedin公司推出的一個批量工作流任務調度器, 主要用於在一個工作流內以一個特定的順序運行一組工作和流程, 它的配置是通過簡單的key:value對的方式

原创 全面講解Flink中CheckPoint機制和Exactly Once / At Least Once應用

看完本文,你能 get 到以下知識: 介紹 CheckPoint 如何保障 Flink 任務的高可用 CheckPoint 中的狀態簡介 如何實現全域一致的分佈式快照? 什麼是 barrier?什麼是 barrier 對齊? 證

原创 記錄一次服務器重啓後sparkStreaming任務啓動失敗原因及排查過程

因特殊原因公司服務器從晚上6點開始CPU資源使用率飆升至100% 然後運維重啓服務器,重新構建此服務器上所有作業 然而第二天早上查看日誌發現,有一個job作業啓動失敗,經過一系列排查最終解決,特此記錄一下 此作業是sparkSt