原创 spark使用java讀取hbase數據做分佈式計算

問題導讀: 1.如何初始化sparkContext? 2.如何設置查詢條件? 3.如何獲得hbase查詢結果Result?     由於spark提供的hbaseTest是scala版本,並沒有提供java版。我將scala版

原创 flink之FLIP

https://cwiki.apache.org/confluence/display/FLINK/Flink+Improvement+Proposals   FLIP-1 : Fine Grained Recovery from

原创 Flink架構、原理與部署測試

Apache Flink是一個面向分佈式數據流處理和批量數據處理的開源計算平臺,它能夠基於同一個Flink運行時,提供支持流處理和批處理兩種類型應用的功能。 現有的開源計算方案,會把流處理和批處理作爲兩種不同的應用類型,因爲它們所提

原创 使用 maven 插件 maven-shade-plugin 對可執行 java 工程及其全部依賴 jar 進行打包

現在基本上都是採用maven來進行開發管理,我有一個需求是需要把通過maven管理的java工程打成可執行的jar包,這樣也就是說必需把工程依賴的jar包也一起打包。而使用maven默認的package命令構建的jar包中只包括了工程自

原创 如何理解“可靠性”和“可用性”?

前言 相信點開這篇文章的讀者,一定或多或少接觸過“高可靠”“高可用”這些字眼,但是往往或語焉不詳,或羅列術語(MTBF、MTTR ...),那麼我們到底應該如何定量描述系統的可靠性和可用性指標呢,這些看着很上流的術語到底意味着什麼呢?

原创 Raft一致性算法

Why Not Paxos Paxos算法是萊斯利·蘭伯特(LeslieLamport,就是 LaTeX 中的”La”,此人現在在微軟研究院)於1990年提出的一種基於消息傳遞的一致性算法。由於算法難以理解起初並沒有引起人們的重視,使

原创 Flink的高可用集羣環境

JobManager高可用(HA) JobManager協調每一個Flink集羣環境,它負責作業調度和資源管理。默認情況下,一個Flink集羣中只有一個JobManager實例,這很容易造成單點故障(SPOF)。如果JobManage

原创 Hbase萬億級存儲性能優化總結

背景       hbase主集羣在生產環境已穩定運行有1年半時間,最大的單表region數已達7200多個,每天新增入庫量就有百億條,對hbase的認識經歷了懵懂到熟的過程。爲了應對業務數據的壓力,hbase入庫也由最初的單機多線程

原创 Hadoop YARN中內存和CPU兩種資源的調度和隔離

Hadoop  YARN同時支持內存和CPU兩種資源的調度(默認只支持內存,如果想進一步調度CPU,需要自己進行一些配置),本文將介紹YARN是如何對這些資源進行調度和隔離的。 在YARN中,資源管理由ResourceManager和

原创 HBase(0.96以上版本)過濾器Filter詳解及實例代碼(轉)

說明: 本文參考官方Ref Guide,Developer API和衆多博客,並結合實測代碼編寫,詳細總結HBase的Filter功能,並附上每類Filter的相應代碼實現。 本文儘量遵從Ref Guide中“9.4. Client

原创 JVM調優總結 -Xms -Xmx -Xmn -Xss

堆大小設置JVM 中最大堆大小有三方面限制:相關操作系統的數據模型(32-bt還是64-bit)限制;系統的可用虛擬內存限制;系統的可用物理內存限制。32位系統下,一般限制在1.5G~2G;64爲操作系統對內存無限制。我在Windows

原创 利用maven-shade-plugin打包包含所有依賴jar包

1. Why? 通過 maven-shade-plugin 生成一個 uber-jar,它包含所有的依賴 jar 包。 2. Goals Goal Description shade:help Display help informa