原创 Spark Streaming + Kafka Manager + (Kafka-spark-consumer) 組合

在之前的文章中提到了,使用 Spark Streaming + Kafka-spark-consumer 來應對Driver程序代碼改變,無法從checkpoint中反序列化的問題,即其會自動將kafka的topic中,每個par

原创 "Spark 1.6 + Alluxio 1.2 + OFF_HEAP" 的配置

我們知道,Spark + Tachyon 可以解決 Spark 在使用過程中的一些問題,可以總結爲 數據共享 和 GC 等問題。 但是呢,Tachyon 在今年已經更名爲 Alluxio,並且其訪問schema也從tachyon

原创 "Spark 1.6 + Alluxio 1.2 HA + OFF_HEAP" 的配置

1、到 https://github.com/winse/spark-alluxio-blockstorage 下載 AlluxioBlockManager.scala 文件,並進行編譯打包爲 spark-alluxio-

原创 "Spark Streaming + Kafka direct + checkpoints + 代碼改變" 引發的問題

一、基礎內容 Spark Streaming 從Kafka中接收數據,其有兩種方法:(1)、使用Receivers和Kafka高層次的API;(2)、使用 Direct API,這是使用低層次的Kafka API,並沒有使用到Re

原创 一、Hystrix 簡介

在微服務架構中,根據業務來拆分成一個個的服務,服務與服務之間可以相互調用(RPC) 。爲了保證其高可用,單個服務通常會集羣部署。由於網絡原因或者自身的原因,服務並不能保證100%可用,如果單個服務出現問題,調用這個服務就會出現線程阻塞,此

原创 將 Spark Streaming + Kafka direct 的 offset 保存進入Zookeeper

在上一遍《“Spark Streaming + Kafka direct + checkpoints + 代碼改變” 引發的問題》中說到,當時是將 topic 的 partition 的 offset 保存到了 MySQL 數據庫

原创 Spark Streaming + Kafka direct 從Zookeeper中恢復offset

在上一遍《將 Spark Streaming + Kafka direct 的 offset 保存進入Zookeeper》中,我們已經成功的將 topic 的 partition 的 offset 保存到了 Zookeeper中,

原创 java bitmap/bitvector的分析和應用

簡介    bitmap在很多海量數據處理的情況下會用到。一些典型的情況包括數據過濾,數據位設置和統計等。 它的引入和應用通常是考慮到海量數據的情況下,用普通的數組會超出數據保存的範圍。使用這種位圖的方式雖然不能在根本上解決海量數據處理的

原创 數據庫與緩存雙寫不一致問題分析與解決方案設計

一、說明根據 Cloud Design Patterns 一書中關於緩存模式的 Cache Aside Pattern 說明,其主要內容總結如下:讀取的時候,先讀取緩存,如果緩存中沒有,就直接從數據庫中讀取,然後取出數據後放入緩存更新的時

原创 Alluxio 1.2.0 HA 問題集合

一、問題之 last execution took xxxx ms. Longer than the interval xxx 集羣情況如下: hdfs-yarn-1;IP地址:192.168.1.151;服務:Master &

原创 Alluxio(Tachyon) 集羣獨立運行模式安裝遇到的問題(非root用戶)

1、如果啓動報sudo相關命令錯誤,是因爲啓動用戶未在sudoers裏面,需要將用戶添加到此文件中,添加方法搜下root位置,再後面添加即可。 內容如下: root ALL=(ALL) ALL hadoop ALL=(ALL)

原创 Spark Streaming + Kafka 另一利器 Kafka-spark-consumer 項目

在之前的文章中,曾經提到了,如何在使用 Kafka Direct API 處理消費時,將每個Partition的offset寫到Zookeeper中,並且在應用重新啓動或者應用升級時,可以通過讀取Zookeeper中的offset

原创 docker save與docker export的區別

緣起docker save和docker export都能導出鏡像包,咋看起來區別似乎不大。本文就針對這個問題,試圖搞清楚docker save和docker export的功能是什麼?適用於什麼應用場景?本文的測試的Docker版本如下

原创 十、Hystrix 參數詳解

Hystrix屬性優先級1、內置全局默認值(Global default from code),默認值如果某屬性未通過下面的任何方式進行設置,則默認使用內置全局默認值。2、動態全局默認屬性(Dynamic global default p

原创 十一、Hystrix Dashboard+Turbine

除了隔離依賴服務的調用外,Hystrix還提供了近乎實時的監控,Hystrix會實時的,累加的記錄所有關於HystrixCommand的執行信息,包括執行了每秒執行了多少請求,多少成功,多少失敗等等,更多指標請查看:https://git