原创 Spark Streaming消費Kafka Direct方式數據零丟失實現之redis

一、概述 上次寫這篇文章文章的時候,Spark還是1.x,kafka還是0.8x版本,轉眼間spark到了2.x,kafka也到了2.x,存儲offset的方式也發生了改變,筆者根據上篇文章和網上文章,將offset存儲到Redi

原创 Hbase爲什麼這麼快

爲何HBase速度很快? HBase能提供實時計算服務主要原因是由其架構和底層的數據結構決定的, 即由LSM-Tree(Log-Structured Merge-Tree) + HTable(region分區) + Cache決定—

原创 HBase的很強大,前提是你要會用

1、Hbase產生背景 自 1970 年以來,關係數據庫用於數據存儲和維護有關問題的解決方案。大數據的出現後, 好多公司實現處理大數據並從中受益,並開始選擇像 Hadoop 的解決方案。Hadoop 使用分 布式文件系統,用於存儲大

原创 Hbase之文件壓縮

hbase爲什麼壓縮文件: 1.節省HDFS的存儲空間,緩解存儲壓力 2.減少網絡傳輸的數據,減輕網絡傳輸負載 HBase配置壓縮前hadoop需要支持壓縮,關於hadoop的壓縮可以參考:第五記·Hadoop SSH免祕鑰配置以

原创 [技術應用] 將 Spark Streaming + Kafka direct 的 offset 存入Zookeeper並重用

問題導讀: 1. 使用Direct API時爲什麼需要見offset保存到Zookeeper中? 2. 如何將offset存入到Zookeeper中? 3. 如何解決Zookeeper中offset過期問題? 實現將offset存

原创 SparkStreaming整合Kafka-0.8的官方文檔要點翻譯

Spark Streaming + Kafka Integration Guide (Kafka broker version 0.8.2.1 or higher) Note: Kafka 0.8 support is depreca

原创 csdn如何修改文字體及顏色

Markdown是一種可以使用普通文本編輯器編寫的標記語言,通過類似HTML的標記語法,它可以使普通文本內容具有一定的格式。但是它本身是不支持修改字體、字號與顏色等功能的! CSDN-markdown編輯器是其衍生版本,擴展了Mark

原创 Spark中cache和persist的區別

cache和persist都是用於將一個RDD進行緩存的,這樣在之後使用的過程中就不需要重新計算了,可以大大節省程序運行時間。 cache和persist的區別 基於Spark 2.3.2 的源碼,可以看到 /** * Pers

原创 spark性能調優之使用Kryo序列化

在SparkConf中設置一個屬性,spark.serializer,org.apache.spark.serializer.KryoSerializer類;註冊你使用到的,需要通過Kryo序列化的, 一些自定義類,SparkConf

原创 hive列轉行 (collect_all()/collect_list() 不去重)、(collect_set去重)

collect_all() hive 0.12 collect_list() hive 0.13 ** 一、問題 ** hive如何將 a b1 a b2 a b2 c d1

原创 CustomDirectKafkaExample.scala

offset保存在zookeeper中 package main.scala object CustomDirectKafkaExample { private val conf = ConfigFactory.load()

原创 關於SparkStreaming的checkpoint的弊端

框架版本 spark2.1.0 kafka0.9.0.0 當使用sparkstreaming處理流式數據的時候,它的數據源搭檔大部分都是Kafka,尤其是在互聯網公司頗爲常見。 當他們集成的時候我們需要重點考慮就是如果程序發生故障,或

原创 Spark Streaming消費Kafka Direct方式數據零丟失實現

一、概述 上次寫這篇文章文章的時候,Spark還是1.x,kafka還是0.8x版本,轉眼間spark到了2.x,kafka也到了2.x,存儲offset的方式也發生了改變,筆者根據上篇文章和網上文章,將offset存儲到Redis,

原创 HdfsToHBase

package com.hdfs.hbase; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.

原创 Hbase之--------將Hdfs數據加載到Hbase數據庫中

數據: zhangfenglun,M,20,13522334455,[email protected],23521472 chenfei,M,20,13684634455,[email protected],84545472 liyuchen,M,20,1