原创 Airflow安裝

1、#指定airflow 的home 目錄 export AIRFLOW_HOME=~/airflow 2、#使用pip 安裝apache-airflow pip install apache-airflow 3、#初始化元數據庫

原创 Processor | InvokeScriptedProcessor 使用

作用:可以自定義組件, 以下是模擬 LookupAttrbution 的功能. from org.apache.nifi.processor import Processor from org.apache.nifi.processor

原创 PythonOperator、BashOperator以及Xcom使用

  需求:外界傳入參數,PythonOperator 根據參數查詢數據庫得出結果, BashOperator 根據pythonOperator查詢的結果當作參數去打包下載HDFS 的 文件。 分析: (1)provide_context=

原创 Zookeeper在Kafka中的應用

簡介 Kafka使用zookeeper作爲其分佈式協調框架,很好的將消息生產、消息存儲、消息消費的過程結合在一起。同時藉助zookeeper,kafka能夠生產者、消費者和broker在內的所以組件在無狀態的情況下,建立起生產者和消費者的

原创 HBase 客戶端 Shell語法以及Java API 的使用

HBase 客戶端 Shell語法以及Java API 的使用本章介紹用於對HBase表上執行CRUD操作的HBase Java客戶端API。 HBase是用Java編寫的,並具有Java原生API。因此,它提供了編程訪問數據操縱語言(D

原创 Flume 、Kafka 與SparkStreaming 集成編程

Flume 、Kafka 與SparkStreaming 集成編程一、Kafka與SparkStreaming 集成編程1、程序pull方式,可靠Recerver ,工作常用com.imooc.spark.FlumePullWordCou

原创 Innodb與Myisam引擎的區別與應用場景

1. 區別: (1)事務處理: MyISAM是非事務安全型的,而InnoDB是事務安全型的(支持事務處理等高級處理); (2)鎖機制不同: MyISAM是表級鎖,而InnoDB是行級鎖; (3)select ,update ,insert

原创 KafKa Java編程實例

KafKa Java編程實例編寫一個能發送消息,接收消息的實例(1)編寫係數配置:KafkaProperties.javapackage com.imooc.spark.kafka;/*** Kafka常用配置文件*/public cla

原创 flume-ng編程之自定義攔截器

     從攔截body開始自定義intercepter編程完成每個body字符串的解析字段的正則提取和拼接,我們自定義的這個類叫:LogAnalysis 如下: package com.besttone.interceptor;

原创 kafKa 安裝

kafKa 安裝依賴於zookeeper環境,需要安裝zookeeper 一、安裝zookeeper     (1)下載:http://archive.cloudera.com/cdh5/cdh/5/zookeeper-3.4.5-cdh

原创 maven 對spark 源碼進行編譯(基於Centos 7 )

maven 對spark 源碼進行編譯(基於Centos 7 )1 、寫在前面的話    有些小夥伴可能會問:Spark官網不是已經提供了Spark針對不同版本的安裝包了嗎,我們爲什麼還需要對Spark源碼進行編譯呢?針對這個問題我們到S

原创 Spark性能優化篇四:shuffle調優

Spark性能優化篇四:shuffle調優shuffle調優調優概述      大多數Spark作業的性能主要就是消耗在了shuffle環節,因爲該環節包含了大量的磁盤IO、序列化、網絡數據傳輸等操作。因此,如果要讓作業的性能更上一層樓,

原创 ZooKeeper剖析

一、ZooKeeper 架構 在深入瞭解ZooKeeper的運作之前,讓我們來看看ZooKeeper的基本概念 (1)、Architecture(架構) (2)、Hierarchical namespace(層次命名空間) (3)、Ses

原创 Spark性能優化篇二: 開發調優

Spark性能優化篇二: 開發調優1、前言      在大數據計算領域,Spark已經成爲了越來越流行、越來越受歡迎的計算平臺之一。Spark的功能涵蓋了大數據領域的離線批處理、SQL類處理、流式/實時計算、機器學習、圖計算等各種不同類型

原创 Spark 作業提交

Spark 作業提交一、作業打包jar1、工程目錄結構2、不同運行模式的打包方式 Local模式與Yarn模式不同就在於:Local模式運行時jar包僅在本地存在,而Yarn模式需要在每臺從機的環境上都要相同的jar包,因此在Yarn 模