原创 Airflow安裝
1、#指定airflow 的home 目錄 export AIRFLOW_HOME=~/airflow 2、#使用pip 安裝apache-airflow pip install apache-airflow 3、#初始化元數據庫
原创 Processor | InvokeScriptedProcessor 使用
作用:可以自定義組件, 以下是模擬 LookupAttrbution 的功能. from org.apache.nifi.processor import Processor from org.apache.nifi.processor
原创 PythonOperator、BashOperator以及Xcom使用
需求:外界傳入參數,PythonOperator 根據參數查詢數據庫得出結果, BashOperator 根據pythonOperator查詢的結果當作參數去打包下載HDFS 的 文件。 分析: (1)provide_context=
原创 Zookeeper在Kafka中的應用
簡介 Kafka使用zookeeper作爲其分佈式協調框架,很好的將消息生產、消息存儲、消息消費的過程結合在一起。同時藉助zookeeper,kafka能夠生產者、消費者和broker在內的所以組件在無狀態的情況下,建立起生產者和消費者的
原创 HBase 客戶端 Shell語法以及Java API 的使用
HBase 客戶端 Shell語法以及Java API 的使用本章介紹用於對HBase表上執行CRUD操作的HBase Java客戶端API。 HBase是用Java編寫的,並具有Java原生API。因此,它提供了編程訪問數據操縱語言(D
原创 Flume 、Kafka 與SparkStreaming 集成編程
Flume 、Kafka 與SparkStreaming 集成編程一、Kafka與SparkStreaming 集成編程1、程序pull方式,可靠Recerver ,工作常用com.imooc.spark.FlumePullWordCou
原创 Innodb與Myisam引擎的區別與應用場景
1. 區別: (1)事務處理: MyISAM是非事務安全型的,而InnoDB是事務安全型的(支持事務處理等高級處理); (2)鎖機制不同: MyISAM是表級鎖,而InnoDB是行級鎖; (3)select ,update ,insert
原创 KafKa Java編程實例
KafKa Java編程實例編寫一個能發送消息,接收消息的實例(1)編寫係數配置:KafkaProperties.javapackage com.imooc.spark.kafka;/*** Kafka常用配置文件*/public cla
原创 flume-ng編程之自定義攔截器
從攔截body開始自定義intercepter編程完成每個body字符串的解析字段的正則提取和拼接,我們自定義的這個類叫:LogAnalysis 如下: package com.besttone.interceptor;
原创 kafKa 安裝
kafKa 安裝依賴於zookeeper環境,需要安裝zookeeper 一、安裝zookeeper (1)下載:http://archive.cloudera.com/cdh5/cdh/5/zookeeper-3.4.5-cdh
原创 maven 對spark 源碼進行編譯(基於Centos 7 )
maven 對spark 源碼進行編譯(基於Centos 7 )1 、寫在前面的話 有些小夥伴可能會問:Spark官網不是已經提供了Spark針對不同版本的安裝包了嗎,我們爲什麼還需要對Spark源碼進行編譯呢?針對這個問題我們到S
原创 Spark性能優化篇四:shuffle調優
Spark性能優化篇四:shuffle調優shuffle調優調優概述 大多數Spark作業的性能主要就是消耗在了shuffle環節,因爲該環節包含了大量的磁盤IO、序列化、網絡數據傳輸等操作。因此,如果要讓作業的性能更上一層樓,
原创 ZooKeeper剖析
一、ZooKeeper 架構 在深入瞭解ZooKeeper的運作之前,讓我們來看看ZooKeeper的基本概念 (1)、Architecture(架構) (2)、Hierarchical namespace(層次命名空間) (3)、Ses
原创 Spark性能優化篇二: 開發調優
Spark性能優化篇二: 開發調優1、前言 在大數據計算領域,Spark已經成爲了越來越流行、越來越受歡迎的計算平臺之一。Spark的功能涵蓋了大數據領域的離線批處理、SQL類處理、流式/實時計算、機器學習、圖計算等各種不同類型
原创 Spark 作業提交
Spark 作業提交一、作業打包jar1、工程目錄結構2、不同運行模式的打包方式 Local模式與Yarn模式不同就在於:Local模式運行時jar包僅在本地存在,而Yarn模式需要在每臺從機的環境上都要相同的jar包,因此在Yarn 模