原创 Nifi Processor | PutS3Object

 需求: 從kafka讀取數據,根據內容路由再壓縮後,put 到s3 中。 流程圖。   1、使用Kakfa 讀取數據 2、在RouteTxt 中,根據要求過濾掉不需要的數據 3、在CompressContent 中進行數據壓縮後,流入

原创 Nifi Processor | RouteText 與 RouteOnContent

RouteText         根據一組用戶定義的規則路由文本數據。傳入的FlowFile中的每一行都與用戶定義的Properties指定的值進行比較。將文本與這些用戶定義的屬性進行比較的機制由“匹配策略”定義。然後根據這些規則路由數

原创 Nifi Processor | EvaluateJsonPath

解析json 中的屬性值,並更新到flowfile 屬性中。 用法場景:   1、從kafka 中讀取flowfile content 中的json數據,傳入EvaluateJsonPath   2、B列是json 數據中的數據, A

原创 Nifi Processor | PutHiveQL

    執行HiveQL DDL / DML命令(例如,UPDATE,INSERT)。傳入的FlowFile的內容應該是要執行的HiveQL命令。HiveQL命令可能會使用?逃避參數。在這種情況下,要使用的參數必須作爲具有命名約定hive

原创 BashOperator實例

特別注意:bash_command 命令後需要添加一個 空格,否則會報錯 # -*- coding: utf-8 -*- from datetime import timedelta import airflow from airflo

原创 Airflow PythonOperator、BashOperator以及Xcom使用

需求:外界傳入參數,PythonOperator 根據參數查詢數據庫得出結果, BashOperator 根據pythonOperator查詢的結果當作參數去打包下載HDFS 的 文件。 分析: (1)provide_context=Tr

原创 Airflow介紹

主要功能 使用Python代碼動態生成DAG,可以做到更加靈活的配置和某種意義上的簡單配置DAG。 豐富的Operator、Hook,支持非常多的第三方組件,能滿足多種需求。 支持Apache Atlas,實現數據追蹤。 具

原创 分組消費的再平衡策略

從kafka消費消息,kafka客戶端提供兩種模式: 分區消費,分組消費。 分區消費對應的就是我們的DirectKafkaInputDStream 分組消費對應的就是我們的KafkaInputDStream 消費者數目跟分區數目的關係:

原创 Mysql 實時同步到大數據數倉

如何能夠做到數據的實時同步呢?我們想到了MySQL主從複製時使用的binlog日誌,它記錄了所有的 DDL 和 DML 語句(除了數據查詢語句select、show等),以事件形式記錄,還包含語句所執行的消耗時間下面來看一下MySQL主

原创 Hive 拉鍊表

想總結一下拉鍊表 的使用,但今天太懶不想手寫,看到一篇思路清晰非常不錯的文章,轉載一下,供大家閱讀。。。 背景 拉鍊表是一種數據模型,主要是針對數據倉庫設計中表存儲數據的方式而定義的;顧名思義,所謂拉鍊表,就是記錄歷史。記錄一個事務從開始

原创 Kafka 異常錯誤集

1、啓動生產者進程:[root@VM_0_16_centos config]#  kafka-console-producer.sh --broker-list  hadoop000:9092 --topic testsss[2018-0

原创 sparksql執行流程分析

    Spark sql是spark內部最核心,也是社區最活躍的組件。Spark SQL支持在Spark中執行SQL,或者HiveQL的關係查詢表達式。列式存儲的類RDD(DataSet/DataFrame)數據類型以及對sql語句的支

原创 spark 廣播變量的設計和實現

spark 官網上對 廣播變量的描述 Broadcast variables allow the programmer to keep a read-only variable cached on each machinerather

原创 Spark RDD上的map operators是如何pipeline起來的

問題 :作用在一個RDD/DataFrame上的連續的多個map是在對數據的一次循環遍歷中完成的還是需要多次循環? 回答:不需要多次循環,spark會將多個map操作pipeline起來apply到rdd partition的每個data

原创 Nifi的主要優缺點

Nifi的主要優點有: A.可視化的UI界面,各個模塊組件之間高度可配置,且每個流程都有監控,可以通過界面直觀的看到各個數據處理模塊之間的數據流轉情況,分析出程序性能瓶頸。 B.數據流可以在UI界面自由拖拽和拓展,各模塊之間相互獨立,互不