原创 java代碼獲取Redis客戶端

1.導入maven <dependency> <groupId>redis.clients</groupId> <artifactId>jedis</artifactId> <version>2.9.0</version>

原创 spark讀取hive和寫入hive

1.導入maven <properties> <spark.version>2.1.1</spark.version> <scala.version>2.11.8</scala.version> <

原创 linux集羣同步腳本

1.在/root目錄下創建bin目錄,並在bin目錄下創建文件xsync [root@hadoop100 ~]$ mkdir bin [root@hadoop100 ~]$ cd bin/ [root@hadoop100 bin]

原创 使用Druid連接mysql數據

1.先導入maven <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.47</

原创 Datax使用

下載地址 下載地址:https://github.com/alibaba/DataX 實際使用 python datax.py --jvm="-Xms5G -Xmx5G" ../job/test.json -p "-Ddt=201

原创 opentsdb使用

1.maven導入 <dependency> <groupId>com.github.eulery</groupId> <artifactId>opentsdb-java-sdk</artifactId> <version>

原创 spark操作hive工具類

import org.apache.spark.sql.SparkSession object HiveUtil { /** * 調大最大分區個數 * * @param spark

原创 canal安裝(HA)使用

1.canal 入門 1.1 什麼是 canal 阿里巴巴B2B公司,因爲業務的特性,賣家主要集中在國內,買家主要集中在國外,所以衍生出了杭州和美國異地機房的需求,從2010年開始,阿里系公司開始逐步的嘗試基於數據庫的日誌解析,獲

原创 linux集羣整體操作腳本

1.在/root/bin目錄下創建腳本xcall.sh [root@hadoop100 bin]$ vim xcall.sh 2.在腳本中編寫如下內容 #! /bin/bash for i in hadoop100 hadoo

原创 kafka生產數據

1.導入maven <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>0.11.

原创 flink面試相關手冊

概述 2019 年是大數據實時計算領域最不平凡的一年,2019 年 1 月阿里巴巴 Blink (內部的 Flink 分支版本)開源,大數據領域一夜間從 Spark 獨步天下走向了兩強爭霸的時代。Flink 因爲其天然的流式計算特

原创 Spark Sql 函數詳解

1.聚合函數 approx_count_distinct count_distinct近似值 avg 平均值 collect_list 聚合指定字段的值到list collect_set 聚合指定字段的值到set corr

原创 scala讀寫文本文件

1.scala讀文本文件 val bufferedSource = Source.fromFile("example.txt") for (line <- bufferedSource.getLines) { printl

原创 加載ProPerties配置文件工具類

public class ProPertiesUtil { /** * @param fileName 文件名稱 */ public static Properties getProperti

原创 hive常用命令和壓縮

1.創建數據庫 1)創建一個數據庫,數據庫在HDFS上的默認存儲路徑是/user/hive/warehouse/*.db。 hive (default)> create database db_hive; 2)避免要創建的數據庫