原创 spark ,hive collect_list全局保持順序

  Hive中collect_list全局保持順序 我用部署的是standalone模式,local單節點計算的時候,結果沒問題,當集羣計算的時候因爲是分佈式的,因此結果是亂序的。解決方法如下: 有以下Hive表的定義: create

原创 MapReduce 單表關聯

package sitesh; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apach

原创 Flink 同步kafka 數據寫入hbase

package com.sitesh.test; import java.io.*; import java.util.Arrays; import java.util.List; import java.util.Properties

原创 FlinkSQL實現WordCount

import org.apache.flink.api.java.DataSet; import org.apache.flink.api.java.ExecutionEnvironment; import org.apache.fli

原创 spark wordcount

import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object SprakWordCount { def main(

原创 Flink 兩表關聯 流批處理消費kafka 數據寫入hbase

Flink流批處理消費kafka 數據寫入hbase 通過flume將數據寫入kafka topic Kafka topic1 數據: name, age, sexy, proctime.proctime java,18,男,201905

原创 parquet 形式MapReduce hbase 數據寫入hdfs

package com.sitech; import com.google.common.collect.Lists; import org.apache.hadoop.conf.Configuration; import org.a

原创 Flink 兩表關聯 Could not instantiate outputs in order

Caused by: java.lang.ClassNotFoundException: org.apache.flink.table.runtime.CRowKeySelector 具體報錯 May 16, 2019 10:12:01

原创 MapReduce hdfs to hbase

package sitech; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apach

原创 MapReduce hdfs文件寫入hbase表

@[TOMapReduce hdfs文件寫入hbase表 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import or

原创 mapreduce HDFS 寫入hbase 表中

import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.hbase.HBaseCo

原创 MapReduce hbase to hdfs

hbase 表數據如下 具體代碼: import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apa

原创 MapReduce hdfs 寫入 hbase 表

文件內容如下: 入hbase 表  依賴jar 包 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0"

原创 flink消費kafka數據直接到hdfs

import org.apache.flink.api.common.functions.FlatMapFunction; import org.apache.flink.api.common.serialization.SimpleS

原创 flink消費kafka 數據

import org.apache.flink.api.common.functions.FlatMapFunction; import org.apache.flink.api.common.serialization.SimpleS