原创 Flink Transformation 操作

    前面我們介紹了Flink DataStream數據處理流程中的source和sink,這篇文章我們介紹一下 Flink的Transformation 的操作,一般常用的算子有下面幾種,我們分別用代碼來演示下他基本用法: Map操作

原创 Flink API入門

Flink數據處理流程      通過前面的文章我們大概瞭解了實時流處理框架,這篇文章開始我們將詳細來學習下Flink的使用。Flink爲開發流式/批處理應用程序提供了不同級別的抽象。 而這幾個抽象的模塊中DataStream API用

原创 hive ORC 文件存儲格式

   ORC file format,它的全名是Optimized Row Columnar (ORC)  file format。使用ORC文件格式提升Hive讀、寫與處理數據的性能。    存儲方式爲數據按行分塊,每塊按照列存儲   

原创 Spark Rdd DataFrame操作彙總

直接上測試代碼: import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functi

原创 全球國家編碼表

我們在做跨地域的系統中經常會用到國家編碼,下面是整理的兩位和三位國家編碼字典表,供日常查詢: 兩位iso編碼 三位iso編碼 國家英文名 中文名 GH GHA Ghana 加納 BZ BLZ Belize 伯利茲 VC VCT St.

原创 MYSQL主備複製結構搭建與切換

1 選擇兩個服務器,分別作爲主備數據庫2 登陸到服務器,安裝相同版本mysql yum install mysql ; yum install mysql-server;3 啓動mysql服務器 service  mysqld star

原创 Flink實時統計入MySQL

先上代碼片段 import java.sql.Types import java.text.SimpleDateFormat import java.util.Date import org.apache.flink.api.jav

原创 MySQL一些SQL技巧

1,一行轉多行      url列以分號分隔,將其一行轉化爲多行,藉助自增長表help_topic 實現。select a.channel_id,channel_code,site_name,siteid,refer_channel,su

原创 數據交換工具DataX使用

1,下載svn co http://code.taobao.org/p/datax2,安裝根據服務器安裝軟件情況可能需要安裝下面軟件yum install antyum install gcc-c++yum install rpm-bui

原创 Hive ORC數據格式的MapReduce讀寫

1,mr代碼如下package com.test.hadoop; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.

原创 R語言繪圖

1,R語言支持很多畫圖功能,現對餅狀圖嘗試一下,可以定義一個pie.R文件內容如下ShowPie <- function(){x=c(1,2,4)pie(x, labels=c('a','b','c'),col = c('blue','r

原创 Mongodb副本集和分片

       MongoDB是一個介於關係數據庫和非關係數據庫之間的產品,是非關係數據庫當中功能最豐富,最像關係數據庫的。它支持的數據結構非常鬆散,是類似json的bson格式,因此可以存儲比較複雜的數據類型。 而且mongodb也有索引

原创 Elasticsearch基礎實踐

Elasticsearch是高度可伸縮的開源全文搜索和分析引擎。它允許我們快速實時地存儲、搜索、分析大數據。Elasticsearch是一個接近實時的搜索平臺,對大數據量的處理我們通過搭建ES集羣來完成。 1,集羣的幾個概念: 主節點  

原创 Presto Functions

1 求數組長度 cardinality(x) → bigint Returns the cardinality (size) of the array x eg: select cardinality(array[1,24,3])  

原创 Aerospike API操作Map

  Aerospike是一個高性能、可擴展、可靠性強的NoSQL解決方案,支持RAM和SSD作爲存儲介質,並專門針對SSD特殊優化,廣泛應用於實時競價等實時計算領域。官方保證99%的操作在1ms內完成,並提供集羣數據自動Rebalan