原创 Flink學習筆記——DataSet API

Flink中的DataSet任務用於實現data sets的轉換,data set通常是固定的數據源,比如可讀文件,或者本地集合等。 Ref https://ci.apache.org/projects/flink/flink-docs-

原创 Flink學習筆記——DataStream API

Flink中的DataStream任務用於實現data streams的轉換,data stream可以來自不同的數據源,比如消息隊列,socket,文件等。 Ref  https://ci.apache.org/projects/fli

原创 Flink學習筆記——配置

在Flink任務中,需要加載外置配置參數到任務中,在Flink的開發文檔中介紹了,Flink提供了一個名爲 ParameterTool 的工具來解決這個問題 Flink開發文檔: https://github.com/apache/fli

原创 Flink學習筆記——Environment

Flink有以下幾種Environment 1. 批處理Environment,ExecutionEnvironment ExecutionEnvironment env = ExecutionEnvironment.getExecuti

原创 論文閱讀——Twitter日誌系統

Twitter關於日誌系統的論文有如下2篇,分別是 《The Unified Logging Infrastructure for Data Analytics at Twitter》和《Scaling Big Data Mining In

原创 Redis學習筆記——Redis Template

Springboot可以通過redis template和redis進行交互,使用方法如下   可以參考這個系列的文章: 【快學springboot】11.整合redis實現session共享 【快學springboot】13.操作redi

原创 Hadoop學習筆記——配置文件

下載hadoop的原生版本,版本選擇2.6.0,下載地址 https://archive.apache.org/dist/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz 解壓後可以看到

原创 Hive學習筆記——SerDe

SerDe 是Serializer 和 Deserializer 的簡稱,它提供了Hive和各種數據格式交互的方式。 Amazon的Athena可以理解是Amazon對標hive的一款產品,其中對SerDe的介紹如下 https://do

原创 MapReduce中的OutputFormat

OutputFormat在hadoop源碼中是一個抽象類 public abstract class OutputFormat<K, V>,其定義了reduce任務的輸出格式 https://github.com/apache/hadoo

原创 Filebeat的http endpoint input

Filebeat的input終於支持了http,可以使用post請求向filebeat的input傳輸數據,不過現在還是處於beta版本   參考 https://www.elastic.co/guide/en/beats/filebe

原创 maven打包scala+java工程

在 scala和java混合編程的時候,需要添加一些額外的配置到pom中,才能將scala文件的class加到最終的jar中 <build> <pluginManagement> <plug

原创 使用thrift的java client調用python server

參考:Thrift 連接 Java 與 Python,附 Java 通用工廠方法 上面這篇文章的例子是使用java client調用python server中的helloString方法來打印client傳輸過去的字符串 thrift文件

原创 MapReduce中的InputFormat

InputFormat在hadoop源碼中是一個抽象類 public abstract class InputFormat<K, V> https://github.com/apache/hadoop/blob/master/hadoop

原创 s3相關

s3和cdh hdfs之間數據遷移,參考 http://bdlabs.edureka.co/static/help/topics/cdh_admin_distcp_data_cluster_migrate.html  

原创 Ubuntu16.04安裝openldap和phpldapadmin

安裝openldap,參考: https://www.alibabacloud.com/blog/how-to-install-openldap-and-phpldapadmin-on-ubuntu-16-04_594318 https: