原创 本地多級文件 合併上傳到hdfs(遞歸上傳)

package com.hdfs; import org.apache.hadoop.fs.FSDataInputStream; import or

原创 本地多級文件 原樣上傳到hdfs

package com.hdfs; import org.apache.hadoop.fs.FSDataInputStream; import or

原创 Cannot detect ES version - typically this happens if the network/Elasticsearch cluster is not acces

hive 給es寫數據,建表的時候報下面的錯誤 FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. org.elastic

原创 Spark Streaming 將數據保存在msyql中

Spark Streaming持久化設計模式 DStreams輸出操作 print:打印driver結點上每個Dstream中的前10個batch元素,常用於開發和調試saveAsTextFiles(prefix, [suffix]

原创 elasticsearch 之Aggregation聚合

我想做一個按某列字段進行分組統計個數,上網查詢推介用Facet,但是在導包的時候,死活找不到,查詢資料可知。 在es的1.0版本有Facet這個,2.0只有的版本換成了aggregation。所用我們現在用aggregation現實這個功

原创 通過maven-shade-plugin 解決Elasticsearch與spark的jar包衝突問題

最近由於公司的spark版本升級使用spark2.1.1版本,個人感覺spark2.1.1確實好用些。 我寫的代碼上需要連接elasticsearc

原创 scala讀取HDFS上的文件,每次讀取一行

用scala讀取一個只有字符的文件,該文件是已經清洗完的數據,有規律,一行是一條數據。 現在的需求是一次讀取文件中的一部分,依次讀取完。 之前用字節流偶爾出現亂碼,最後改成一次讀取一行了。import java.io.{Buffere

原创 將小寫金額轉成大寫金額

/**  *   * @described 將小寫金額轉成大寫金額  * @author   * @date 2016年7月6日 下午8:50:34  * @see com.util.MoneyTool  */ public class

原创 Spark Streaming如何使用checkpoint容錯

最近在做一個實時流計算的項目,採用的是Spark Steaming,主要是對接Spark方便,一個 Streaming Application 往往需要7*24不間斷的跑,所以需要有抵禦意外的能力(比如機器或者系統掛掉,JVM crash

原创 Spark Streaming 實時監控一個HDFS的文件夾,當新的文件進來(名字不能重複),將對新文件進行處理。

import org.apache.log4j.{Level, Logger} import org.apache.spark.SparkConf import org.apache.spark.streaming.dstream.DSt

原创 Spark-Streaming及其工作原理

1.Spark-Streaming及其工作原理 Spark Streaming是Spark Core API的一種擴展,它可以用於進行大規模、高吞吐量、容錯的實時數據流的處理。它支持從很多種數據源中讀取數據,比如Kafka、Flume、T

原创 Spark計算結果繼續追加在HDFS目錄下,不會覆蓋之前的文件

由於工作需要,我用scala實現在已將有的目錄下面繼續寫入文件。需要重寫MultipleTextOutputFormat這個類,具體的請看下面代碼,需要交流可以聯繫我 import java.text.SimpleDateFormat

原创 Spark Streaming和Flume的結合使用

首先在IDEA裏面導入依賴包 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-flume_2.10</artifactId> <ve

原创 groupByKey 和reduceByKey 的區別

一、首先他們都是要經過shuffle的,groupByKey在方法shuffle之間不會合並原樣進行shuffle,。reduceByKey進行shuffle之前會先做合併,這樣就減少了shuffle的io傳送,所以效率高一點。案例:ob

原创 linux配置java環境變量(詳細)

一. 解壓安裝jdk  在shell終端下進入jdk-6u14-linux-i586.bin文件所在目錄,  執行命令 ./jdk-6u14-linux-i586.bin 這時會出現一段協議,連繼敲回車,當詢問是否同意的時候,輸入yes