Flink入門示例——wordCount(二)

原創

believe2017slwx

2020-02-24 03:12

說明（批處理）

讀取HDFS數據
將處理結果寫入HDFS

代碼示例

package com.test

import org.apache.flink.api.scala._
import org.apache.flink.core.fs.FileSystem.WriteMode

/**
  * 讀取hdfs數據，把處理結果結果再寫入HDFS
  */
object WordCountBatch{

  /**
    * main函數傳遞的參數
    * hdfs://artemis-02:9000/tmp/lvxw/tmp/logs  hdfs://artemis-02:9000//tmp/lvxw/tmp/out
    * @param args
    */
  def main(args: Array[String]): Unit = {
    if(args.length!=2){
      println(s"${this.getClass.getSimpleName} must be two param:inputDir outputDir" )
      System.exit(1)
    }

    // 在window環境下，以hadoop身份遠程放完HDFS
    System.setProperty("HADOOP_USER_NAME","hadoop")
    val Array(inputDir,outputDir) = args

    val env = ExecutionEnvironment.getExecutionEnvironment

    val text = env.readTextFile(inputDir)

    val result = text.flatMap ( _.split("\\s"))
      .map ((_, 1))
      .groupBy(0)
      .sum(1)

    result.setParallelism(2).writeAsCsv(outputDir,"\n",",",WriteMode.OVERWRITE)
    env.execute(this.getClass.getSimpleName)

  }
}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

MySql隱藏真實版本號

黑客通常會根據已知的漏洞來發動攻擊，而對mysql的版本號進行加固處理，可以使攻擊者無法準確瞭解數據庫系統的弱點，增加攻擊難度，防止黑客利用已知的漏洞攻擊系統。 1.查看mysql版本號的兩種方式 1.1外部探測使用telnet命令：

2024-02-24 00:04:53

hive 存儲格式對比

hive 存儲格式對比 Apache Hive支持Apache Hadoop中使用的幾種熟悉的文件格式，如TextFile，RCFile，SequenceFile，AVRO，ORC和Parquet格式。 Cloudera Impa

weixin_41734687

2020-07-08 01:20:46

hive 數據傾斜原因及解決

轉載添加鏈接描述 🚗 Index 什麼是數據傾斜數據傾斜的原因 Hadoop計算框架的特點優化的常用手段優化案例 🔍 什麼是數據傾斜我們在用hive取數的時候，有的時候只是跑一個簡單的join語句，但是卻跑了很長的時間，

weixin_41734687

2020-07-08 01:20:46

大數據 java01 hive udf函數（手機號碼脫敏）

Hive UDFHive UDF 函數1 POM 文件2.UDF 函數3 利用idea打包4 添加hive udf函數4.1 上傳jar包到集羣4.2 修改集羣hdfs文件權限4.3 註冊UDF4.4 使用UDF Hive UDF

weixin_41734687

2020-07-08 01:20:46

hive腳本的三種執行方式

1.hive控制檯執行，安裝了hive之後直接命令行輸入hive，進入控制檯。 2.hive -e "sql語句",直接輸入就會有結果，sql語句根據具體情況自己書寫 3.hive -f a.sql -hivevar table=p

2020-07-07 05:20:41

apache griffin本地安裝部署

1.下載到本地github地址：https://github.com/apache/griffin 2.解壓導入到idea,安心等待下載依賴jar包 3.修改service模塊下的三個配置文件，見圖片 4.編譯等待 5.右鍵運行 6

2020-07-07 05:20:31

創建redis集羣報錯：無法連接node

已經啓動redis，然後創建集羣時報[ERR] Sorry, can't connect to node *** 解決方法：進入client.rb配置文件，設置passwd ，再重新創建集羣即可。創建redis集羣成功

You丶小明快跑

2020-07-07 03:28:38

docker kafka

kafka概念 broke kafka集羣中包含一個或多個服務器，這種服務器被稱爲broker topic 每條發佈到Kafka集羣的消息都有一個類別，這個類別被稱爲Topic。（物理上不同Topic的消息分開存儲，邏輯上一

2020-07-04 07:18:08

大數據平臺的使用(Hadoop 生態圈、CDH)

目錄一、shell自行搭建Hadoop集羣（2節點以上） 1.1 系統準備 1.2 系統基礎配置 1.3 組件安裝與配置 1.3.1 Hadoop 1.3.2 Hive 1.3.3 Hbase 1.3.4 Spark

2020-07-04 00:49:44

Spark權威指南(中文版)----第26章分類

Spark The Definitive Guide(Spark權威指南) 中文版。本書詳細介紹了Spark2.x版本的各個模塊，目前市面上最好的Spark2.x學習書籍！！！掃碼關注公衆號:登峯大數據，閱讀中文Spark權威指南(完

大数据辅导员

2020-07-03 12:40:31

Spark權威指南(中文版)----第25章預處理和特徵工程

Spark The Definitive Guide(Spark權威指南) 中文版。本書詳細介紹了Spark2.x版本的各個模塊，目前市面上最好的Spark2.x學習書籍！！！掃碼關注公衆號:登峯大數據，閱讀中文Spark權威指南(完

大数据辅导员

2020-07-03 12:40:31

用戶畫像項目筆記3

用戶畫像標籤的設計需求簡單明瞭: 用戶標籤的數量多少(以權重來表示) 爲方便管理不同的標籤分類(以模塊來表示) 字段 gid, 模塊名,標籤名,標籤值,權重主題分類人口屬性模塊、註冊信息、終端設備、消費訂單屬性、消費商

2020-06-28 11:01:09

kettle6.1轉換內正確的併發設置姿勢

引子網上很多教程沒搞懂“改變開始複製的數量”這個意思，將數量設置在輸入端，導致不僅沒有進行多線程併發，反而變成複製讀入多分數據導致開銷增大，而且還造成了數據重複寫入，這樣還敢說性能提升，真是有鬼了。實際效果單線程效果

2020-06-26 15:07:49

sparksql運算調優紀事（二）——task併發任務數設置

版本 spark 2.1.0 前言利用spark-submit提交作業的時候，根據各種天花亂墜的教程我們會指定一大堆參數，藉以提升併發和執行性能，比如 –executor-cores 4 –num-executors 4

2020-06-26 15:07:49

sparksql運算調優紀事（三）——repartition數據傾斜處理

版本 spark2.1.0 現象繼續上一章，利用effective_time字段進行重新分區導致了任務執行的傾斜本章就要針對這個問題進行處理。問題定位首先看下repartition是如何進行重分區的。由partiti

2020-06-26 15:07:48

24小時熱門文章

最新文章

最新評論文章