大數據 - 第十一課 : idea實現wordcount程序

原創

2020-06-13 05:35

（關鍵概念）RDD操作，惰性求值/

從本地文件系統中加載數據創建RDD

讀取文件：val lines = sc.textFile(“file:///home/cmj/student00/test/wordcount.txt”)
分詞：val aftermap = lines.map(x=>x.split(" "))
res1: Array[String] = Array(hello world yep, hello world, hello)
將分詞結果轉換爲鍵值對，例（hello，3）val mkKV=aftermap.map((_,1))

聚合：val afterreduce=mkKV.reduceByKey((x,y)=>(x+y))

保存：afterreduce.saveAsTextFile(“file:///home/cmj/student00/test/wordout1”)

寫在一行裏面：sc.textFile("file:///home/cmj/student00/test/wordcount.txt").flatMap(x=>x.split(" ")).map((_,1)).reduceByKey((x,y)=>(x+y)).saveAsTextFile("file:///home/cmj/student00/test/wordout2")

全路徑打開idea

新建project

新建包

新建類

新建Object

實驗主程序

添加java包

編輯Configurations，添加信息：

運行退出碼是0說明運行成功

3. RDD分區
RDD是彈性分佈式數據集，通常RDD很大，會被分成很多個分區，分別保存在不同的節點上
分區的作用（1）增加並行度（2）減少通信開銷
RDD分區的一個原則是使得分區的個數儘量等於集羣中的CPU核心（core）數目
對於不同的Spark部署模式而言（本地模式、Standalone模式、YARN模式、Mesos模式），都可以通過設置spark.default.parallelism這個參數的值，來配置默認的分區數目
創建RDD時手動指定分區個數
在調用textFile()和parallelize()方法的時候手動指定分區個數即可，語法格式如下：
sc.textFile(path, partitionNum)
其中，path參數用於指定要加載的文件的地址，partitionNum參數用於指定分區個數。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

從零開始學架構V2-初識架構設計-1

一、架構設計的主要目的爲了解決軟件系統複雜度帶來的問題二、複雜性來源軟件的架構設計是一個非常複雜的過程；基於業務&技術現狀、公司成本、團隊規模、團隊技術能力、近三年業務發展規模預測、技術發展趨勢等條件篩選出合適的技術、編寫多種架構設計

2024-04-25 23:56:25

利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署環境中構建無服務器數據倉庫

引言在數據驅動的世界中，企業正在尋求可靠且高性能的解決方案來管理其不斷增長的數據需求。本系列博客從一個重視數據安全和合規性的 B2C 金融科技客戶的角度來討論雲上雲下混合部署的情況下如何利用亞馬遜雲科技雲原生服務、開源社區產品以及第三方

2024-04-25 21:18:23

2024 開源數據工程生態系統全景圖

點擊藍字關注我們作者 | ALIREZA SADEGHI翻譯 | Debra Chen 01 簡介

2024-04-23 21:30:36

告別手動調度，海豚調度器 3.1.x 集羣部署讓你輕鬆管理多機！

轉載自第一片心意 1 前言由於海豚調度器官網的集羣部署文檔寫的較亂，安裝過程中需要跳轉到很多地方進行操作，所以自己總結了一篇可以直接跟着從頭到尾進行操作的文檔，以方便後續的部署、升級、新增節點、減少節點的相關操作。 2. 提前準備 2.

2024-04-23 21:18:20

入職3年-我如何做一名AI產品經理

引言從2021年校招加入京東開始，我一直從事AI產品經理的工作，有幸見證了AI行業的熱情從一臺臺服務器燒到了全世界各個角落，也見證了京東AI中臺團隊的影響力如何一步步的擴大。從21年的迷茫到24年的堅定，很慶幸我正走在適合自己的道路上，

2024-04-22 11:16:31

Hive引擎底層初探

1、什麼是Hive Hive是一個基於Hadoop的數據倉庫工具,用於處理和分析大規模結構化數據。Hive提供了類似SQL的查詢語言(HiveQL)，使得熟悉SQL的用戶能夠查詢數據。Hive將SQL查詢轉換爲MapReduce任務，以在

2024-04-17 11:18:21

用海豚調度器定時調度從Kafka到HDFS的kettle任務腳本

在實際項目中，從Kafka到HDFS的數據是每天自動生成一個文件，按日期區分。而且Kafka在不斷生產數據，因此看看kettle是不是需要時刻運行？能不能按照每日自動生成數據文件？爲了測試實際項目中的海豚定時調度從Kafka到HDFS的K

2024-04-15 21:18:44

解密數倉的SQL ON ANYWHERE技術

本文分享自華爲雲社區《GaussDB DWS的SQL ON ANYWHERE技術解密》，作者：tooooooooooomy。 1. 前言適用版本：【8.1.1（及以上）】查詢分析是大數據要解決的核心問題之一，雖然大數據相關的處理引

2024-04-03 10:32:41

Apache DolphinScheduler-3.2.0集羣部署教程

集羣部署方案(2 Master + 3 Worker) Apache DolphinScheduler官網：https://dolphinscheduler.apache.org/zh-cn Apache DolphinScheduler

2024-03-11 21:25:56

Apache Linkis 1.3.0 適配華爲MRS+Scriptis 實戰分享

一、概述團隊有需求要在頁面上同時使用sql和python語法對數據進行分析，在調研過程中發現linkis可以滿足需要，遂將其引入內網，由於使用的是華爲MRS，與開源的軟件有所不同，又進行了二次開發適配，本文將分享使用經驗，希望對有需

2024-02-23 21:45:28

使用Hadoop和Nutch構建音頻爬蟲：實現數據收集與分析

1. 背景介紹隨着音頻內容在互聯網上的廣泛應用，如音樂、播客、語音識別等，越來越多的企業和研究機構希望能夠獲取和分析這些數據，以發現有價值的信息和洞察。而傳統的手動採集方式效率低下，無法滿足大規模數據處理的需求，因此需要利用自動化爬

2024-02-22 01:13:43

AI大模型時代：企業如何構建數據智能基礎設施

在AI大模型時代，數據已經成爲企業的重要資產。爲了更好地利用數據，企業需要構建一套高效、穩定、可擴展的數據智能基礎設施。本文將介紹如何構建這樣的基礎設施，並探討其中的關鍵技術和實踐經驗。一、數據採集與整合數據是構建數據智能基礎設施的基礎

2024-02-21 12:33:41

重新啓動Hadoop命令

重新啓動Hadoop命令整體流程爲了重新啓動Hadoop命令，我們需要按照以下步驟進行操作：步驟描述停止Hadoop集羣中的所有服務清除Hadoop臨時文件和數據啓動Hadoop集羣中的所有服務驗證Had

2023-10-01 11:48:17

Iceberg入門介紹

1、Iceberg簡介本質：一種數據組織格式 1.1、應用場景 ①面向大表：單表包含數十個PB的數據 ②分佈式引擎非必要：不需要分佈式SQL引擎來讀取或查找文件 ③高級過濾：使用表元數據，使用分區和列級統計信息修建數據文件 1.2、集成方

2023-08-02 00:02:27

Hive存儲過程實現-hpsql

1. 什麼是hpsql 目前版本的hive中沒有提供類似存儲過程的功能，使用Hive做數據開發時候，一般是將一段一段的HQL語句封裝在Shell或者其他腳本中，然後以命令行的方式調用，完成一個業務或者一張報表的統計分析。好消息是，

2023-08-01 00:03:02

24小時熱門文章

最新文章

最新評論文章