Spark Scala Demo

原創

2018-09-03 12:35

SparkContext創建

val conf = new SparkConf().setAppName("AppName")
val sc = new SparkContext(conf)

讀取Hdfs文件

sc.textFile(path)

textFile的參數是一個path,這個path可以是：
1. 一個文件路徑，這時候只裝載指定的文件
2. 一個目錄路徑，這時候只裝載指定目錄下面的所有文件（不包括子目錄下面的文件）
3. 通過通配符的形式加載多個文件或者加載多個目錄下面的所有文件

4.在path前面加上file:// 表示從本地文件系統讀，在path前面加上hdfs://表示從hdfs文件系統上讀，默認是從hdfs讀取文件

保存文件

saveAsTextFile(path)

def saveAsTextFile(path: String): Unit
def saveAsTextFile(path: String, codec: Class[_ <: CompressionCodec]): Unit
saveAsTextFile用於將RDD以文本文件的格式存儲到文件系統中。
codec參數可以指定壓縮的類名。

saveAsTextFile("hdfs:///tmp/test/",classOf[com.hadoop.compression.lzo.LzopCodec])

在path前面加上file:// 表示從本地文件系統讀，在path前面加上hdfs://表示從hdfs文件系統上讀，默認是從hdfs讀取文件

Spark算子分類及功能

Value型Transformation算子

輸入分區與輸出分區一對一型

map

flatMap

mapPartitions

glom

輸入分區與輸出分區多對一型

union

cartesian

輸入分區與輸出分區多對多型

groupBy

輸出分區爲輸入分區子集型

filter

distinct

subtract

sample

takeSample

Cache型

cache

persist

Key-Value型Transformation算子

輸入分區與輸出分區一對一

mapValues

對單個RDD或兩個RDD聚集

單個RDD聚集

combineByKey

reduceByKey

partitionBy

對兩個RDD進行聚集

cogroup

連接

join

leftOutJoin和rightOutJoin

Actions算子

無輸出

foreach

HDFS

saveAsTextFile

saveAsObjectFile

Scala集合和數據類型

collect

collectAsMap

reduceByKeyLocally

lookup

count

top

reduce

fold

aggregate

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

美團面試：說說Netty的零拷貝技術？

零拷貝技術（Zero-Copy）是一個大家耳熟能詳的技術名詞了，它主要用於提升 IO（Input & Output）的傳輸性能。那麼問題來了，爲什麼零拷貝技術能提升 IO 性能？ 1.零拷貝技術和性能在傳統的 IO 操作中，當我們需要讀

Java中文社羣

2024-06-07 14:39:30

2024 Web 新特性 - 使用 Popover API 創建彈窗

Popover API 爲開發者提供了一種聲明式的方式來創建各種類型的彈窗。目前已在所有三大瀏覽器引擎中可用，並正式成爲 Baseline 2024 的一部分。一直以來，我們在實現彈出式菜單、提示框或信息卡片時，往往依賴於各種JavaSc

2024-06-07 14:33:29

開發視頻會議系統：使用GPU解碼渲染視頻

現在，使用視頻會議系統遠程協同辦公、溝通交流，已經非常普遍了。如果我們要開發自己的視頻會議系統，那麼，GPU解碼渲染技術是不可缺少的。在視頻會議系統中，經常需要同時觀看會議中多個參會人員的視頻圖像，另外，還可能需要

2024-06-07 14:33:09

C#/.NET/.NET Core優秀項目和框架2024年5月簡報

前言公衆號每月定期推廣和分享的C#/.NET/.NET Core優秀項目和框架（每週至少會推薦兩個優秀的項目和框架當然節假日除外），公衆號推文中有項目和框架的介紹、功能特點、使用方式以及部分功能截圖等（打不開或者打開GitHub很慢的同

2024-06-07 14:28:29

計劃做點事情-還是跳槽

【最近想做什麼了】和之前一樣，模板還是跳槽【爲什麼要做這個】和之前一樣，但是還是想再寫一遍現在的工作，錢少事多離家遠現在的自己，人窮有家要搞錢【要在什麼時間達到什麼樣的目標，分段計劃是怎樣的】目前可信考試是過了，太簡單了，算

2024-06-07 14:26:39

好久沒來了-20240607

【今天又是什麼日子】今天是2024年6月7日，星期五，其實也沒有很特別只不過剛好是今年高考的第一天，寫這個的時候上午的考試應該完了高考很重要，每一天都很重要年輕很好，每一天也很好且行且珍惜【上次來是什麼時候】上次來還是上個月月

2024-06-07 14:26:39

vscode win11 配置go

官網安裝後, vscode會自動識別. 右下角選go.(不能選go module) 然後安裝go插件.之後運行即可. 如果自動安裝delve啥的出錯. 就先自己配置. go env -w GOPROXY=https://goproxy.cn

張博的博客

2024-06-07 14:26:29

構建Arm版jdk1.8 docker基礎鏡像

前言 jdk1.8的docker鏡像默認是cpu架構爲x64的，在arm架構或者aarch64 上運行java應用需要自己構建一個對應cpu架構的jdk基礎鏡像過程首先去Oracle官網下載對應的Arm架構的1.8版本jdk 下載好後

2024-06-07 14:23:19

微軟RPA工具Power Automate Desktop

什麼是RPA RPA（機器人流程自動化）系統是一種應用程序，它通過模仿用戶在電腦上的操作方法, 實現自動化操作流程, 協助人在計算機、手機等計算設備中完成重複的工作流任務。 Power Automate Desktop 2021年3月2日

2024-06-07 14:20:58

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

2024-06-07 14:20:58

在線課䟫

https://www.edx.org/edxchina https://www.coursera.org/ https://www.xuetangx.com/search?query=%E9%83%91%E6%AF%93%E7%

2024-06-07 14:20:58

高分通過RPA高級認證

2024-06-07 14:20:58

k8s網絡問題以及容器跨宿主機通信原理 k8s組件和網絡插件掛掉，演示已有的pod是否正常運行 k8s組件和網絡插件掛掉，演示已有的pod是否正常運行

【0】資源配置文件 [root@mcwk8s03 mcwtest]# ls mcwdeploy.yaml [root@mcwk8s03 mcwtest]# cat mcwdeploy.yaml apiVersion: apps/v1 k

2024-06-07 14:19:58

dubbo~全局異常攔截器的使用與設計缺陷

異常攔截器ExceptionMapper 在JAX-RS（Java API for RESTful Web Services）中，ExceptionMapper接口用於將Java異常映射到HTTP響應。通過實現ExceptionMapper

2024-06-07 14:18:38

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

從最初的CS架構，如MFC Java Swing 等，到BS架構，JSP PHP，再到前端後端分離，前端從jquery GWT-Ext 到 Handlebars ，再到angularJS/Vue/React，反觀java 世界，學好 S

2024-06-07 14:14:28

24小時熱門文章

最新文章

最新評論文章