spark -- RDD-API （創建RDD RDD的方法/算子分類 Transformation轉換算子 Action動作算子統計操作）

創建RDD

1.由外部存儲系統的數據集創建，包括本地的文件系統，還有所有Hadoop支持的數據集，比如HDFS、Cassandra、HBase等

val rdd1 = sc.textFile("hdfs://node01:8020/wordcount/input/words.txt")

2.通過已有的RDD經過算子轉換生成新的RDD

val rdd2=rdd1.flatMap(_.split(" "))

3.由一個已經存在的Scala集合創建

val rdd3 = sc.parallelize(Array(1,2,3,4,5,6,7,8))

或者

val rdd4 = sc.makeRDD(List(1,2,3,4,5,6,7,8))

makeRDD方法底層調用了parallelize方法

RDD的方法/算子分類

●分類

RDD的算子分爲兩類:

1.Transformation轉換操作:返回一個新的RDD

2.Action動作操作:返回值不是RDD(無返回值或返回其他的)

●注意:

RDD不實際存儲真正要計算的數據，而是記錄了數據的位置在哪裏，數據的轉換關係(調用了什麼方法，傳入什麼函數)

RDD中的所有轉換都是惰性求值/延遲執行的，也就是說並不會直接計算。只有當發生一個要求返回結果給Driver的Action動作時，這些轉換纔會真正運行。

之所以使用惰性求值/延遲執行，是因爲這樣可以在Action時對RDD操作形成DAG有向無環圖進行Stage的劃分和並行優化，這種設計讓Spark更加有效率地運行。

Transformation轉換算子

轉換	含義
map(func)	返回一個新的RDD，該RDD由每一個輸入元素經過func函數轉換後組成
filter(func)	返回一個新的RDD，該RDD由經過func函數計算後返回值爲true的輸入元素組成
flatMap(func)	類似於map，但是每一個輸入元素可以被映射爲0或多個輸出元素(所以func應該返回一個序列，而不是單一元素)
mapPartitions(func)	類似於map，但獨立地在RDD的每一個分片上運行，因此在類型爲T的RDD上運行時，func的函數類型必須是Iterator[T] => Iterator[U]
mapPartitionsWithIndex(func)	類似於mapPartitions，但func帶有一個整數參數表示分片的索引值，因此在類型爲T的RDD上運行時，func的函數類型必須是 (Int, Interator[T]) => Iterator[U]
sample(withReplacement, fraction, seed)	根據fraction指定的比例對數據進行採樣，可以選擇是否使用隨機數進行替換，seed用於指定隨機數生成器種子
union(otherDataset)	對源RDD和參數RDD求並集後返回一個新的RDD
intersection(otherDataset)	對源RDD和參數RDD求交集後返回一個新的RDD
distinct([numTasks]))	對源RDD進行去重後返回一個新的RDD
groupByKey([numTasks])	在一個(K,V)的RDD上調用，返回一個(K, Iterator[V])的RDD
reduceByKey(func, [numTasks])	在一個(K,V)的RDD上調用，返回一個(K,V)的RDD，使用指定的reduce函數，將相同key的值聚合到一起，與groupByKey類似，reduce任務的個數可以通過第二個可選的參數來設置
aggregateByKey(zeroValue)(seqOp, combOp, [numTasks])
sortByKey([ascending], [numTasks])	在一個(K,V)的RDD上調用，K必須實現Ordered接口，返回一個按照key進行排序的(K,V)的RDD
sortBy(func,[ascending], [numTasks])	與sortByKey類似，但是更靈活
join(otherDataset, [numTasks])	在類型爲(K,V)和(K,W)的RDD上調用，返回一個相同key對應的所有元素對在一起的(K,(V,W))的RDD
cogroup(otherDataset, [numTasks])	在類型爲(K,V)和(K,W)的RDD上調用，返回一個(K,(Iterable<V>,Iterable<W>))類型的RDD
cartesian(otherDataset)	笛卡爾積
pipe(command, [envVars])	對rdd進行管道操作
coalesce(numPartitions)	減少 RDD 的分區數到指定值。在過濾大量數據之後，可以執行此操作
repartition(numPartitions)	重新給 RDD 分區

Action動作算子

動作	含義
reduce(func)	通過func函數聚集RDD中的所有元素，這個功能必須是可交換且可並聯的
collect()	在驅動程序中，以數組的形式返回數據集的所有元素
count()	返回RDD的元素個數
first()	返回RDD的第一個元素(類似於take(1))
take(n)	返回一個由數據集的前n個元素組成的數組
takeSample(withReplacement,num, [seed])	返回一個數組，該數組由從數據集中隨機採樣的num個元素組成，可以選擇是否用隨機數替換不足的部分，seed用於指定隨機數生成器種子
takeOrdered(n, [ordering])	返回自然順序或者自定義順序的前 n 個元素
saveAsTextFile(path)	將數據集的元素以textfile的形式保存到HDFS文件系統或者其他支持的文件系統，對於每個元素，Spark將會調用toString方法，將它裝換爲文件中的文本
saveAsSequenceFile(path)	將數據集中的元素以Hadoop sequencefile的格式保存到指定的目錄下，可以使HDFS或者其他Hadoop支持的文件系統。
saveAsObjectFile(path)	將數據集的元素，以 Java 序列化的方式保存到指定的目錄下
countByKey()	針對(K,V)類型的RDD，返回一個(K,Int)的map，表示每一個key對應的元素個數。
foreach(func)	在數據集的每一個元素上，運行函數func進行更新。
foreachPartition(func)	在數據集的每一個分區上，運行函數func

統計操作

算子	含義
count	個數
mean	均值
sum	求和
max	最大值
min	最小值
variance	方差
sampleVariance	從採樣中計算方差
stdev	標準差:衡量數據的離散程度
sampleStdev	採樣的標準差
stats	查看統計結果

spark -- RDD-API （創建RDD RDD的方法/算子分類 Transformation轉換算子 Action動作算子統計操作）

創建RDD

RDD的方法/算子分類

Transformation轉換算子

Action動作算子

統計操作

AI 畫圖真刺激，手把手教你如何用 ComfyUI 來畫出刺激的圖

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

公衆號5月C#/.NET熱文一覽

git 下載大陸鏡像地址

機械學習 --客戶價值模型 RFM

機器學習 --基礎入門介紹他來啦！！！

Oozie --oozie的使用

用戶畫像 --運用sqoop導入數據 HBase ImportTSV HBase Bulkload MapReduce導入

用戶畫像 --前提介紹

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

spark -- RDD-API （創建RDD RDD的方法/算子分類 Transformation轉換算子 Action動作算子 統計操作 ）

創建RDD

RDD的方法/算子分類

Transformation轉換算子

Action動作算子

統計操作

spark -- RDD-API （創建RDD RDD的方法/算子分類 Transformation轉換算子 Action動作算子統計操作）