Spark鍵值對操作（python實驗版）

原創

2018-08-23 06:21

說明：此處介紹的是pair RDD特有的操作，前面介紹的基礎RDD操作，也適用pair RDD。

一、創建pair RDD

1、將普通RDD轉換成pair RDD時，使用map()實現。

pairs = lines.map(lambda x: (x.split(" ")[0], x)) #在Python中使用第一個單詞作爲鍵創建出一個pair RDD，如圖：

二、Pair RDD的轉化操作

（以鍵值對集合{(1, 2), (3, 4), (3, 6)}爲例）

1、reduceByKey(func) ：合併具有相同鍵的值。

2、groupByKey() ：對具有相同鍵的值進行分組，常用於單個數據分組，多個數據按鍵分組，參考下面函數cogroup( )

上圖最後結果：[(1,[2]),(3,[4,6])]

上面collect()是一個ResultIterable結果集迭代對象，我使用了list()函數轉換爲列表，然後打印。

3、combineByKey( createCombiner,mergeValue,mergeCombiners,partitioner) ：使用不同的返回類型合併具有相同鍵的值。

4、mapValues(func) ：對pairRDD中的每個值應用一個函數而不改變鍵。

5、flatMapValues(func) ：對pair RDD 中的每個值應用一個返回迭代器的函數，然後對返回的每個元素都生成一個對應原鍵的鍵值對記錄。通常用於符號化。

6、keys() ：返回一個僅包含鍵的RDD

7、values() ：返回一個僅包含值的RDD

8、sortByKey() ：返回一個根據鍵排序的RDD

該函數常用於數據排序，接收一個叫作ascending 的參數，表示我們是否想要讓結果按升序排序（默認值爲True）。還有一個參數numPartitions，該參數決定排序後的RDD的分區個數，默認排序後的分區個數和排序之前的個數相等，有時我們也可能想按完全不同的排序依據進行排序。要支持這種情況，我們可以提供自定義的比較函數。

升序：

降序：

自定義：

#以字符串順序對整數進行自定義排序

以上是針對一個鍵值對集合，下面是針對兩個pair RDD的轉化操作（rdd = {(1, 2), (3, 4), (3, 6)} other = {(3, 9)}）

1、subtractByKey ：刪掉RDD 中鍵與other RDD 中的鍵相同的元素

2、join ：對兩個RDD進行內連接

3、rightOuterJoin ：對兩個RDD 進行連接操作，確保第一個RDD的鍵必須存在（右外連接）

4、leftOuterJoin ：對兩個RDD進行連接操作，確保第二個RDD 的鍵必須存在（左外連接）

5、cogroup()：將兩個RDD中擁有相同鍵的數據分組到一起

上面結果：[ ( 1 , ( [2] , [ ] ) ) , (3 , ( [4 , 6] , [9] ) ) ]

注意：上面2、3、4、5是連接操作，將有鍵的數據與另一組有鍵的數據一起使用是對鍵值對數據執行的最有用的操作之一。連

接數據可能是pair RDD最常用的操作之一。連接方式多種多樣：右外連接、左外連接、交叉連接以及內連接。

三、Pair RDD的行動操作（以鍵值對集合{(1, 2), (3, 4), (3, 6)}爲例）

1、countByKey() ：對每個鍵對應的元素分別計數

因爲countByKey()已經是行動操作，所以測試時，不能用c.collect()了，直接print c則可。

2、collectAsMap() ：將結果以映射表的形式返回，以便查詢

注意：上面第一個操作結果中只有2對值，因爲collectAsMap()使用時，如果RDD中同一個Key中存在多個Value，那麼後面的Value將會把前面的Value覆蓋，最終得到的結果就是Key唯一，而且對應一個Value。

3、lookup(key) ：返回給定鍵對應的所有值

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

hbase環境搭建及使用

conf/hbase-env.sh export JAVA_HOME=/data/home/software/jdk1.8.0_202 export HBASE_MANAGES_ZK=false hbase-site.xml <con

fanghailiang2016

2020-07-08 10:12:20

kafka安裝與簡介

安裝Kafka 1.1 下載解壓下載地址：http://kafka.apache.org/downloads，如0.10.1.0版本的Kafka下載 wget http://apache.fayea.com/kafka/

2020-07-08 09:03:40

elasticsearch中IK分詞處理

嗯，弄完ANSJ分詞，今天上IK分詞。這裏elasticsearch是2.3.1，對應的IK爲1.9.1。 1.到https://github.com/medcl/elasticsearch-analysis-ik/releases?a

2020-07-07 11:21:08

elasticsearch安裝及使用示例

相關環境：centos6.6、jdk1.8_0_40、ES2.4.3 注意：ES的執行不能使用root用戶，需先新建一個用戶並授權 1.將下載好的elasticsearch-2.4.3.tar.gz上傳到Linux下 2.解壓：tar -

2020-07-07 11:21:06

ubuntu環境下搭建Hadoop集羣中必須需要注意的問題

博主安裝的hadoop是3.1.3這裏是按照廈門大學那個博客安裝的，在安裝與啓動過程中，費了不少事，特此記錄一下問題。安裝的連接：安裝環境：http://dblab.xmu.edu.cn/blog/install-hadoop

起个名字都这么男

2020-07-01 22:14:37

Hadoop+Hive+Sqoop 離線日誌分析公會女生打招呼數據

需求背景：我們將女生主動和男生建立聯繫定義爲女生打招呼，app中女生打招呼的方式有兩種：主動發起文字聊天和主動發起音視頻聊天。這些數據的採集通過在應用程序中增加埋點，最終成爲日誌文件保存在服務器上。日誌內容如下：文字聊天，日誌文件

fanghailiang2016

2020-06-30 04:13:31

利用logstash截取日誌中的數據並推送至Kafka

這裏寫自定義目錄標題前言logstash 安裝kafka 安裝關閉防火牆啓動zk與kafka配置logstash啓動logstash測試前言接到任務是，需要從web日誌中取出設備的操作信息，並推送kafka。領導要求使用log

2020-06-27 14:40:11

hive常用知識點彙總

1. desc extended/formated tablename 描述表結構，如： desc extended im; desc formatted im; 2. bin/hive -e -f -e 不進入hive命令行執行sql

fanghailiang2016

2020-06-25 00:35:59

Hadoop學習（三）：Zookeeper實現Hadoop集羣高可用

Hadoop集羣高可用 Hadoop 高可用 (High Availability) 分爲 HDFS 高可用和 YARN 高可用，兩者的實現基本類似，但 HDFS NameNode 對數據存儲及其一致性的要求比 YARN Reso

有理想的番茄

2020-06-21 16:56:13

Hadoop學習（一）：分佈式文件系統HDFS

HDFS （Hadoop Distributed File System）是 Hadoop 下的分佈式文件系統，具有高容錯、高吞吐量等特性，可以部署在低成本的硬件上。 HDFS特性超大文件適合存放MB-PB級別的數據一次寫

有理想的番茄

2020-06-21 16:56:13

Hadoop學習（四）：資源調度管理系統YARN

YARN 簡介 YARN是Hadoop2.0引進的，前身是MapReduce本身的資源調度框架，Hadoop2.0後將MapReduce計算框架和YARN資源調度框架做了分離。 YARN 核心組件 Resources Mana

有理想的番茄

2020-06-21 16:56:13

hadoop jar class not found

比如你寫一個helloworld程序，結果hadoop jar xxx.jar放到集羣上執行一哈哈，出現classnotfound了，而且志向你自己的helloworld.class，打開jar包瞅一眼，這個hellworld.class

2020-06-20 21:03:16

storm分區，並行度筆記- Introducing parallelism in Storm

本文來自Book- 《Storm Blueprints.Patterns》：，個人覺得講的非常好，就在這做了一個筆記裏面的英語很簡單，個人感覺讀起來應該不是問題，也可以參考google在線翻譯，或者參考這本書的中文翻譯-《St

2020-06-16 03:31:11

java WordCount MapReduce實現源碼使用snappy壓縮

maven做如下配置 groupId:org.apache.hadoop artifactId:hadoop-client version:${hadoop.version} 類申明，繼承configured類，並實現Tool接口 pu

fanghailiang2016

2020-06-16 00:12:06

hive 3.1.2 環境搭建(使用mysql)以及示例運行

hive目前最新版本爲3.1.2，下載地址：https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-3.1.2/apache-hive-3.1.2-bin.tar.gz hadoop安裝

fanghailiang2016

2020-06-16 00:12:06

24小時熱門文章

最新文章

最新評論文章