PySpark Rdd操作

原創

2020-06-18 22:57

from pyspark import SparkContext, SparkConf


conf = SparkConf().setAppName("rdd_trans")
sc = SparkContext(conf=conf)
print(sc.version)

# 創建
rdd = sc.parallelize([2, 3, 4, 5, 6, 6, 6, 6, 6])
rdd1 = rdd.map(lambda x: x + 1)
print(rdd1.collect())
# [3, 4, 5, 6, 7]

# Trans
#filter
rdd2 = rdd.filter(lambda x: x % 2 == 0)
print(rdd2.collect())
# #  [2, 4, 6]

#flatMap
rdd3 = rdd.flatMap(lambda x: (x, x % 2 == 0))
print(rdd3.collect())
# [2, True, 3, False, 4, True, 5, False, 6, True, 6, True, 6, True, 6, True, 6, True]

# distinct
rdd4 = rdd.distinct().collect()
print(rdd4)
# [4, 5, 2, 6, 3]

# sample
# Fasle 不放回 0.6抽樣比例，seed 隨機種子
rdd5 = rdd.sample(False,0.6,666).collect()
print(rdd5)
# [4, 5, 2, 6, 3]

# leftOuterJoin  rightOuterJoin
rdd1 = sc.parallelize([("a", 1), ("b", 10), ("c", 3)])
rdd2 = sc.parallelize([("a", 2), ("c", 4), ("b", 5), ("d", 4)])


rdd3 = rdd1.leftOuterJoin(rdd2)
print(rdd3.collect())
# [('a', (1, 2)), ('b', (10, 5)), ('c', (3, 4))]


rdd4 = rdd2.leftOuterJoin(rdd1).collect()
print(rdd4)
# [('a', (2, 1)), ('c', (4, 3)), ('b', (5, 10)), ('d', (4, None))]


rdd5 = rdd1.rightOuterJoin(rdd2)
print(rdd5.collect())
# [('a', (1, 2)), ('b', (10, 5)), ('c', (3, 4)), ('d', (None, 4))]



# Actions
# 2 行動操作，執行完轉換操作，即可執行行動操作
print("rdd1.count")
print(rdd1.count())
print("rdd1.take2")
print(rdd1.take(2))
print("rdd1.first")
print(rdd1.first())
print("rdd1.top")
print(rdd1.top(3))
print("takeSample 隨機取兩個數")
print(rdd1.takeSample(False, 2, 666))
rdd1.saveAsTextFile("/path/1.txt")


print("x+y is")
print(rdd1.reduce(lambda x, y: x + y))
# ('a', 1, 'b', 10, 'c', 3)


print("foreach")


print(rdd1.foreach(print))

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

神策數據：詳解保險 OMO 一體化的關鍵步驟

近年來，保險行業數字化發展相關政策陸續發佈，推動着保險行業基於業務與科技發展的實際需求，加速數字化轉型，將數字保險高質量發展持續提升至新的高度。本文將圍繞保險數字化，詳細解讀險企實現 OMO 一體化的關鍵步驟。一、洞察：雙利見底，

2024-05-11 22:04:29

數倉安全：數據脫敏技術深度解析

本文分享自華爲雲社區《GaussDB(DWS)安全管理之數據脫敏原理與使用方法介紹》，作者： VV一笑。 1. 前言適用版本：8.2.0及以上版本 GaussDB (DWS)產品數據脫敏功能，是數據庫產品內化和夯實數據安全能力的重要

2024-05-10 23:30:54

以全要素數據資產連接爲核心的數據治理與運營

“數據中臺新範式”雲端峯會，深入解析湖倉一體、批流一體、治理與運營“三位一體”的數據中臺新範式特徵，普元信息大數據首席顧問李書超在峯會發表演講《以全要素數據資產連接爲核心的數據治理與運營》。以下爲演講提綱及完整視頻，添加元寶微信，還可

2024-05-09 13:12:55

【開啓報名】同學看過來，Apache DolphinScheduler開源之夏課題任務正式發佈！

如果你還擁有着一張有效的“學生證”，在這個充滿機遇的夏天，我們誠邀你加入一個充滿挑戰和機遇的開源冒險——開源之夏。這不僅是一個簡單的編程開發活動，假如你成功參加並結項之後，還能獲得中科院軟件所官方頒發的證書和獎金，簡直太有趣啦！ Apa

2024-05-09 11:55:30

愛奇藝數據湖實戰 - 實時湖倉一體化

01 概述數據是洞察用戶、市場、運營決策的基礎資料，在愛奇藝被廣泛應用在推薦、廣告、用戶增長、營銷等場景中。愛奇藝大數據業務之前採用 Lambda 架構，滿足海量

愛奇藝技術產品團隊

2024-05-09 01:18:23

企業IT架構治理之道| 京東雲技術團隊

一、什麼是架構和治理 1.1 架構的起源開篇還是要說說大家理解的架構，何爲架構，架構跟我們的工作和生活有什麼關係。英文Architecture本源來自於拉丁語，最早起源於建築領域，建築是文明社會一個重要的標誌，同時也是人類社會最早形

2024-05-07 23:17:13

雲效 Pipeline as Code 來了！這些場景，用好它效率翻倍！

從可視化編排到支持 YAML 編排雲效流水線 Flow 是開箱即用的企業級持續集成和持續交付工具，支持豐富的代碼源、構建、自動化測試工具、多種部署類型和部署方式，與阿里雲深度集成，還提供多種企業級特性，助力企業高效完成從開發到上線 CIC

2024-05-11 21:15:05

通義靈碼企業版正式發佈，滿足企業私域知識檢索、數據合規、統一管理等需求

5 月 9 日阿里雲 AI 峯會，阿里雲智能集團首席技術官周靖人宣佈，通義靈碼企業版正式發佈，滿足企業用戶的定製化需求，幫助企業提升研發效率。通義靈碼是國內用戶規模第一的智能編碼助手，基於 SOTA 水準的通義千問代碼模型 Code-Qw

2024-05-11 21:15:01

用Python寫的udp聊天器

說明在一個電腦中編寫1個程序，有2個功能 1.獲取鍵盤數據，並將其發送給對方 2.接收數據並顯示並且功能數據進行選擇以上的2個功能調用要求實現上述程序參考代碼 import socket def s

2024-05-11 12:30:57

Linux系統中的文件和目錄權限

一、文件屬性下文中，“文件”一詞默認代指廣義的數據類型，跟“目錄”等詞對比使用時，則專指普通文件（File）這一特定數據類型。 Linux系統中，我們可以使用命令“ls -al”來查看當前目錄

2024-05-11 01:45:47

手把手系列！使用 Zilliz Cloud 和 AWS Bedrock 搭建 RAG 應用

檢索增強生成（Retrieval Augemented Generation, RAG）是一種 AI 框架，它通過結合信息檢索和自然語言處理（NLP）能力從而增強文本生成。具體而言，RAG 系統中的語言模型通過一種檢索機制查詢和搜索知識庫

2024-05-10 21:29:43

詳解Python 中可視化數據分析工作流程

本文分享自華爲雲社區《Python 可視化數據分析從數據獲取到洞見發現的全面指南》，作者：檸檬味擁抱。在數據科學和分析的領域中，可視化是一種強大的工具，能夠幫助我們理解數據、發現模式，並得出洞見。Python 提供了豐富的庫和工具，使得可

2024-05-10 11:30:09

Apache DolphinScheduler 4月簡報：社區發展與技術革新速遞

各位熱愛 DolphinScheduler 的小夥伴們，4 月份的 DolphinScheduler 社區月報更新啦！這裏將記錄 DolphinScheduler 社區每月的重要更新，歡迎關注！月度 Merge 之星感謝以下小夥伴 4

2024-05-08 21:19:32

華爲雲開發者桌面全新發布CodeArts IDE for Python，極致優雅雲原生開發體驗

本文分享自華爲雲社區《華爲雲發佈CodeArts IDE for Python，極致優雅雲原生開發體驗》，作者：華爲雲頭條。近日，華爲雲正式發佈CodeArts IDE for Python，這是一款內置華爲自主創新的Python語

2024-05-08 10:34:25

Python 爬蟲：Spring Boot 反爬蟲的成功案例

前言在當今數字化時代，網絡數據成爲了信息獲取和分析的重要來源之一。然而，隨着網絡數據的廣泛應用，爬蟲技術也逐漸成爲了互聯網行業的熱門話題。爬蟲技術的應用不僅可以幫助企業獲取有價值的信息，還可以用於數據分析、市場研究等領域。然而，隨着爬

2024-05-07 23:26:04

24小時熱門文章

Spring Cloud 部署時如何使用 Kubernetes 作爲註冊中心和配置中心

最新文章

最新評論文章