pyspark必知必會（持續更新中）

原創

2020-04-19 01:21

RDD 和DF

聯繫

都是彈性分佈式數據集，輕量集
惰性機制，延遲計算
根據內存情況，自動緩存，加快計算速度
都有partition概念
衆多相同的算子

區別
DF引入了schema和off-heap
schema RDD每一行的數據結構都是一樣的
off-heap 意味着JVM堆以外的內存

RDD
優點：

強大，內置很多函數操作，group，map，filter等，方便處理結構化或非結構化數據
面向對象編程，直接存儲的java對象，類型轉化也安全

缺點：
由於它基本和hadoop一樣萬能的，因此沒有針對特殊場景的優化，比如對於結構化數據處理相對於sql來比非常麻煩
默認採用的是java序列號方式，序列化結果比較大，而且數據存儲在java堆內存中，導致gc比較頻繁。

DF
優點：

結構化數據處理非常方便，支持Avro, CSV, elastic search, and Cassandra等kv數據，也支持HIVE tables, MySQL等傳統數據表
有針對性的優化，由於數據結構元信息spark已經保存，序列化時不需要帶上元信息，大大的減少了序列化大小，而且數據保存在堆外內存中，減少了gc次數。
hive兼容，支持hql，udf等

缺點：
編譯時不能類型轉化安全檢查，運行時才能確定是否有問題
對於對象支持不友好，rdd內部數據直接以java對象存儲，dataframe內存存儲的是row對象而不能是自定義對象

reducebykey 和combinebykey

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

pyspark Window 窗口函數

參考：Introducing Window Functions in Spark SQL 窗口函數 At its core, a window function calculates a return value for ever

2020-07-07 22:37:37

spark讀取elasticsearch nested array

anton spark讀elasticsearch array anton elasticsearch數組在Elasticsearch中，沒有專用的數組類型。默認情況下，任何字段都可以包含零個或多個值(數組中的所有值必須具有相同

Insightzen_xian

2020-07-07 22:21:01

Pyspark ValueError: Cannot run multiple SparkContexts at once 解決之道

pyspark執行可能就遇到問題 ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=PySparkShell, master

2020-07-06 17:59:34

spark構建迴歸模型

Spark機器學習第六章實現加載數據集數據集爲Bike-Sharing-Dataset path = "hdfs:///user/yy/Bike-Sharing-Dataset/hour_noheader.csv" raw_

2020-07-06 13:47:14

pyspark dataframe 自定義分區器

def myp(x): return x % 100 pp = F.udf(myp) df = spark.range(900) df.show() df = df.repartitionByRange(pp('i

2020-07-05 13:35:28

tomcat下創建文件夾存儲文件

@ResponseBody //請假時間,效驗時間重複 1通過->沒有重複值 0->請假時間重複 @RequestMapping(value = "/test", method = RequestMethod.GET)

zhangshengqiang168

2020-07-08 07:39:28

python+django如何實現局域網訪問？

1、在終端運行：ipconfig 查看本機IP爲:192.168.0.104 2、在終端連接本機的IP代替默認IP：python manage.py runserver 192.168.0.104:8000 3、在settings配置文件

2020-07-08 02:16:24

git遠程分支管理

master分支是非常重要的，線上發佈代碼用這個分支，平時我們開發代碼不要在這個分支上創建一個dev分支，專門用作開發，只有當發佈到線上之前，纔會把dev分支合併到master 開發人員應該在dev的基礎上再分支成個人分支，個人分支裏面

2020-07-08 02:16:24

下載知乎等網站視頻小技巧

工具 PC端谷歌瀏覽器步驟一、在谷歌瀏覽器打開知乎，播放要下載的視頻二、右鍵檢查，點擊Network選項三、按F5刷新，在左側的搜索框輸入vzuu，查找視頻文件四、複製右側的Request URL並打開即可下載視頻

2020-07-07 15:17:33

生僻字讀音整理

生僻字原版詞：陳柯宇曲：陳柯宇編曲：鄭天宇我們中國的漢字落筆成畫留下五千年的歷史讓世界都認識我們中國的漢字一撇一捺都是故事跪舉火把虔誠像道光四方田地落谷成倉古人象形聲意辨惡良魃(bá)魈(x

2020-07-07 15:17:21

PDF加密以及去除密碼小妙招

寫在前面當我們頻繁打開一些受保護的需要輸入密碼的PDF文件時，是否會覺得麻煩呢？在這裏結合前人經驗以及個人經歷提供一個小妙招，不用下載軟件，只需一個谷歌瀏覽器即可輕鬆搞定，不過前提是需要知曉密碼，不知道密碼想要解除密碼的網上有很

2020-07-07 15:17:21

解決Google的安裝位置的苦惱

下載Google安裝包，並進行安裝（谷歌官網）回到桌面，看到谷歌的圖標，右擊—>屬性—>打開文件所在位置打開文件所在的位置，找到紅框所框的位置（不同的電腦可能位置不同，但是最終找到Google文件就可以了）找到

2020-07-07 12:02:29

小知識-MySql的讀寫分離

數據庫設計階段，爲了提高效率一般會有讀寫分離得設計讀：查寫：增刪改表類型也要相應的改一下讀：查（MyISAM）寫：增刪改（InnoDB） 1：MyISAM不支持事務 2：MyISAM的運行速度是InnoDB的還幾倍 3：有增

2020-07-07 08:11:46

證明：Java代碼在執行過程中，並不一定是從上到下，每句代碼依次順序執行的

今天給大家帶來一個毀三觀的結論：Java代碼在執行過程中，並不一定是從上到下，每句代碼依次順序執行的。這是不是很顛覆你的認知？計算機在執行程序的時候，並不會嚴格按照代碼來順序執行。比如第一個指令，是從內存中讀取一個數據，而第二個

李先森LeeCode

2020-07-06 12:45:47

mysql獲取返回的主鍵

因爲線程安全問題所以得用這方法獲得主鍵Id public class key { //獲取主鍵第一種 @Test //select LAST_INSERT_ID() //這是第二種

2020-07-05 20:37:13

24小時熱門文章

最新文章

最新評論文章