Spark讀寫parquet

原創

2020-03-29 02:57

Spark的parquet介紹

列式存儲佈局可加速查詢，只檢查需要的列並對執行計算，也就是隻讀取一個數據文件或表的小部分數據。
Parquet 支持靈活的壓縮選項，可以顯著減少磁盤上的存儲。
轉換需要時間，時間長了一些。
查詢性能的提升在某些情況下可能達到 30 倍或更高，存儲的節省可高達 75%。

如果在 HDFS 上擁有基於文本的數據文件或表，而且正在使用 Spark SQL 對它們執行查詢，那麼強烈推薦將文本數據文件轉換爲 Parquet 數據文件，以實現性能和存儲收益。

1. 讀取parquet

dtParquet = spark.read.parquet("sp路徑")
dtParquet.show(5)

可以直接read一個parquet文件，就轉成了dataframe。因爲parquet文件裏有比較豐富的信息，不像普通的文件。所以推薦是把其他文件的格式，清洗後轉換成parquet數據格式。

2. 轉成 parquet 文件再讀

# SAMPLE 10% OF DATA, SPLIT INTO TRAIINING AND VALIDATION AND SAVE IN BLOB
dfSampled = df.sample(False, 0.1, seed=123)
dfSampled.repartition(10).write.mode("overwrite").parquet("sp路徑")
dtParquet = spark.read.parquet("sp路徑")
dtParquet.show(5)

參考：spark 讀取parquet

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Spark大數據-structured streaming

structured streaming概述 structured streaming引入持續流處理模式，真正支持毫秒級別響應。spark streaming無法滿足毫秒級響應。2.2正式發佈。重新抽象流式計算，基於DataF

2020-07-07 17:39:44

Spark大數據-TMDB電影數據分析（spark-scala版）

TMDB電影數據分析（spark-scala版，pyspark版本）基於kaggle的TMDB電影數據集的數據分析，該數據集包含大約 5000 部電影的相關數據，TMDB數據下載。分析電影關鍵詞的分佈、電影投入以及收益評價等之間

2020-07-07 17:39:44

Spark大數據-ml的邏輯斯蒂迴歸和決策樹解決分類問題

ml的邏輯斯蒂迴歸和決策樹解決分類問題 1.邏輯斯蒂迴歸解決分類問題使用ml庫的邏輯斯蒂迴歸解決鳶尾花的二分類問題： // 二分類邏輯斯地迴歸，只用兩個屬性長度和寬度 import org.apache.spark.sql.Ro

2020-07-07 16:42:45

Spark大數據-spark streaming輸出操作

spark streaming輸出操作其他部分與轉換操作一樣，只需要添加輸出保存部分，保存爲文件使用saveAsTextFiles，輸出到mysql數據庫。 object NetworkWordCountStateful {

2020-07-07 16:42:45

Spark大數據-輸入源之文件流

文件流日誌的實時捕捉：對目錄進行監控，只要目錄生成新的文件或者文件變動就捕捉。 1.創建被監控的文件目錄： cd /usr/local/spark/mycode mkdir streaming cd streaming mk

2020-07-07 16:42:45

Spark大數據-Spark+Kafka構建實時分析Dashboard

Spark+Kafka構建實時分析Dashboard 一.框架利用Spark+Kafka實時分析男女生每秒購物人數，利用Spark Streaming實時處理用戶購物日誌，然後利用websocket將數據實時推送給瀏覽器，最後瀏

2020-07-07 16:42:45

Spark大數據-基於Hive和Spark的淘寶雙11數據分析與預測

基於Hive和Spark的淘寶雙11數據分析與預測 1.系統和環境要求（版本僅供參考）： Linux: centos7 MySQL: 5.7.16 Hadoop: 2.7.1 Hive: 1.2.1 Sqoop: 1.4.6 S

2020-07-07 16:42:45

Spark大數據-Dstream概述

Dstream概述工作機制輸入數據流的input Dstream和receiver掛接起來。 1.創建輸入Dstream定義輸入源，文件流，kafka，rdd隊列流。 2.轉換和輸出操作定義流計算過程。 3.Streami

2020-07-07 16:42:44

Spark大數據-spark streaming轉換操作

2020-02-21 19:58:55

Linux查看文件指定行數內容

2020-02-21 19:58:54

Spark大數據-特徵抽取Word2Vec(Scala版)

2020-02-21 19:58:54

Spark大數據-特徵抽取CountVectorizer

2020-02-21 19:58:54

Spark大數據-Spark Streaming

2020-02-21 19:58:54

Spark大數據-Spark MLib機器學習流水線Pipeline

2020-02-21 19:58:54

Spark大數據-輸入源之kafka的spark streaming流處理

2020-02-21 19:58:54

24小時熱門文章

最新文章

最新評論文章