Spark中的dataframe與Pandas中的dataframe對比/轉化

原創

小白tree

2020-02-23 17:11

〇、聲明

Spark中可以運行numpy和pandas程序，只要你裝了

一、爲什麼要將用了pandas.dataframe的程序改爲Spark中的dataframe

前者只能單機運行，後者可以集羣運行

二、對比

直接跳轉這篇博文《Spark與Pandas中DataFrame對比》，寫的很好

三、轉化

spark —> pandas	pandas —> spark
pandas_df = spark_df.toPandas()	spark_df = spark.createDataFrame(pandas_df)

由於pandas的方式是單機版的，即toPandas()的方式是單機版的，改成分佈式版本：

import pandas as pd
def _map_to_pandas(rdds):
    return [pd.DataFrame(list(rdds))]
    
def topas(df, n_partitions=None):
    if n_partitions is not None: df = df.repartition(n_partitions)
    df_pand = df.rdd.mapPartitions(_map_to_pandas).collect()
    df_pand = pd.concat(df_pand)
    df_pand.columns = df.columns
    return df_pand
    
pandas_df = topas(spark_df)

參考博文：
《spark跟pandas數據轉換》
《pandas和spark的dataframe互轉》

四、SparkContext在Spark2.x中被整合入SparkSession，是整個Spark的指揮台

參考博文：
《Spark 核心篇-SparkContext》
《Spark 2.0系列之SparkSession詳解》

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Spark中的dataframe與Pandas中的dataframe對比/轉化

〇、聲明

一、爲什麼要將用了pandas.dataframe的程序改爲Spark中的dataframe

二、對比

三、轉化

四、SparkContext在Spark2.x中被整合入SparkSession，是整個Spark的指揮台

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

python使用xlrd和xlwt模塊對Excel文件讀寫（實例：將點座標轉爲無向圖距離）

matlab與python的交互

hdu2023求平均成績杭電OJ Compilation error

分別用numpy和pandas劃分數據集以完成交叉驗證

進程同步水果問題

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結