pyspark sql dataframe與pandas dataframe簡單操作

原創

初心fly

2020-06-21 02:34

1、pandas dataframe

參考notebook：

https://nbviewer.jupyter.org/github/lonngxiang/spark_sql_exmple/blob/master/log_pandas.ipynb

2、pyspark sql dataframe

參考：
https://nbviewer.jupyter.org/github/lonngxiang/spark_sql_exmple/blob/master/log_imooc1.ipynb

另注：
agg聚合函數後列上操作
sql dataframe foreach 是行的操作

df.foreach(lambda x :x.age)

sql dataframe 類似pandas apply 操作賦值：需要udf函數

from pyspark.sql.functions import *
from pyspark.sql.types import *
def fc(a):
    return a+1
    # pass

fc = udf(fc, StringType())
data = df_rdd2.withColumn('value2', fc('age'))
print(data.show())

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Java知識點——Stream流

Stream 1. Stream流 1.1. Stream流引入 Stream流完全不是I/O流，按照流水線處理方式來考慮代碼中的思想。 JDK1.8 之後，我們擁有了Lambda表達式，讓代碼的中心偏向解決實際問題，直到重點

青柠小鱼码字猴

2020-07-08 03:45:43

freemarker導出word文檔，word文檔中的xml解析

段落字體： <w:t>：字符串，文字內容，如： <w:t>這是文字</w:t> 如： <w:t xml:space="preserve"> </w:t> <#-- xml:space="preserve"從字面上理解

djy180

2020-07-07 18:09:04

格式化輸入輸出處理16進制的問題

編程學習，代碼現行。所以先來分析一段代碼： #include<stdio.h> long long a,b; int main() { while(scanf("%llx%llx",&a,&b)!=EOF) {

Wildcatastrophe

2020-07-07 13:16:39

HDU 1569 find the safest road

這道題用Floyd和dijkstra均可以解出。將各條路徑的成績值維護一下即可，也可以對各條路上的權值取對數，這樣所有的路都變成了負值。找乘積的最大值，也就是找負值的最大值即可，貼出第一種方法的AC代碼： #include<i

Wildcatastrophe

2020-07-07 13:16:38

模擬電路全系列複習題惡補知識點

@Author: cpu_code @Date: 2020-06-21 23:49:08 @LastEditTime: 2020-06-25 13:52:29 @FilePath: \md\模電\模電覆習題.md @Gitee

cpu_code

2020-07-07 08:09:56

面試問題1.0

SpringMVC的執行過程 1、用戶發送請求至前端控制器DispatcherServlet。 2、 DispatcherServlet收到請求調用HandlerMapping處理器映射器。 3、處理器映射器找到具體的處理器(

秧木子

2020-07-07 01:13:02

mysql四種事務隔離級別（整理）

Read Uncommitted（讀取未提交內容）解讀：事務B可以讀取事務A 未提交內容。結果：導致髒讀舉例：事務A開啓事務： set SESSION TRANSACTION ISOLATION LEVEL read UNCO

伟衙内

2020-07-06 16:45:44

MySql,Oracle,SqlServer的獲取鏈接

/** * 連接超時時間，使用配置，默認30s */ private int connectTimeout = 30000; /** * socket超時時間，使用配置，默認30s */ private int socketT

伟衙内

2020-07-06 16:45:44

lambda表達式（二）集合操作

目錄案列一、數組排序：數組批量設值：案例二、集合操作（List）初始化一個集合過濾排序： Map映射： Match匹配： Count計數： Reduce約束：方案一：使用collect方法方案二：方案三：變成數組方案

伟衙内

2020-07-06 16:45:44

使用Kettle編寫抽取數據

目錄環境工程搭建引入kettle的jar包引入輔助包 3. 添加mysql連接jar包 4. 添加lombok包創建數據庫和表代碼分析初始話kettle環境定義數據庫信息 3. mysql處理 4. 生成表

伟衙内

2020-07-06 16:45:44

Ftp操作

僅收錄一些ftp常用操作，關於ftp的主動模式和被動模式，見參考 import org.apache.commons.net.ftp.FTPClient; private boolean binaryTransfer = true;

伟衙内

2020-07-06 16:45:44

SMB操作

smb是一種網絡文件協議，具體服務器配置參看以下是一些常用的代碼操作 import jcifs.smb.NtlmPasswordAuthentication; import jcifs.smb.SmbFile; //認證 NtlmP

伟衙内

2020-07-06 16:45:43

AOP(一)——springAOP

AOP面向切面編程。至於理論網上有很多。個人理解爲對待執行的方法進行攔截，攔截後就可以爲所欲爲，想先執行些前置邏輯，或者待攔截方法執行後執行一些後置邏輯等。正如夾心餅乾，一分爲二，中間可以加草莓醬，藍莓醬，奶油醬，等等。廢話不多說，先

伟衙内

2020-07-06 16:45:43

關鍵路徑--考研

學習視頻來自B站青島大學-王卓（hiahiahia~~~正好是我們學院老師） AOE網：在帶權有向圖中以頂點表示事件以有向邊表示活動以邊上的權值表示完成該活動所需要的事件稱這種圖爲AOE網性質： 1 只有在某頂點所代表

galesaur_wcy

2020-07-06 12:08:10

linux環境下批量更改文件的後綴名 awk好文檔

舉例說明，批量將文件的後綴名由result更改爲pcap 方法一、 $rename 's/result/pcap' *.result 方法二、 $ll |awk '{split($9,a,".");print a[1]}'|xargs -

lepton126

2020-07-06 09:23:01

24小時熱門文章

pyspark sql dataframe與pandas dataframe簡單操作

keras非Sequential模型的保存加載再訓練和預測

本地圖片轉在線url，flask搭建在線服務器

pyspark steaming 連接kafka數據實時處理(也可以對接flume+kafka+spark)

pyspark sql dataframe與pandas dataframe簡單操作

flume日誌採集及斷點去重模塊(mac\linux安裝)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結