台部落G_scsd

原创 PySpark 之 flatMap

1. pyspark 版本 2.3.0版本 2. 官網 flatMap(f, preservesPartitioning=False)[source] Return a new RDD by first ap

2020-06-29 15:59:59

原创 PySpark RDD 之 reduce

1. pyspark 版本 2.3.0版本 2. 官網 reduce(f)[source] Reduces the elements of this RDD using the specified

2020-06-29 15:59:59

4

原创 PySpark 之連接變換 union、intersection、subtract、cartesian

1. pyspark 版本 2.3.0版本 2. 解釋 union() 並集 intersection() 交集 subtr

2020-06-29 15:59:59

8

原创 python爬蟲項目

整理了自己的今年寫的爬蟲及其他項目代碼，裏面有的使用requests，也有的使用的scrapy爬蟲框架，抓取了以下這些網站，網站不更新的話代碼可以直接運行，裏面包含了網站的破解、抓取、解析 GitHub： https://github.c

2020-06-29 15:59:59

2

原创 PySpark RDD 之 filter

1. pyspark 版本 2.3.0版本 2. 官網 filter(f)[source] Return a new RDD containing only the elements that satisfy a pre

2020-06-29 15:59:59

原创爬蟲：解析cookie和data字符串得到json格式

1. 爲什麼寫這篇博客方便自己用和提供給他人用 2. 寫這個的原因我們在寫爬蟲的時候抓包的過程中，往往都會看請求中帶有的cookie和發送的參數，但是我們用的過程中，cookie可以直接粘在headers頭裏面

2020-06-29 15:59:47

原创 PySpark RDD 之 countByValue

1. pyspark 版本 2.3.0版本 2. 官網 countByValue()[source] Return the count of each unique value in this RD

2020-06-29 15:59:46

原创使用python將數據導入mysql的三種方法

最近經常要將數據導入到mysql中，我寫過一次後也是複製粘貼前面寫過的，但老是經常忘記寫過的放哪去了，索性整理下直接寫到博客裏面來方法： 1、使用 pymysql 庫，數據一條條插入，或者用Djang

2020-06-29 15:59:46

原创 PySpark RDD 之 foreach

1. pyspark 版本 2.3.0版本 2. 官網 foreach(f)[source] Applies a function to all elements of this RDD. 中文：將函數應用於此RDD的

2020-06-29 15:59:46

2

原创 PySpark 之 parallelize

1. pyspark 版本 2.3.0版本 2. 官網 parallelize(c, numSlices=None)[source] Distribute a local Python col

2020-06-29 15:59:46

4

原创 Selenium 設置元素等待的三種方式

Selenium 設置元素等待的三種方式 1. sleep 強制等待 2. implicitly_wait() 隱性等待 3. WebDriverWait（）顯示等待三種方式的優缺點 1. sleep 強制等待

2020-06-29 15:59:46

原创 PySpark RDD 之collect、 take、top、first取值操作

1. pyspark 版本 2.3.0版本 2. collect() collect()[source] Return a list that contains all of the elements in this R

2020-06-29 15:59:46

1

2

原创 PySpark 之 flatMap

原创 PySpark RDD 之 reduce

原创 PySpark 之連接變換 union、intersection、subtract、cartesian

原创 python爬蟲項目

原创 PySpark RDD 之 filter

原创爬蟲：解析cookie和data字符串得到json格式

原创 PySpark RDD 之 countByValue

原创使用python將數據導入mysql的三種方法

原创 PySpark RDD 之 foreach

原创 PySpark 之 parallelize

原创 Selenium 設置元素等待的三種方式

原创 PySpark RDD 之collect、 take、top、first取值操作

原创 Kaggle網站數據集抓取

原创 PySpark 之 map

原创個人對 PySpark 的看法和見解