原创 PySpark 之 flatMap

1. pyspark 版本        2.3.0版本   2. 官網  flatMap(f, preservesPartitioning=False)[source]      Return a new RDD by first ap

原创 PySpark RDD 之 reduce

1. pyspark 版本        2.3.0版本   2. 官網     reduce(f)[source]        Reduces the elements of this RDD using the specified

原创 PySpark 之 連接變換 union、intersection、subtract、cartesian

1. pyspark 版本        2.3.0版本   2. 解釋            union()             並集            intersection()    交集            subtr

原创 python爬蟲項目

整理了自己的今年寫的爬蟲及其他項目代碼,裏面有的使用requests,也有的使用的scrapy爬蟲框架,抓取了以下這些網站,網站不更新的話代碼可以直接運行,裏面包含了網站的破解、抓取、解析 GitHub: https://github.c

原创 PySpark RDD 之 filter

1. pyspark 版本        2.3.0版本   2. 官網 filter(f)[source] Return a new RDD containing only the elements that satisfy a pre

原创 爬蟲: 解析cookie和data字符串得到json格式

1. 爲什麼寫這篇博客      方便自己用和提供給他人用   2. 寫這個的原因      我們在寫爬蟲的時候抓包的過程中,往往都會看請求中帶有的cookie和發送的參數,但是我們用的過程中,cookie可以直接粘在headers頭裏面

原创 PySpark RDD 之 countByValue

1. pyspark 版本        2.3.0版本   2. 官網     countByValue()[source]        Return the count of each unique value in this RD

原创 使用python將數據導入mysql的三種方法

        最近經常要將數據導入到mysql中,我寫過一次後也是複製粘貼前面寫過的,但老是經常忘記寫過的放哪去了,索性整理下直接寫到博客裏面來 方法:       1、使用 pymysql 庫, 數據一條條插入,或者用Djang

原创 PySpark RDD 之 foreach

1. pyspark 版本        2.3.0版本   2. 官網 foreach(f)[source] Applies a function to all elements of this RDD. 中文: 將函數應用於此RDD的

原创 PySpark 之 parallelize

1. pyspark 版本        2.3.0版本   2. 官網      parallelize(c, numSlices=None)[source]          Distribute a local Python col

原创 Selenium 設置元素等待的三種方式

Selenium 設置元素等待的三種方式     1. sleep 強制等待     2. implicitly_wait() 隱性等待     3. WebDriverWait()顯示等待 三種方式的優缺點  1. sleep 強制等待

原创 PySpark RDD 之collect、 take、top、first取值操作

1. pyspark 版本        2.3.0版本   2. collect() collect()[source] Return a list that contains all of the elements in this R

原创 Kaggle網站數據集抓取

抓取kaggle網站代碼 github:  https://github.com/Gscsd8527/AllProject/blob/master/Kaggle/new_kaggle.py import requests import

原创 PySpark 之 map

1. pyspark 版本        2.3.0版本   2. 官網   map(f, preservesPartitioning=False)[source]               Return a new RDD by ap

原创 個人對 PySpark 的看法和見解

1. 介紹下爲什麼重新寫pyspark的博客           很久沒寫過關於pyspark的博客了,最近工作中要用到,所以就重新撿起來了,事先說一下,我pyspark也不怎麼樣,一邊看官網、一邊自己查資料並總結出來的,有些大牛喜歡看源