原创 PySpark 之 flatMap
1. pyspark 版本 2.3.0版本 2. 官網 flatMap(f, preservesPartitioning=False)[source] Return a new RDD by first ap
原创 PySpark RDD 之 reduce
1. pyspark 版本 2.3.0版本 2. 官網 reduce(f)[source] Reduces the elements of this RDD using the specified
原创 PySpark 之 連接變換 union、intersection、subtract、cartesian
1. pyspark 版本 2.3.0版本 2. 解釋 union() 並集 intersection() 交集 subtr
原创 python爬蟲項目
整理了自己的今年寫的爬蟲及其他項目代碼,裏面有的使用requests,也有的使用的scrapy爬蟲框架,抓取了以下這些網站,網站不更新的話代碼可以直接運行,裏面包含了網站的破解、抓取、解析 GitHub: https://github.c
原创 PySpark RDD 之 filter
1. pyspark 版本 2.3.0版本 2. 官網 filter(f)[source] Return a new RDD containing only the elements that satisfy a pre
原创 爬蟲: 解析cookie和data字符串得到json格式
1. 爲什麼寫這篇博客 方便自己用和提供給他人用 2. 寫這個的原因 我們在寫爬蟲的時候抓包的過程中,往往都會看請求中帶有的cookie和發送的參數,但是我們用的過程中,cookie可以直接粘在headers頭裏面
原创 PySpark RDD 之 countByValue
1. pyspark 版本 2.3.0版本 2. 官網 countByValue()[source] Return the count of each unique value in this RD
原创 使用python將數據導入mysql的三種方法
最近經常要將數據導入到mysql中,我寫過一次後也是複製粘貼前面寫過的,但老是經常忘記寫過的放哪去了,索性整理下直接寫到博客裏面來 方法: 1、使用 pymysql 庫, 數據一條條插入,或者用Djang
原创 PySpark RDD 之 foreach
1. pyspark 版本 2.3.0版本 2. 官網 foreach(f)[source] Applies a function to all elements of this RDD. 中文: 將函數應用於此RDD的
原创 PySpark 之 parallelize
1. pyspark 版本 2.3.0版本 2. 官網 parallelize(c, numSlices=None)[source] Distribute a local Python col
原创 Selenium 設置元素等待的三種方式
Selenium 設置元素等待的三種方式 1. sleep 強制等待 2. implicitly_wait() 隱性等待 3. WebDriverWait()顯示等待 三種方式的優缺點 1. sleep 強制等待
原创 PySpark RDD 之collect、 take、top、first取值操作
1. pyspark 版本 2.3.0版本 2. collect() collect()[source] Return a list that contains all of the elements in this R
原创 Kaggle網站數據集抓取
抓取kaggle網站代碼 github: https://github.com/Gscsd8527/AllProject/blob/master/Kaggle/new_kaggle.py import requests import
原创 PySpark 之 map
1. pyspark 版本 2.3.0版本 2. 官網 map(f, preservesPartitioning=False)[source] Return a new RDD by ap
原创 個人對 PySpark 的看法和見解
1. 介紹下爲什麼重新寫pyspark的博客 很久沒寫過關於pyspark的博客了,最近工作中要用到,所以就重新撿起來了,事先說一下,我pyspark也不怎麼樣,一邊看官網、一邊自己查資料並總結出來的,有些大牛喜歡看源