原创 【python&爬蟲】快速入門Scrapy框架

一.基本介紹 Scrapy是用純Python實現的一個開源爬蟲框架,是爲了高效地爬取網站數據,提取結構性數據而編寫的應用框架,用途非常廣泛,可用於爬蟲開發,數據挖掘,數據監測,自動化測試等領域。 二.Scrapy框架的架構 Sc

原创 【python&爬蟲】快速入門JSON和JSONPath

文章目錄一.JSON基本介紹1.語法規則2.JSON的取值3.JSON與XML比較二.JSON模塊介紹1.基本介紹2.json模塊的基本應用3.JSON類型和Python類型對比三.JSONPath語法1.JSONPath語法基本

原创 【spark學習】SparkStreaming將採集結果存儲MySQL數據庫

一.需求說明 SparkStreaming採集網頁日誌文件,計算網頁的熱度,根據網頁熱度排序取前10行,最後將網頁ID和熱度存入MySQL數據庫 二.日誌文件準備 說明:以原始數據 test.log爲基礎,用日誌生成程序不斷的生成

原创 【python&爬蟲】selenium爬取淘寶商品圖片

一.說明 淘寶商品的爬取,主要用到selenium和css選擇器,本案例難度較低可以用作selenium的入門。 注意:掃碼登錄是手動操作 二.代碼演示 from selenium import webdriver from se

原创 【hadoop】MapReduce數據清洗及導入數據到hive倉庫

搜狗用戶查詢日誌分析綜合案例 一.MapReduce數據清洗 1.數據清洗要求 (1)解決亂碼問題 (2)過濾少於6個字段的行 (3)統一字段之間的分隔符(統一用逗號) (3)在每行前添加年,月,日字段。 清洗前的數據 清洗後的

原创 CentOS7搭建MySQL,一步一步帶你完成安裝

說明: 安裝包:mysql-5.7.28-linux-glibc2.12-x86_64.tar.gz 一條一條複製並執行以下代碼即可完成安裝 1.爲保證MySQL的獨立性 安裝前需要創建mysql用戶組和用戶 groupadd m

原创 【python&爬蟲】requests登錄豆瓣網並爬取“瀏覽發現”中的文章簡介和圖片

一.前言 爲了總結前面所學知識,今天隨便爬了一下豆瓣網。使用了requests+xpath,豆瓣網的爬取相對比較簡單,可將此網站作爲爬蟲的入門。 二.爬取需求 爬取每篇文章的用戶名,標題,文章簡介,圖片,點贊量和轉發量。 注意:標

原创 【python&爬蟲】快速入門Web自動化測試工具selenium

一.selenium基本介紹 1.selenium是一個web的自動化測試工具,最初是爲網站自動化測試而開發的,它可以按指定的命令自動操作。selenium可以直接運行在瀏覽器上,它支持所有主流的瀏覽器。 2.selenium可以

原创 【python&爬蟲】快速入門BeautifulSoup解析器

文章目錄一.基本介紹1.節點對象分類2.使用bs4的流程二.構建BeautifulSoup類1.BeautifulSoup類構造方法解析2.創建BeautifulSoup對象4.常用的兩個方法5.find_all()方法解析6.快

原创 【python&爬蟲】快速入門urllib庫和requests庫

文章目錄一.urllib庫基本介紹二.urllib.request 請求模塊1.urlopen方法參數解析1.1.發送get請求1.2.發送post請求(設置data參數)1.3.設置timeout參數1.4.HTTPRespon

原创 【Spark學習】報錯Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties 20/04/26 00:45:36 INFO SparkContext

原创 【Spark學習】Partitioner分區器初體驗

Partitioner源碼 abstract class Partitioner extends Serializable { def numPartitions: Int def getPartition(key: An

原创 【Spark學習】RDD基礎練習

需求 1.計算每個學生這兩門課程的總成績,並且排序輸出前5名 2.找出單科成績爲100的學生ID,最終的結果需要集合到一個RDD中 3.求每個學生這兩門成績的平均值 4.合併這個三個表,彙總學生成績並以文本格式存儲,數據彙總爲學生

原创 【python&爬蟲】快速入門python正則表達式

文章目錄一.基本介紹二.re模塊中的常用方法三.參數flags規則選項總結四.正則表達式模式語法中的特殊元素五.常用操作1.精確指定匹配的次數 { n,m}2.非捕獲組 (?:pattern )3.捕獲組 (pattern)4.前

原创 【Spark學習】使用Spark SQL操作外部hive數據庫

一.基本介紹 默認情況下,spark自帶hive,可以直接在spark-shell使用spark.sql("…")來操作內置的hive數據庫 二.使用外部hive ①刪除spark中內置的hive。即刪除metastore_db和