原创 五、分佈式爬蟲學習之BeautSoup4

BeautifulSoup4庫 和lxml一樣,BeautifulSoup也是一個HTML/XML的解析器,主要功能也是如何解析和提取HTML/XML數據。 區別:lxml只會局部遍歷,而BeautifulSoup是基於HTML

原创 十三、學習分佈式爬蟲之字體反爬

字體反爬 字體反爬原理 網頁開發者自己創造一種字體,因爲在字體中每個文字都有其代號,那麼以後在網頁中不會直接顯示這個文字的最終的效果,而是顯示他的代號,因此即使獲取到了網頁中的文本內容,也只是獲取到文字的代號,而不是文字本身。

原创 八、學習分佈式爬蟲之多線程

多線程爬蟲 理解多線程 掌握threading模塊的使用 掌握生產者消費者模式 理解GIL 能用多線程寫爬蟲 什麼是多線程 理解:默認情況下,一個程序只有一個進程和一個線程,代碼是依次線性執行的,而多線程則可以併發執行,一次性多

原创 十四、學習分佈式爬蟲之Scrapy

Scrapy框架 學習目標 理解scrapy框架。 學會spider爬蟲的編寫。 學會Crawlspider爬蟲編寫。 學會中間件的編寫。 學會pipeline保存數據。 學會將Scrapy結合selenium一起使用。 學會在

原创 數據分析學習之基礎知識

爲什麼要學習數據分析 有崗位需求 是python數據科學的基礎 是機器學習課程的基礎 什麼是數據分析 數據分析使用適當的方法對收集來的大量數據進行分析,幫助人們進行判斷,以便採取適當行動。 安裝jupyter noteb

原创 二、學習分佈式爬蟲之urllib庫

urllib庫(python自帶) urllib庫是python中一個基本的網絡請求庫,可以模擬瀏覽器行爲,向指定的服務器發送請求,並可以保存服務器返回的數據。 python3的urllib庫中所有和網絡請求相關的方法,都被集到u

原创 一、學習分佈式python網絡爬蟲第一天

1~3天學習目錄 爬蟲基礎 urllib庫基本使用 requests庫基本使用 爬蟲基礎知識 1.什麼是爬蟲 爬蟲是一個模擬人類請求網站行爲的程序,可以自動請求網頁,並把數據爬取下來,然後用一定的規則提取有價值的數據。 2.爬

原创 python基礎之認識python

爲什麼要學python 技術的提高知識量的積累,思想的提升纔是質的飛躍

原创 六、學習分佈式爬蟲之正則表達式

正則表達式和re模塊 什麼是正則表達式: 通俗的理解,就是按照一定的規則,從某個字符串中匹配出想要的數據。這個規則就是正則表達式。 正則表達式語法 import re # 匹配某個字符串 # text = 'abc' # ret

原创 python全棧開發之day02基礎知識查漏補缺

模塊 sys.argv使用 尋找模塊:先從當前路徑尋找,找不到再從環境變量裏找 什麼是pyc 深淺copy 淺copy:修改第一層時不跟着原列表修改,修改第二層時跟着修改,用處:可以用來創建聯合賬號 深copy:完全獨

原创 python全棧開發之迭代器與生成器

列表生成式:使代碼更簡潔 生成器不需要提前準備數據,只有在調用的時候纔會生成相應的數據,這樣可以節省大量空間 函數變成生成器 通過yield實現單線程的情況下實現併發效果 迭代器 小結

原创 python全棧開發之裝飾器

裝飾器decorator(語法糖) 定義:本質是函數,功能:裝飾其他函數,就是爲其他函數添加附加功能 原則: 1.不能修改被裝飾函數的源代碼 2.不能修改被裝飾函數的調用方式 實現裝飾器需要的知識儲備: 1.函數即變量 2.高階

原创 python全棧開發之函數與函數式編程

python是純面向對象的語言 編程語言中函數的定義:函數是邏輯結構化和過程化的一種編程方法 編程方式 面向對象 -------->類-------->class 面向過程 -------->過程----->def 函數式編程-

原创 python全棧開發之day01基礎知識查漏補缺

python是一門什麼語言 編程語言主要從以下幾個角度進行分類,編譯型和解釋型、靜態語言和動態語言、強類型定義語言和弱類型定義語言。 解釋型語言更容易移植 綜上所述:python是一門動態解釋性的強類型定義語言

原创 數據分析學習之matplotlib折線圖

各種統計圖的特點和用途 什麼是matplotlib 最流行的python底層繪圖庫,主要做數據可視化圖表,名字取材於MATLAB,模仿MATLIB構建 爲什麼要學習matplotlib 能將數據進行可視化,更直觀的呈現 使數