原创 python爬蟲學習筆記 3.1 (動態HTML介紹)

python爬蟲學習筆記 3.1 (動態HTML介紹) python爬蟲學習筆記 1.1(通用爬蟲和聚焦爬蟲) python爬蟲學習筆記 1.2 ( HTTP和HTTPS ) python爬蟲學習筆記 1.3 str和bytes的

原创 python爬蟲學習筆記 2.9 (使用bs4得案例)

python爬蟲學習筆記 2.9 (使用bs4得案例) python爬蟲學習筆記 1.1(通用爬蟲和聚焦爬蟲) python爬蟲學習筆記 1.2 ( HTTP和HTTPS ) python爬蟲學習筆記 1.3 str和bytes的

原创 python爬蟲學習筆記 2.8 (beautifulsoup4)

python爬蟲學習筆記 2.8(beautifulsoup4) python爬蟲學習筆記 1.1(通用爬蟲和聚焦爬蟲) python爬蟲學習筆記 1.2 ( HTTP和HTTPS ) python爬蟲學習筆記 1.3 str和b

原创 python爬蟲學習筆記 3.2 (Selenium與PhantomJS)

python爬蟲學習筆記 3.2 (Selenium與PhantomJS) python爬蟲學習筆記 1.1(通用爬蟲和聚焦爬蟲) python爬蟲學習筆記 1.2 ( HTTP和HTTPS ) python爬蟲學習筆記 1.3

原创 python爬蟲學習筆記 3.#(番外) (selenium和chromedriver使用中得問題)

python爬蟲學習筆記 3.#(番外) (selenium和chromedriver使用中得問題) python爬蟲學習筆記 1.1(通用爬蟲和聚焦爬蟲) python爬蟲學習筆記 1.2 ( HTTP和HTTPS ) pyth

原创 python爬蟲學習筆記 2.6 (糗事百科案例)

糗事百科實例: 爬取糗事百科段子,假設頁面的URL是 http://www.qiushibaike.com/8hr/page/1 參考代碼 #coding=utf-8 import requests from retrying i

原创 python爬蟲學習 2.5 (json與JsonPath)

python爬蟲學習 2.5 (json與JsonPath) 數據提取之JSON與JsonPATH JSON(JavaScript Object Notation) 是一種輕量級的數據交換格式,它使得人們很容易的進行閱讀和編寫。同

原创 python爬蟲學習 2.4 (使用Xpath得案例)

python爬蟲學習 2.4 (使用Xpath得案例) 啥都不說了,直接看代碼吧 # coding=utf-8 import requests from lxml import etree import json class T

原创 python爬蟲學習 2.3 (XPath與lxml類庫)

python爬蟲學習 2.3 (XPath與lxml類庫) 有人說,我正則用的不好,處理HTML文檔很累,有沒有其他的方法? 有!那就是XPath,我們可以先將 HTML文件 轉換成 XML文檔,然後用 XPath 查找 HTML

原创 python爬蟲學習 2.1 (正則表達式re模塊)

python爬蟲學習 2.1 (正則表達式re模塊) 爲什麼要學正則表達式 實際上爬蟲一共就四個主要步驟: 1.明確目標 (要知道你準備在哪個範圍或者網站去搜索) 2.爬 (將所有的網站的內容全部爬下來) 3.取 (去掉對我們沒用

原创 python爬蟲學習 2.2 (使用正則表達式得爬蟲得簡單案例)

python爬蟲學習 2.2 (使用正則表達式得爬蟲得簡單案例) 以下學習案例所爬網站已經停用,最後加上自己學習時所寫案例 案例:使用正則表達式的爬蟲 現在擁有了正則表達式這把神兵利器,我們就可以進行對爬取到的全部網頁源代碼進行篩

原创 python爬蟲學習筆記 1.1(通用爬蟲和聚焦爬蟲)

通用爬蟲和聚焦爬蟲 根據使用場景,網絡爬蟲可分爲 通用爬蟲 和 聚焦爬蟲 兩種. 通用爬蟲 通用網絡爬蟲 是 捜索引擎抓取系統(Baidu、Google、Yahoo等)的重要組成部分。主要目的是將互聯網上的網頁下載到本地,形成一個

原创 python爬蟲學習筆記 1.2 ( HTTP和HTTPS )

HTTP和HTTPS HTTP協議(HyperText Transfer Protocol,超文本傳輸協議):是一種發佈和接收 HTML頁面的方法。 HTTPS(Hypertext Transfer Protocol over S

原创 python爬蟲學習筆記 1.9 (Handler處理器 和 自定義Opener)

Handler處理器 和 自定義Opener opener是 urllib.request.OpenerDirector 的實例,我們之前一直都在使用的urlopen,它是一個特殊的opener(也就是模塊幫我們構建好的)。

原创 python爬蟲學習筆記 1.4 (Request簡單使用)request安裝

python爬蟲學習筆記 1.4 (Request簡單使用) Requests: 讓 HTTP 服務人類 雖然Python的標準庫中 urllib 模塊已經包含了平常我們使用的大多數功能,但是它的 API 使用起來讓人感覺不太好,