原创 網絡爬蟲--20.Scrapy-Redis分佈式爬蟲案例(代碼)

文章目錄一. 案例介紹二. virtualenv 創建和管理虛擬環境三. 創建項目四. 標題五. 標題1. 小標題2. 小標題3. 小標題1). 小標題2). 小標題3). 小標題 一. 案例介紹 爬取房天下(https://w

原创 網絡爬蟲--21.Scrapy知識點總結

文章目錄一. Scrapy簡介二. Scrapy架構圖三. Scrapy框架模塊功能四. 安裝和文檔五. 創建項目六. 創建爬蟲 一. Scrapy簡介 二. Scrapy架構圖 三. Scrapy框架模塊功能 四. 安裝

原创 網絡爬蟲--19.分佈式爬蟲案例(環境準備)

文章目錄0. 思路一. 虛擬機Ubuntu0中安裝Redis二. 虛擬機Ubuntu1中安裝Redis三. Windows服務器上安裝Redis四. 安裝cmder五. 安裝RedisDesktopManager六. 修改Wind

原创 網絡爬蟲--18.python中的GIL(全局解釋器鎖)、多線程、多進程、併發、並行

參考文獻: python的GIL、多線程、多進程 併發和並行的區別? GIL(全局解釋器鎖)一看就懂的解釋! 多謝作者分享!

原创 網絡爬蟲--15.糗事百科實例(多線程)

文章目錄一. Queue(隊列對象)二. 多線程示意圖三. 代碼示例 一. Queue(隊列對象) Queue是python中的標準庫,可以直接import Queue引用;隊列是線程間最常用的交換數據的形式 python下多線程

原创 網絡爬蟲--16.BeautifulSoup4

文章目錄一. BeautifulSoup4二. 解析實例三. 四大對象種類1. Tag2. NavigableString3. BeautifulSoup4. Comment四. 遍歷文檔樹1.直接子節點 :.contents .

原创 網絡爬蟲--17.使用BeautifuSoup4的爬蟲

文章目錄一.要求二.代碼示例 一.要求 以騰訊社招頁面來做演示:http://hr.tencent.com/position.php?&start=10#a 使用BeautifuSoup4解析器,將招聘網頁上的職位名稱、職位類別、

原创 網絡爬蟲--13.數據提取之JSON與JsonPATH

文章目錄一. 前言二. JSON三. json.loads()四. json.dumps()五. json.dump()六. json.load()七. JsonPath八. JsonPath與XPath語法對比九. 案例分析

原创 網絡爬蟲--11.XPath和lxml

文章目錄一. XML1. XML 和 HTML 的區別2. XML文檔示例3. HTML DOM 模型示例4. XML的節點關係二. 什麼是XPath?1. 選取節點2. 謂語(Predicates)3. 選取未知節點4. 選取若

原创 網絡爬蟲--14.糗事百科實例

文章目錄一. 要求二. 參考代碼 一. 要求 爬取糗事百科段子,假設頁面的URL是 http://www.qiushibaike.com/8hr/page/1 使用requests獲取頁面信息,用XPath / re 做數據提

原创 網絡爬蟲--12.案例:使用XPath的爬蟲

用XPath來做一個簡單的爬蟲,我們嘗試爬取某個貼吧裏的所有帖子,並且將該這個帖子裏每個樓層發佈的圖片下載到本地。 #coding=utf-8 import requests from lxml import etree impo

原创 網絡爬蟲--10.使用正則表達式的爬蟲

文章目錄一. 前言二. 第一步:獲取數據三. 第二步:篩選數據四. 第三步:保存數據五. 第四步:實現循環抓取 一. 前言 現在擁有了正則表達式這把神兵利器,我們就可以進行對爬取到的全部網頁源代碼進行篩選了。 下面我們一起嘗試一下

原创 網絡爬蟲--7.Handler處理器 和 自定義Opener

文章目錄一. 引言二. 簡單的自定義opener()三. ProxyHandler處理器(代理設置)四. Cookie1.Cookie原理2.Cookie應用五. cookiejar庫 和 HTTPCookieProcessor處

原创 網絡爬蟲--9.正則表達式

文章目錄一. 正則表達式1.爲什麼要學正則表達式2.什麼是正則表達式3.正則表達式匹配規則二. Python 的 re 模塊1.re 模塊的一般使用步驟2.compile 函數3.match 方法4.search 方法5.find

原创 網絡爬蟲--8.編碼趣聞

很久很久以前,有一羣人,他們決定用8個可以開合的晶體管來組合成不同的狀態,以表示世界上的萬物。他們看到8個開關狀態是好的,於是他們把這稱爲"字節"。 再後來,他們又做了一些可以處理這些字節的機器,機器開動了,可以用字節來組合出很多