原创 運維學python之爬蟲基礎篇(二)urllib模塊使用

1 何爲爬蟲 網絡爬蟲(又被稱爲網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱爲網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。摘自百度百科 2 UR

原创 運維學python之爬蟲基礎篇實戰(七)爬取伯樂在線面向對象圖片

自己寫爬蟲主要是用來學習python,請大家不要過分的爬取別人的站點,給瀏覽網站造成影響 上篇講了如何爬去百度貼吧內容,今天講一講圖片保存的例子,伯樂在線有個面向對象(就是相親哦)的網頁,裏面有很多妹子的個人介紹,我們主要爬取圖片,按照

原创 運維學python之爬蟲工具篇(一)Requests庫的用法

前面寫都是基於urllib庫來寫的,今天開始瞭解python爬蟲常用的工具庫,今天介紹第一個庫Requests中文官網 1 安裝 1.1 直接安裝 要安裝 Requests,只要在你的終端中運行這個簡單命令即可: $ pip install

原创 運維學python之爬蟲工具篇(二)Beautiful Soup的用法

前面的內容我們都是用正則的方式獲取想要的內容,每次寫正則匹配時候都要測試好多次,是不是能夠獲取我們想要的結果,感覺很煩是不是,下面我們就介紹一下更好的方式,通過Beautiful Soup來獲取,let's go! 1 Beautiful

原创 運維學python之爬蟲工具篇(六)Pyquery的用法

1 簡介 今天介紹的工具是Pyquery,沒錯,就是jquery的表哥,是用於python的jquery類庫。pyquery允許您在xml文檔上進行jquery查詢。API類似於jquery。pyquery使用lxml進行快速xml和htm

原创 運維學python之爬蟲高級篇(三)spider和items介紹

1 spiders spiders是一個類,定義瞭如何去爬取一個網站(或一組網站),包括如何執行(跟蹤鏈接)以及如何從他們的頁面中提取結構化數據(例如抓取項目),換句話說,spiders是定義爲特定站點爬取和解析頁面的定製行爲(或者,在某些

原创 運維學python之爬蟲高級篇(五)scrapy爬取豆瓣電影TOP250

對於scrapy我們前面已經介紹了簡單的應用,今天我們用一個完整的例子,爬取豆瓣電影TOP250來做一個小的練習,把scrapy階段做一個總結。 1 環境配置 語言:Python 3.6.1 IDE: Pycharm 瀏覽器:firefo

原创 運維學python之爬蟲工具篇(五)Selenium的用法

1 介紹 Selenium是一組不同的軟件工具,每個工具都有不同的方法來支持自動化測試,Selenium支持多種語言開發,比如 Java、C、Python等。Selenium有兩個版本,Selenium 2 (也叫Selenium WebD

原创 運維學python之爬蟲高級篇(六)scrapy模擬登陸GitHub和51cto

上一篇介紹瞭如何爬取豆瓣TOP250的相關內容,今天我們來模擬登陸GitHub。 1 環境配置 語言:Python 3.6.1 IDE: Pycharm 瀏覽器:firefox 抓包工具:fiddler 爬蟲框架:Scrapy 1.5.0

原创 運維學python之爬蟲中級篇(一)進程

最近流感肆虐京城,各大醫院爆滿,不巧我也被病毒擊中, 起初咳嗽小感冒喝了點感冒沖劑以爲可以扛過去,結果發展爲嗓子乾啞,最後又開始發燒,折騰好幾天,沒辦法去醫院走了一圈花了大洋,也算是好了些,從今天開始,就要介紹中級篇了,主要內容就是:進程、

原创 運維學python之爬蟲高級篇(二)用Scrapy框架實現簡單爬蟲

上一篇內容介紹了爬蟲的基礎架構及環境配置,這一篇我們將用一個簡單的爬蟲例子來熟悉一下scrapy框架。 1 創建項目 首先要創建一個項目,注意:在你想要放代碼的目錄中執行下面的命令(具體如何在pycharm中調試可以看上一篇文章運維學pyt

原创 運維學python之爬蟲中級篇(九)Python3 MySQL 數據庫連接

最近因爲年底,連續兩個項目要投產上線,又趕上公司年會,忙的要死,更新有些慢,見諒。今天要說一說python如何對mysql進行操作。在 Python3.x 版本中用於連接 MySQL 服務器的庫與Python2中使用的mysqldb有所不同

原创 運維學python之爬蟲高級篇(四)Item Pipeline介紹(附爬取網站獲取圖片到本地代碼)

1 Item Pipeline 當spider爬取到item後,它被髮送到項目管道(Item Pipeline),通過幾個組件按順序進行處理。每一個Item Pipeline是一個實現了簡單方法的Python類,它接收到一個item並對其執

原创 運維學python之爬蟲高級篇(一)Scrapy框架入門

Scrapy是一個應用程序框架,用於抓取web站點和提取結構化數據,這些數據可以用於廣泛的應用,如數據挖掘、信息處理。儘管Scrapy最初是爲web抓取而設計的,但它也可以使用api(比如Amazon Associates的web服務)或作

原创 運維學python之爬蟲高級篇(七)scrapy爬取知乎關注用戶存入mongodb

首先,祝大家開工大吉!本篇將要介紹的是從一個用戶開始,通過抓關注列表和粉絲列表,實現用戶的詳細信息抓取並將抓取到的結果存儲到 MongoDB。 1 環境需求 基礎環境沿用之前的環境,只是增加了MongoDB(非關係型數據庫)和PyMongo