原创 《Python爬蟲精進》第11關項目

題目要求 項目目標:使用多協程和隊列,爬取時光網電視劇TOP100的數據(劇名、導演、主演和簡介),並用csv模塊將數據存儲下來。時光網TOP100鏈接:http://www.mtime.com/top/tv/top100/ 做題步驟 1

原创 《Python爬蟲精進》14關-出任爬蟲公司CEO

目標:通過職友集,搜索全國上百家招聘網站的最新職位。並將【公司、職位、地址、招聘信息】存儲成csv文件。 網址:https://www.jobui.com/rank/company/ 1、輸入創建Scrapy項目的命令:scrapy st

原创 《Python爬蟲精進》第9關項目

《Python爬蟲精進》第9關作業要求:寫一個程序使瀏覽器自動完成以下工作: 首先,登錄博客人人都是蜘蛛俠。其次,在搜索框中查找《未來已來(三)——同九義何汝秀》,並進入該文章發表一個評論,這個評論中必須要帶有“selenium”這個詞。

原创 Python——Windows下安裝gevent庫

在學習Python爬蟲過程中,由於用多協程異步的爬取方法實現數據爬取需要用到gevent庫,在導入gevent庫的過程中出現如下錯誤。 一開始我只是用pip install gevent指令安裝gevent庫,但是出現如下圖的異常 之

原创 Scrapy爬蟲項目——阿里文學&噹噹網

1. Cmd命令行創建項目 創建項目命令: scrapy startproject [項目名] Items定義要爬取的東西;spiders文件夾下可以放多個爬蟲文件;pipelines爬蟲後處理的文件,例如爬取的信息要寫入數據庫;s