原创 15天學會爬蟲 第一天

爬蟲 第一天 1. 爬蟲的用途 1.爬取數據用做網站展示 2.爬取數據用來爲大數據或者人工智能服務 2. 什麼是爬蟲? 模擬瀏覽器發送請求,獲取相應的數據 3. 爬蟲的分類 3.1 通用爬蟲 搜索引擎的爬蟲,爬取整個互聯網的數據

原创 賦值、深拷貝和淺拷貝的區別

import copy a = [[1, 2], 3, {"key": "value"}] b = a c = copy.copy(a) d = copy.deepcopy(a) a[0].append(3) print(a) p

原创 15天學會爬蟲 第十天

爬蟲 第十天 crawlspider的使用 scrapy genspider -t crawl spider_name allowed_domain class GtSpider(CrawlSpider): name =

原创 15天學會爬蟲 第十一天

爬蟲 第十一天 scrapy流程的新理解 start_urls誰構造的請求? def start_requests(self): for url in self.start_urls: yield R

原创 15天學會爬蟲 第九天

爬蟲 第九天 scrapy debug信息 2019-01-19 09:50:48 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: tencent) 2019-01-19 09:

原创 15天學會爬蟲 第十二天

爬蟲 第十二天 分佈式爬蟲的實現 創建爬蟲類 scrapy genspider itcast itcast.cn 修改繼承類爲scrapy_reids中的RedisSpider 刪除原有的start_urls 添加

原创 15天學會爬蟲 第八天

爬蟲 第八天 scrapy框架流程 其流程可以描述如下: 調度器把requests–>引擎–>下載中間件—>下載器 下載器發送請求,獲取響應---->下載中間件---->引擎—>爬蟲中間件—>爬蟲 爬蟲提取數據,分爲兩類

原创 15天學會爬蟲 第六天

爬蟲 第六天 selenium 本次代碼需要用到插件Chromedriver,安裝方法 selenium 入門 pip install selenium from selenium import webdirver # 創建一個

原创 Windows,Mac下的Chromedriver的安裝

Windows,Mac下的Chromedriver的安裝 在淘寶鏡像下載對應版本的Chromedriver Mac下的安裝 將下載好的文件解壓,把解壓的文件放入/usr/local/bin目錄下,Linux用戶同樣 Windows下的

原创 15天學會爬蟲 第七天

爬蟲 第七天 mongodb mongo 客戶端連接 db db 顯示當前正在使用的數據庫 show dbs 顯示所有數據 use db(name) 使用指定數據庫 db.dropDatabase() 刪除正在使用的數據庫 c

原创 Mongodb 在 Mac下的安裝

Mongodb 在 Mac下的安裝 首先是下載對應的安裝包 https://www.mongodb.com/download-center/community 官方網站不用翻牆都能訪問 選擇你所對應的系統及想安裝的版本,我這裏是Ma

原创 15天學會爬蟲 第五天

爬蟲 第五天 多線程 線程的創建和運行 import multiprocessing def task(num): pass p1 = multiprocessing.Process(target = task) p1.st

原创 15天學會爬蟲 第四天

爬蟲 第四天 正則表達式 1.1 單個字符 \d 數字0-9 \s 空白字符 空格 \t \n \w 單詞字符 . 除了\n的任意字符 [a-d0-9] 匹配a-d或者0-9中任意一個 1.2 多個字符 {m,n}前一個字符出現

原创 15天學會爬蟲 第二天

爬蟲 第二天 1.Response的常用屬性 response.headers 響應頭 response.request.headers 請求頭 response.status_code 狀態碼 response.request.u