爬蟲的基本分類和爬蟲的流程

原創

2020-06-20 09:07

1 爬蟲的分類

根據被爬網站的數量的不同，我們把爬蟲分爲：

通用爬蟲：通常指搜索引擎的爬蟲（https://www.baidu.com）
聚焦爬蟲：針對特定網站的爬蟲

2 爬蟲的流程

爬蟲的工作流程：

向起始url發送請求，並獲取響應
對響應進行提取
如果提取url，則繼續發送請求獲取響應
如果提取數據，則將數據進行保存

3 robots協議

Robots協議：網站通過Robots協議告訴搜索引擎哪些頁面可以抓取，哪些頁面不能抓取，但它僅僅是互聯網中的一般約定

https://www.taobao.com/robots.txt

User-agent:  Baiduspider
Allow:  /article
Allow:  /oshtml
Allow:  /ershou
Disallow:  /product/
Disallow:  /

User-Agent:  Googlebot
Allow:  /article
Allow:  /oshtml
Allow:  /product
Allow:  /spu
Allow:  /dianpu
Allow:  /oversea
Allow:  /list
Allow:  /ershou
Disallow:  /

User-agent:  Bingbot
Allow:  /article
Allow:  /oshtml
Allow:  /product
Allow:  /spu
Allow:  /dianpu
Allow:  /oversea
Allow:  /list
Allow:  /ershou
Disallow:  /

User-Agent:  360Spider
Allow:  /article
Allow:  /oshtml
Allow:  /ershou
Disallow:  /

User-Agent:  Yisouspider
Allow:  /article
Allow:  /oshtml
Allow:  /ershou
Disallow:  /

User-Agent:  Sogouspider
Allow:  /article
Allow:  /oshtml
Allow:  /product
Allow:  /ershou
Disallow:  /

User-Agent:  Yahoo!  Slurp
Allow:  /product
Allow:  /spu
Allow:  /dianpu
Allow:  /oversea
Allow:  /list
Allow:  /ershou
Disallow:  /

User-Agent:  *
Disallow:  /

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

re庫正則表達式常用操作符

. 表示任何單個字符 [ ] 對單個字符給出取值範圍 [abc] 表示a，b，c一個[a-z]表示a到z單個字符 [^ ] 對單個字符給出排除範圍 *

2020-07-07 09:32:11

Python re庫非貪婪匹配（正則表達式庫）

re庫中默認採用貪婪匹配，即同一個字符串多處符合條件的話，輸出最長的那個子串。 import re r = re.search(r'PY.*N','PYTHONFTTN') print(r.group(0)) 如果需要最小輸出匹

2020-07-07 09:32:11

自動化測試工具 - uiautomator2

前言之前有一篇appium 自動化的介紹 (https://blog.csdn.net/weixin_42277380/article/details/102911460）這裏還有另外一個自動化測試工具，是一個大佬改寫，本人用過很是牛

飞向天空的鹰

2020-06-16 16:29:51

Scrapyd + Gerapy部署搭建爬蟲管理系統（下）

對接上篇scrapyd安裝配置：https://blog.csdn.net/weixin_42277380/article/details/99546924 本片對Gerapy進行詳細講解 Gerapy安裝 GitHub：https:/

飞向天空的鹰

2020-06-16 16:29:51

Scrapyd + Gerapy部署搭建爬蟲管理系統（上）

在公司裏面，除了會要寫爬蟲，還要會知道如何搭建爬蟲管理系統~ GitHub：https://github.com/scrapy/scrapyd API 文檔：http://scrapyd.readthedocs.io/en/stable/

飞向天空的鹰

2020-06-16 16:29:51

自動化測試工具 - Appium

一、簡單介紹一、測試對象 appium 是一個自動化測試開源工具，支持iOS和 Android平臺上的原生應用，web應用和混合應用。 ● 移動原生應用：單純用ios或者android開發語言編寫的、針對具體某類移動設備、可直接被安裝

飞向天空的鹰

2020-06-16 16:29:51

Python爬蟲學習日記：模擬帶有cookie的登陸

Python爬蟲學習日記：模擬登陸 #! /usr/bin/env python #coding=utf-8 import urllib2,urllib,cookielib def login(): #第一部分是通過預

2020-06-14 10:09:46

愛詞霸每日一詞爬取

要爬取的目標網站是金山詞霸的每日一句欄目本人熱衷英語學習，同時覺得其使用的圖片以後可以當做素材，作爲一個什麼限制也沒有的基礎網站，學習爬蟲的初學者拿這個網站試手就很好。本次爬蟲所要爬取的內容包括每日一句的英文，翻譯，以及對應的

2020-06-11 05:21:43

基於Python的OCR圖像識別

飞向天空的鹰

2020-05-22 09:52:02

一隻Python小爬蟲的Linux定時任務之旅

2020-04-27 04:12:07

python小爬蟲—抓取pixabay網站的圖片資源

2020-02-22 06:37:11

python小爬蟲—獲取學校教務處成績

2020-02-22 06:37:11

Python 以指定寬度格式化輸出（format）

2020-02-22 02:27:18

網頁解析庫 Beautifull Soup 常用方法

2020-02-22 02:27:18

python 不換行輸出

2020-02-22 02:27:18

24小時熱門文章

最新文章

最新評論文章