爬蟲再使用場景中的分類
1.通用爬蟲:抓取系統重要組成部分。抓取的是一整張頁面數據。
2.聚焦爬蟲:是建立在通用爬蟲的基礎之上。抓取的是頁面中特定的局部內容。
3.增量式爬蟲:檢測網站中數據更新的情況。只會抓取網站中最新更細出來的數據。
爬蟲的矛盾
反爬機制:
相關的門戶網站通過定製相應的策略或者技術手段,防止爬蟲程序進行網站數據的爬取。
反反爬策略:
爬蟲程序通過制定相關的策略或者技術手段用來破解門戶網站具備的反爬機制,從而獲取門戶網站中的相關數據。
robots.txt協議
robots協議明確規定了網站中哪些數據可以被網站爬取,哪些數據不可以被爬取。
訪問方法:域名/robots.txt 例如:www.taobao.com/robots.txt
爬蟲帶來的風險:
1.爬蟲干擾了被訪問網站的正常運營。
2.爬蟲抓取了受到法律保護的特定類型的數據或信息。
如何在使用編寫爬蟲的過程中避免風險
1.時常優化自己的程序,避免干擾被訪問網站的正常運行。
2.在使用或者傳播爬取到的數據時,審查抓取到的內容,如果發現涉及到用戶隱私或者商業機密等敏感內容需要及時停止爬取或傳播。