【1】網絡爬蟲簡介

網絡爬蟲何時有用

假設我們有一個鞋店,並且想要及時瞭解競爭對手的價格。我們可以每天訪問他們的網站,與我們的價格進行對比。但是,如果我們店鋪只能夠的鞋類種類繁多,或者希望能夠更加頻繁地查看價格變化的話,就需要花費大量的時間,甚至難以實現。再舉一個例子,我們看中了一雙鞋,想要它促銷時再購買。我們可以等待幾個月的時間,我們才能如願盼到這雙鞋促銷。上面的情況,是重複性的手工流程,這些都是我們可以利用爬蟲技術來實現自動化處理的。





圖片

理想狀態下,網絡爬蟲並不是一種必須品,這是因爲每個網站都可能提供api,以結構化的方式共享他們的數據。然而在現實中,一些網站即使提供了api,依舊會限制我們抓取的速度,以及訪問頻率。這個時候我們就不能僅僅依靠api去得到我們所需要的在線數據,而應該利用網絡爬蟲技術。


圖片




圖片 圖片

背景調研

在深入研究一個網站之前,我們需要對目標網站的規模和結構有一定程度的瞭解。其中網站自身的robots.txt和Sitemap文件都可以提供一定的幫助,在此之外,一些工具可以給我們提供更加詳細的信息,比如google搜索和WHOIS


訪問網站的robots.txt文件,則只需要在網站的首頁地址後面加上/robots.txt,舉個栗子,如果我們要訪問https:www.baidu.com的robots.txt文件,則只需要在地址欄這樣填寫https:www.baidu.com/robots.txt


google搜索的技巧(百度類似),只需在域名前面加上site:即可查看該域名下的所有網址,舉個小栗子,在百度搜索框這樣填寫site:baidu.com

圖片 圖片

識別網站所用技

網站所使用的技術類型也會對我們如何爬取產生影響,這裏給大家安利一個非常有用的模塊---builtwith

pip install builtwith即可安裝,舉個小栗子

圖片 圖片

找到網站的擁有者

對於有一些網站,我們可能需要關心它的擁有者。比如,我們已知網站的所有者會封禁網絡爬蟲,那我們則需要下載速度控制的更加保守一些,爲了知曉網站的所有者,我們可以使用WHOIS協議查詢域名的詳細信息,給大家安利一個Python的封裝庫。pip install whois即可安裝

圖片


。。。這個,沒錯就是我註冊的域名,不過我乜用它,啊哈哈哈




最近開始專研Python爬蟲了,人生苦短,我用python


~~網上有許多mysql的教程,但是大多數基礎教程都是使用世界上最好的語言寫的demo

所以我在學習時就將自己寫的一些python小栗子記錄了下來

點擊這裏即可跳轉或者在後臺可以直接獲取所有的小教程


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章