爬蟲到底可以有多簡單—python來告訴你

我們先來看看到底什麼是爬蟲
網絡爬蟲(又稱爲網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱爲網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。
以上是百度百科的說法。在我看來其實可以更簡單,人工訪問網頁—>代碼程序訪問
先來看一下人是如何訪問網頁的:以訪問百度搜索首頁爲例
在這裏插入圖片描述
那要是用代碼進行訪問呢?

import requests
content = requests.get("https://www.baidu.com/")

不帶導入庫,就一行代碼,是不是感覺如此簡單。(當然這裏很多事情都是庫來幫我們完成的,但那不要緊,我們不是會用庫就行嗎?我也時常感覺python的靈魂其實就是一行代碼,pip install …。哈哈…,有點扯遠了。)
上面的那行代碼雖然只做了一件事情:幫我們按下了Enter。雖然就這麼簡單的一件事情,我們卻完成了一次跨越,一次偉大的跨越。那就是我們已經開啓了爬蟲的大門。

到底行不行呢?還是我們在這裏瞎扯淡呢,看看結果。

print(content.text)   //顯示返回的文本內容

在這裏插入圖片描述
是不是,把我們看到的頁面內容都給我展示出來了。
就這樣,我們就實現了自己的第一個爬蟲,看看用python實現爬蟲是多麼的簡單。
作爲入門我就感覺這就夠了,我們就是要訪問頁面,看到返回就可以了。
你可能會有疑惑,這和我們在頁面中看到的不一樣啊。頁面中只顯示了我們紅色框內的文本,並沒有這麼多內容啊。
因爲我們在瀏覽器中看到的是一個漂亮的頁面,那些我們不關心的文本就是爲了渲染整個頁面用的,不信的話,你使用chrome瀏覽器打開頁面之後,右擊檢查。
在這裏插入圖片描述
在這裏插入圖片描述
可以看到,其實內容還是蠻多的,內容跟我們使用程序訪問的結果類似,都是包含了大量的文本信息。
那我們怎麼去除這些沒有的格式文本信息,提取處我們想要的文本呢?
且聽下回分解。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章