爬蟲到底可以有多簡單—python來告訴你

原創

2020-06-23 06:23

我們先來看看到底什麼是爬蟲
網絡爬蟲（又稱爲網頁蜘蛛，網絡機器人，在FOAF社區中間，更經常的稱爲網頁追逐者），是一種按照一定的規則，自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。
以上是百度百科的說法。在我看來其實可以更簡單，人工訪問網頁—>代碼程序訪問。
先來看一下人是如何訪問網頁的：以訪問百度搜索首頁爲例

那要是用代碼進行訪問呢？

import requests
content = requests.get("https://www.baidu.com/")

不帶導入庫，就一行代碼，是不是感覺如此簡單。（當然這裏很多事情都是庫來幫我們完成的，但那不要緊，我們不是會用庫就行嗎？我也時常感覺python的靈魂其實就是一行代碼，pip install …。哈哈…，有點扯遠了。）上面的那行代碼雖然只做了一件事情：幫我們按下了Enter。雖然就這麼簡單的一件事情，我們卻完成了一次跨越，一次偉大的跨越。那就是我們已經開啓了爬蟲的大門。

到底行不行呢?還是我們在這裏瞎扯淡呢，看看結果。

print(content.text)   //顯示返回的文本內容

是不是，把我們看到的頁面內容都給我展示出來了。
就這樣，我們就實現了自己的第一個爬蟲，看看用python實現爬蟲是多麼的簡單。
作爲入門我就感覺這就夠了，我們就是要訪問頁面，看到返回就可以了。
你可能會有疑惑，這和我們在頁面中看到的不一樣啊。頁面中只顯示了我們紅色框內的文本，並沒有這麼多內容啊。
因爲我們在瀏覽器中看到的是一個漂亮的頁面，那些我們不關心的文本就是爲了渲染整個頁面用的，不信的話，你使用chrome瀏覽器打開頁面之後，右擊檢查。

可以看到，其實內容還是蠻多的，內容跟我們使用程序訪問的結果類似，都是包含了大量的文本信息。
那我們怎麼去除這些沒有的格式文本信息，提取處我們想要的文本呢？
且聽下回分解。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

爬蟲到底可以有多簡單—python來告訴你

通用mapper的selectByPrimaryKey返回null的bug

爬蟲到底可以有多簡單—python來告訴你

Java中的System類中常用方法

IDEA總是打開Java的反編譯calss文件和無效的源發行版: 11的解決辦法

SpringBoot整合七牛雲實現文件以及圖片上傳

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結