python爬蟲入門學習(一)合法爬取,拒絕牢飯。

python爬蟲入門學習(一)

什麼什爬蟲

其實爬蟲很好理解,互聯網好比是一張大網,在這張大網上有無數的站點,站點中有很多的數據信息。這時如果你需要獲取某個站點的大量的數據的時候,幾千幾百的數據量你可以人工,當熱這時候下載數據的人已經開始罵娘了。你完全可以利用計算器去做,爬蟲就是一個在互聯網上的一個蜘蛛,它可以根據你的需求讓它幫你,你就可以去花前月下了。。。。額。
注意:爬蟲數據獲取時必須合法,不然,”爬蟲用的溜,牢飯喫的飽“

如何利用python構建爬蟲

python的爬蟲使用我之後會在幾篇文章中給大家分別講解。
先看下分別pyhon對於爬蟲來說,給大家提供了那些工具,也就是因爲這些工具,爬蟲便利了不少,也有好多進去的人。。

  • 請求庫
    • urllib
    • requests
    • selenium
  • 解析庫
    • lxml
    • Beautiful Soup
    • pyquery
  • 存儲庫
    • pymysql
    • pymongo
    • redis / scrapy-redis
  • 圖像識別庫
    • tesserocer
  • 爬蟲框架
    • pyspider
    • scrapy

之後會不定期更新根據上面的分支,內容依次從簡答到複雜,也是自己重新溫習,也是分享的一次博客。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章