python爬蟲入門學習(一)
什麼什爬蟲
其實爬蟲很好理解,互聯網好比是一張大網,在這張大網上有無數的站點,站點中有很多的數據信息。這時如果你需要獲取某個站點的大量的數據的時候,幾千幾百的數據量你可以人工,當熱這時候下載數據的人已經開始罵娘了。你完全可以利用計算器去做,爬蟲就是一個在互聯網上的一個蜘蛛,它可以根據你的需求讓它幫你,你就可以去花前月下了。。。。額。
注意:爬蟲數據獲取時必須合法,不然,”爬蟲用的溜,牢飯喫的飽“
如何利用python構建爬蟲
python的爬蟲使用我之後會在幾篇文章中給大家分別講解。
先看下分別pyhon對於爬蟲來說,給大家提供了那些工具,也就是因爲這些工具,爬蟲便利了不少,也有好多進去的人。。
- 請求庫
- urllib
- requests
- selenium
- 解析庫
- lxml
- Beautiful Soup
- pyquery
- 存儲庫
- pymysql
- pymongo
- redis / scrapy-redis
- 圖像識別庫
- tesserocer
- 爬蟲框架
- pyspider
- scrapy