python爬蟲第一天

學習爬蟲我參考的是崔慶才爬蟲入門,昨天晚上安裝好了redis、mongodb等軟件,今天正式開始學習py爬蟲
一、介紹庫名:
1、urllib庫和re庫,安裝python時自動安裝
urllib是Python自帶的一個用於爬蟲的庫,其主要作用就是可以通過代碼模擬瀏覽器發送請求。
re是一個正則庫
2、requests庫
equests是python實現的簡單易用的HTTP庫,使用起來比urllib簡潔很多
3、selenium庫
如果網頁中有js動態程序,那麼爬蟲就會遇到阻力,這時就要使用selenium庫,驅動瀏覽器推動瀏覽器渲染
(1) driver = webdriver.Chrome() 時報錯
在這裏插入圖片描述
這時我們需要安裝chromed’river包
4、plantomjs
chromedriver老是出來界面也很麻煩,這是我們需要一種軟件不顯示網站消息,
5、解析庫:lxml
有了網站源碼之後我們還需要解析源代碼,這時我們可以使用
6、解析庫:beautifulsoup
依賴lxml
7、解析庫:pyquery
也是一個網絡解析庫,語法和jquery一樣
8、存儲庫:pymysql
pymongo
redis
9、框架(類似java的springmvc、mybatis、。。。,是py的web框架):flask
外部庫,用它來做代理的獲取、代理的存儲之類的
框架:django
Python下有許多款不同的 Web 框架。Django是重量級選手中最有代表性的一位。
外部服務器框架,提供接口路由模板管理引擎,分佈式爬蟲的維護,做一個管理系統:主機信息、
10: jupyter:相當與一個notebook,這個記事本功能強大,可以運行在網頁端,形成一個代碼記錄,實現在線運行代碼,並且支持markdown格式

問:我們通過request請求響應得到的原代碼和我們F12瀏覽器得到element是有差距的,原因就是這是經過js渲染的代碼,那麼我們怎麼解決這個問題呢?
答:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章