python 爬蟲介紹

十八、爬蟲介紹

爬蟲介紹:

項目前幾乎搜索引擎都有爬蟲,蜘蛛

公司沒有數據可以通過爬蟲獲取

公司有競爭對手,可以通過爬競爭對手的網站,瞭解他們的動向

數據學習的必備技巧

 

爬蟲網站:

中國新聞網:(結構簡單,適用於練手)

http://www.chinanews.com/

百思不得:(帶有分頁)

http://www.budejie.com/

豆瓣網:

https://www.douban.com/

 

工具包介紹:

1request:

Requests: HTTP for Humans  (適合人類的http請求)

http://www.python-requests.org/   (官網,有中文文檔)

 

安裝:

pip install requests

 

2lxml包:(沒有中文,linux安裝費勁,windows.exe安裝)

http://lxml.de     (官網)

https://pypi.python.org/simple/lxml   (下載地址)

 

 

request包的使用:

x = get(url,headers,...) (模擬header可以破解反爬蟲)

x.text  (對網頁編碼自動解碼,但也有的不能)

x.content (獲取趴下來的原始的文檔)

 

發佈了49 篇原創文章 · 獲贊 60 · 訪問量 18萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章