python爬蟲要點

原創

2020-02-23 05:21

2020年2月18-2020年2月22日學習五天python爬蟲，列出要點如下
1、爬取html文件的內容注意要把換行符去掉,因爲正則表達式沒有代表‘\n’的符號
html=re.findall(’\n’,’’,html)
2、如果html文件沒有下載在本地，是不能直接使用open讀取的
with open(‘http:\…’,‘r’,encoding=‘utf-8’) as f
這句是會報錯的，並不會從網站下載一個鏈接
正確的用法是用使用requests庫打開html
requests.get(url)
3、re庫比lxml.etree寫起來代碼要多一些，但是re庫對註釋的內容也能夠檢索，而lxml.etree對註釋的內容無法檢索。對html文件內容進行註釋也是一種反扒策略。
4、模擬登陸會使用cookie，模擬瀏覽器時會使用user-agent.
5、每次發送request不要使用相同的user-agent，否則會被視爲爬蟲並被封鎖IP。
6、反爬90%會針對cookie入手，爬蟲沒有辦法提供很多個實際用戶，因此這一點比較難處理。解決方法是，使用chrome瀏覽器無痕模式時候提供的cookie。無痕模式時用戶無需提供實際賬號即可登錄網站。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python爬蟲要點

IT狗養成記

機器學習

傳感器技術

電子系統工程

爬蟲實踐1：獲取mooc主頁課程

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結