python爬蟲要點

2020年2月18-2020年2月22日學習五天python爬蟲,列出要點如下
1、爬取html文件的內容注意要把換行符去掉,因爲正則表達式沒有代表‘\n’的符號
html=re.findall(’\n’,’’,html)
2、如果html文件沒有下載在本地,是不能直接使用open讀取的
with open(‘http:\…’,‘r’,encoding=‘utf-8’) as f
這句是會報錯的,並不會從網站下載一個鏈接
正確的用法是用使用requests庫打開html
requests.get(url)
3、re庫比lxml.etree寫起來代碼要多一些,但是re庫對註釋的內容也能夠檢索,而lxml.etree對註釋的內容無法檢索。對html文件內容進行註釋也是一種反扒策略。
4、模擬登陸會使用cookie,模擬瀏覽器時會使用user-agent.
5、每次發送request不要使用相同的user-agent,否則會被視爲爬蟲並被封鎖IP。
6、反爬90%會針對cookie入手,爬蟲沒有辦法提供很多個實際用戶,因此這一點比較難處理。解決方法是,使用chrome瀏覽器無痕模式時候提供的cookie。無痕模式時用戶無需提供實際賬號即可登錄網站。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章