爬蟲的簡單筆記

爬蟲流程:

①先由urllib的request打開Url得到網頁html文檔

②瀏覽器打開網頁源代碼分析元素節點

③通過Beautiful Soup或則正則表達式提取想要的數據

④存儲數據到本地磁盤或數據庫(抓取,分析,存儲)

try:password——>text

div,dd,等都是類似於包的存在
class = “” 是屬性

xx.find_all(‘xx’,id=’’,class_=’’)
xx.content
chunk下載

其他後補。。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章