python 爬蟲網頁信息

1.爬取京東信息
在這裏插入圖片描述
2.爬取網頁的信息
很多網站對爬取有限制,比較隱形,查看網絡頭,是不是爬蟲請求的,是可以拒絕的.
在這裏插入圖片描述
查看頭部信息,可以看到頭部訪問,是可以拒絕的
在這裏插入圖片描述
所以我們構建鍵值對的,在更改頭部信息.在放在url中.
kv={‘user-agent’:‘Mozilla/5.0’}
在這裏插入圖片描述

3.百度/360搜索關鍵字提交
百度的關鍵字詞接口:
http://www.baidu.com/s?wd=keyword
360關鍵詞接口:
http://www.so.com/s?q=keyword
所以我們可以構造url就可以對關鍵詞提取
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章