1.爬取京東信息
2.爬取網頁的信息
很多網站對爬取有限制,比較隱形,查看網絡頭,是不是爬蟲請求的,是可以拒絕的.
查看頭部信息,可以看到頭部訪問,是可以拒絕的
所以我們構建鍵值對的,在更改頭部信息.在放在url中.
kv={‘user-agent’:‘Mozilla/5.0’}
3.百度/360搜索關鍵字提交
百度的關鍵字詞接口:
http://www.baidu.com/s?wd=keyword
360關鍵詞接口:
http://www.so.com/s?q=keyword
所以我們可以構造url就可以對關鍵詞提取