1、要抓取的網址鏈接。
2、要抓取的信息字段,爲了不產生歧義,最好截圖標註一下~
3、如果有多頁,要說明抓多少頁
舉例——
需求概述:小明要抓取淘寶上關於酸奶的商品信息。
需要提供:
- 網站鏈接 —— 如何獲取?進入淘寶 www.taobao.com,然後搜索“酸奶”,出現的這個鏈接,就是爬蟲需要的鏈接,結果鏈接如下:
https://s.taobao.com/search?q=%E9%85%B8%E5%A5%B6&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306
- 需要抓取這個頁面的所有商品,每個商品需要抓取的信息:
- 產品名稱
- 價格
- 購買人數
具體截圖如下:
- 搜索結果一共有 100頁,只需要抓取前 5 頁即可。
ps:上面是個例子,具體情況,可以根據需求改變。比如抓取的字段不同,或者抓取頁數不一樣等