webscraper 抓數據需要的信息

1、要抓取的網址鏈接。
2、要抓取的信息字段,爲了不產生歧義,最好截圖標註一下~
3、如果有多頁,要說明抓多少頁

舉例——
需求概述:小明要抓取淘寶上關於酸奶的商品信息。
需要提供:

  1. 網站鏈接 —— 如何獲取?進入淘寶 www.taobao.com,然後搜索“酸奶”,出現的這個鏈接,就是爬蟲需要的鏈接,結果鏈接如下:
    https://s.taobao.com/search?q=%E9%85%B8%E5%A5%B6&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306
  1. 需要抓取這個頁面的所有商品,每個商品需要抓取的信息:
  • 產品名稱
  • 價格
  • 購買人數

具體截圖如下:

  1. 搜索結果一共有 100頁,只需要抓取前 5 頁即可。

ps:上面是個例子,具體情況,可以根據需求改變。比如抓取的字段不同,或者抓取頁數不一樣等

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章