天貓雙12爬蟲(福利:266萬條商品數據免費下載)

前言:

繼:《天貓雙11爬蟲(福利:212萬條商品數據免費下載)》

12 鏈接:http://pan.baidu.com/s/1bPV2u6 密碼:t803
12 鏈接:http://pan.baidu.com/s/1gf5IOlt 密碼:gs50
12 鏈接:http://pan.baidu.com/s/1qXWo9Zm 密碼:hfwt
12 鏈接:http://pan.baidu.com/s/1eS82C9c 密碼:r9me
程序:Github-Tmall1212

本爬蟲主要抓取參與天貓雙12的商品數據,之前已經抓過雙11的數據了,有興趣做分析等研究用途的,可以拿去用。
本來這種活動數據時效性是比較高的,今天早上也已經把數據抓取完畢,但雙12恰逢公司新品發佈會。白天一直沒空,晚上吃完飯回來就趕緊整理數據了。另外京東的數據不像天貓,參與活動的商品和未參與活動的商品是混在一起的,所以京東就沒有抓了,望見諒。



數據說明:

數據和雙11那份數據類似,也是主要有原始數據、活動數據、參數數據和圖片數據。

天貓雙12商品原始數據:
數據量:230801條、227356條。
說明:裏面包括兩份原始數據,是從網頁中初步解析下來後的json文件,它是接下來三份數據的原始數據,信息最全,但也包含的很多無用字段。商品原始數據1.json主要是商品分類信息(例如一個手機商品,有內存、顏色、套餐等分類),商品原始數據2.json主要是雙12活動的數據(例如內存A+顏色B+套餐C的手機,原價、現價、雙12優惠信息等)。兩個文件的每一條json都有個_id,它是商品ID,可以對照着網頁上顯示的數據查看各字段代表的意義。(商品鏈接形如:https://detail.tmall.com/item.htm?id=538420191509


天貓雙12商品活動數據:
數據量:2660485條。
說明:爬下來的商品ID總共是23萬條,但是每一個商品,例如手機,它有內存、顏色、套餐等分類,選擇不同的內存或者顏色,它們的價格和優惠活動都可能不同。所以選擇不同的套餐,都會產生一條獨立的活動數據。
天貓雙12商品活動數據


天貓雙12商品參數數據:
數據量:230154條。
說明:在天貓或淘寶商品頁面中,套餐和詳細介紹之間,有一個“商品參數”,此爲該參數數據。
天貓雙12商品參數數據


天貓雙12商品圖片數據:
數據量:3182177條。
說明:在商品介紹中有各種圖片,此爲該圖片數據。
天貓雙12商品圖片數據



代碼說明:

上面給出的是雙12爬蟲的代碼,雙11的爬蟲代碼大部分類似,可能平時也照樣能夠抓取數據。下面逐步解釋:

  1. 程序主要分爲兩個步驟:從活動主頁面入手,抓取到所有商品ID;根據商品ID抓取並解析商品信息。
  2. 雙12活動主頁面,裏面有35個分會場,將鏈接解析放在 urldict.py。程序從分會場開始抓。
  3. 分會場的頁面中,有些可點擊進入商品詳情頁,有些可點擊進入商店主頁。進入商店主頁以後可點擊進入商品詳情頁。所以我們從分會場的主頁可解析到部分商品ID,以及部分商店URL,進入商店URL再獲取其他商品ID。彙總起來就是所有商品ID了。
  4. 但是天貓加載數據的方式有幾種,一個是直接放在html中,一個是通過json加載,或者兩者都用。所以在解析各分會場主頁也好,解析商店住而已也好,幾種情況都要做解析。
  5. step1.py解析各個分會場,step2.py解析appids(appids可構造json的請求URL,即處理step1.py裏面的json調用),step3.py解析商店數據(從裏面解析出商品ID,或json的url),step4.py處理商店中的json調用。4個步驟獲取完所有商品ID。
  6. crawl_detail.py根據商品ID抓取商品頁面,未解析。crawl_property根據商品ID抓取商品的參數數據,帶解析。
  7. parser.py解析crawl_detail.py拿到的頁面。至此,任務完成。
  8. crawl_img.py可根據圖片數據去下載圖片,一般人都不需要下這些圖片吧。

代碼時效性比較高,未作特別詳細的介紹,有興趣的可以跑一下,有疑問請留言。



注:我的CSDN博客正在評選“CSDN2016博客之星”,希望可以投我一票,謝謝!(投票鏈接:http://blog.csdn.net/vote/candidate.html?username=Bone_ACE

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章