天貓雙12爬蟲（福利：266萬條商品數據免費下載）

前言：

天貓雙12商品原始數據鏈接：http://pan.baidu.com/s/1bPV2u6 密碼：t803
天貓雙12商品活動數據鏈接：http://pan.baidu.com/s/1gf5IOlt 密碼：gs50
天貓雙12商品參數數據鏈接：http://pan.baidu.com/s/1qXWo9Zm 密碼：hfwt
天貓雙12商品圖片數據鏈接：http://pan.baidu.com/s/1eS82C9c 密碼：r9me
程序：Github-Tmall1212。

本爬蟲主要抓取參與天貓雙12的商品數據，之前已經抓過雙11的數據了，有興趣做分析等研究用途的，可以拿去用。
本來這種活動數據時效性是比較高的，今天早上也已經把數據抓取完畢，但雙12恰逢公司新品發佈會。白天一直沒空，晚上吃完飯回來就趕緊整理數據了。另外京東的數據不像天貓，參與活動的商品和未參與活動的商品是混在一起的，所以京東就沒有抓了，望見諒。

數據說明：

數據和雙11那份數據類似，也是主要有原始數據、活動數據、參數數據和圖片數據。

天貓雙12商品原始數據：
數據量：230801條、227356條。
說明：裏面包括兩份原始數據，是從網頁中初步解析下來後的json文件，它是接下來三份數據的原始數據，信息最全，但也包含的很多無用字段。商品原始數據1.json主要是商品分類信息（例如一個手機商品，有內存、顏色、套餐等分類），商品原始數據2.json主要是雙12活動的數據（例如內存A+顏色B+套餐C的手機，原價、現價、雙12優惠信息等）。兩個文件的每一條json都有個_id，它是商品ID，可以對照着網頁上顯示的數據查看各字段代表的意義。（商品鏈接形如：https://detail.tmall.com/item.htm?id=538420191509）

天貓雙12商品活動數據：
數據量：2660485條。
說明：爬下來的商品ID總共是23萬條，但是每一個商品，例如手機，它有內存、顏色、套餐等分類，選擇不同的內存或者顏色，它們的價格和優惠活動都可能不同。所以選擇不同的套餐，都會產生一條獨立的活動數據。

天貓雙12商品參數數據：
數據量：230154條。
說明：在天貓或淘寶商品頁面中，套餐和詳細介紹之間，有一個“商品參數”，此爲該參數數據。

天貓雙12商品圖片數據：
數據量：3182177條。
說明：在商品介紹中有各種圖片，此爲該圖片數據。

代碼說明：

上面給出的是雙12爬蟲的代碼，雙11的爬蟲代碼大部分類似，可能平時也照樣能夠抓取數據。下面逐步解釋：

程序主要分爲兩個步驟：從活動主頁面入手，抓取到所有商品ID；根據商品ID抓取並解析商品信息。
雙12活動主頁面，裏面有35個分會場，將鏈接解析放在 urldict.py。程序從分會場開始抓。
分會場的頁面中，有些可點擊進入商品詳情頁，有些可點擊進入商店主頁。進入商店主頁以後可點擊進入商品詳情頁。所以我們從分會場的主頁可解析到部分商品ID，以及部分商店URL，進入商店URL再獲取其他商品ID。彙總起來就是所有商品ID了。
但是天貓加載數據的方式有幾種，一個是直接放在html中，一個是通過json加載，或者兩者都用。所以在解析各分會場主頁也好，解析商店住而已也好，幾種情況都要做解析。
step1.py解析各個分會場，step2.py解析appids（appids可構造json的請求URL，即處理step1.py裏面的json調用），step3.py解析商店數據（從裏面解析出商品ID，或json的url），step4.py處理商店中的json調用。4個步驟獲取完所有商品ID。
crawl_detail.py根據商品ID抓取商品頁面，未解析。crawl_property根據商品ID抓取商品的參數數據，帶解析。
parser.py解析crawl_detail.py拿到的頁面。至此，任務完成。
crawl_img.py可根據圖片數據去下載圖片，一般人都不需要下這些圖片吧。

代碼時效性比較高，未作特別詳細的介紹，有興趣的可以跑一下，有疑問請留言。

注：我的CSDN博客正在評選“CSDN2016博客之星”，希望可以投我一票，謝謝！（投票鏈接：http://blog.csdn.net/vote/candidate.html?username=Bone_ACE）

天貓雙12爬蟲（福利：266萬條商品數據免費下載）

前言：

數據說明：

代碼說明：

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

公衆號5月C#/.NET熱文一覽

R語言零碎知識集合

我的爬蟲史

1號小爬蟲：普通的爬蟲，下載百度壁紙

SAS Visual Analytics（VA）安裝教程

python爬蟲學習記錄之報錯及解決方案

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結