Python爬蟲實戰:抓取淘寶MM照片

本篇目標

1.抓取淘寶MM的姓名,頭像,年齡

2.抓取每一個MM的資料簡介以及寫真圖片

3.把每一個MM的寫真圖片按照文件夾保存到本地

4.熟悉文件保存的過程

1.URL的格式

在這裏我們用到的URL是 http://mm.taobao.com/json/request_top_list.htm?page=1,問號前面是基地址,後面的參數page是代表第幾頁,可以隨意更換地址。點擊開之後,會發現有一些淘寶MM的簡介,並附有超鏈接鏈接到個人詳情頁面。

我們需要抓取本頁面的頭像地址,MM姓名,MM年齡,MM居住地,以及MM的個人詳情頁面地址。

2.抓取簡要信息

相信大家經過上幾次的實戰,對抓取和提取頁面的地址已經非常熟悉了,這裏沒有什麼難度了,我們首先抓取本頁面的MM詳情頁面地址,姓名,年齡等等的信息打印出來,直接貼代碼如下

運行結果如下

QQ截圖20150220234132

2.文件寫入簡介

在這裏,我們有寫入圖片和寫入文本兩種方式

1)寫入圖片

2)寫入文本

3)創建新目錄

3.代碼完善

主要的知識點已經在前面都涉及到了,如果大家前面的章節都已經看了,完成這個爬蟲不在話下,具體的詳情在此不再贅述,直接帖代碼啦。

以上兩個文件就是所有的代碼內容,運行一下試試看,那叫一個酸爽

 

看看文件夾裏面有什麼變化

QQ截圖20150221020709

 


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章