使用python寫糗事百科的爬蟲

   最近看了一些利用python來寫一些網站的爬蟲以自動下載和排版的文章,於是自己動手也寫一個,網絡上很多的版本都無法正常運行,因爲糗事百科現在不能直接使用url去使用爬蟲了,必須要僞裝成瀏覽器來下載。所以必須要加工一下現有的版本才行。

   經過一下午的查看資料和手動測試,終於實現了,截圖爲證:

wKiom1MlfBXDC84vAAB33wc5CQI752.png

下面是直接在python GUI/IDLE裏運行的結果

wKioL1MlfIrjyIA4AAD1-GQJEJ8809.png


可以直接運行的代碼,在http://down.51cto.com/data/1102905,感興趣可以來嘗試看看,以下是一個最簡單的直接抓取整個糗事百科的所有源代碼的demo,提供下載的版本已經使用正則表達式做過了精細的處理,效果如上圖。

# python 2.7.5
import urllib2
myUrl = "http://m.qiushibaike.com/hot/page/"
headers = ('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safari/537.36 LBBROWSER')
opener = urllib2.build_opener()
opener.addheaders = [headers]
data = opener.open(myUrl).read()
print data


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章