爬蟲--糗百

想必大家在搜爬蟲教程的時候都看到這一篇爬糗百教程
http://python.jobbole.com/81351/

這個教程很贊,但這是15年的,裏面有些地方要調整,照搬的話可能會掉坑裏去,比如我

先貼一個我改編後的代碼
這裏寫圖片描述
說一下坑:

  1. 13行中用到了decode和encode.原因是按照教程代碼的話,中文會顯示亂碼,編碼這個問題是老大難了,一直都沒有細細地去研究。總之是先解碼爲utf-8,然後再編碼成gbk,這裏有個ignore參數,一定要加。因爲抓取的頁面中有不能編碼成gbk的內容,我們就忽略掉
  2. 14行的正則表達式匹配模式,這個要自己去學正則表達式,重新匹配。原教程匹配的內容跟他想要的差距甚大。我這裏是抓取了作者,內容,好笑值,評論數這四項,並進行了格式化優雅顯示

下面是將代碼做成類
這裏寫圖片描述
這裏寫圖片描述
這裏寫圖片描述
然後運行代碼

qiubai = QSBK()
qiubai.start()

就行了,效果圖如下

這裏寫圖片描述

注意,一開始我以爲是1頁1個段子,看到好多第1頁覺得哪裏出問題了。後來才醒悟,1頁有好多段子,不只一個(衰)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章