Python爬蟲--通用框架

前言：
相信不少寫過Python爬蟲的小夥伴，都應該有和筆者一樣的經歷吧_{只要確定了要爬取的目標，就開始瘋狂的寫代碼，寫腳本}經過一番努力後，爬取到目標數據；但是回過頭來，卻發現自己所代碼複用性小，一旦網頁發生了更改，我們也不得不隨之更改自己的代碼，而卻自己的程序過於腳本化，函數化，沒有采用OPP的思維方式；沒有系統的框架或結構。
指導老師看了筆者的爬蟲作品後，便給出了以下三點建議：
（1）爬蟲爬取的數據根據需要存數據庫或直接寫入.csv文件；
（2）爬蟲程序包括控制程序、URL調度器、頁面加載器、頁面分析器、數據處理器等，儘量用OOP的思想，寫成類，便於擴充，而不要直接全寫成腳本；
（3）控制程序最好使用一個用戶界面，用於設置開始爬取的頁面、數據存放位置、顯示爬取情況等。
由於筆者知識和能力有限，剛聽到這些建議時，很難明白他的意思，而筆者還偏執的認爲既然已經成功的爬取到目標數據，也就沒什麼要做的啦，已經OK啦_{直到昨天看了這個http://www.imooc.com/learn/563關於Python爬蟲的課程後，才徹底的理解了老師教的}課程裏系統的講解了爬蟲應有的框架和結構，使筆者收益匪淺，故在此總結，反思，希望對大家有幫助。
這裏先爲它，打個小廣告吧~筆者個人認爲，不管你是資深的Python爬蟲專家，還是才接觸爬蟲的新手，都應該來看一看，爲你以後的Python爬蟲工作添磚加瓦，廣告語“慕課網—程序員的夢工廠”。
PS:以下截圖，爲筆者再聽課時截圖整理所得，故圖片來源該課程的PPT
基於百度百科詞條，通用爬蟲源碼：https://github.com/NO1117/baike_spider
Python交流羣：942913325 歡迎大家一起交流學習
總結：
1.爬蟲思路