Python爬蟲(爬取百度百科)

視頻網站:http://www.imooc.com/learn/563

python3源碼:https://github.com/zaxlct/baike_spider

 

程序主要分爲五部分:

spider_main爬蟲總調度程序

url_manager url管理器

html_downloader html下載器

html_parser html解析器

html_outputer輸出

 

在前兩個網站有詳細的教學。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章