Python爬蟲學習

1. 爬蟲-學習

  1. 網頁基礎
  2. 文件存儲
  3. 文件命名
  4. 正則表達式-常用規則
  5. 正則表達式-貪婪模式和非貪婪模式
  6. 正則表達式-替換模式sub
  7. 正則表達式-模塊compile和match
  8. DOM操作器XPATH
  9. 小實例
  10. HTTP基本原理
  11. Chrome輔助工具-Inspector -Elements
  12. Chrome輔助工具-Inspector -Console
  13. Chrome輔助工具-Inspector -Network
  14. Chrome輔助工具-Inspector -Sources和Application
  15. Chrome輔助工具-JSONView
  16. Chrome輔助工具-POSTMAN
  17. Robots協議(分析網站結構)
  18. Sitemap(分析網站結構)
  19. (找不到Sitemap)網站結構分析
  20. 定製抓取
  21. 案例:BBS網站介紹
  22. 案例:單一版面列表抓取
  23. 案例:所有版面列表抓取
  24. 案例:主題列表分析
  25. 案例:主題列表分頁抓取
  26. 案例:主題列表內容抓取
  27. 案例:主題內容詳情抓取
  28. 案例:控制抓取節奏
  29. 爬蟲學習:MySQLConnection
  30. 爬蟲學習:MySQLCursor
  31. 案例:爲BBS網站創建表前奏(有點問題)

2. 爬蟲-擴展

  1. 爬蟲學習:亂碼處理
  2. 爬取網頁時調用tostring()中文亂碼("&#數字;")解決方案
  3. 使用Postman發送請求Preview不能正常顯示中文
  4. lxml庫中etree.HTML()和etree.tostring()用法
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章