詳細實例：用python爬蟲爬取幽默笑話網站！（建議收藏）

原創

2020-02-22 20:47

前言：

今天爲大家帶來的內容是詳細實例：用python爬蟲爬取幽默笑話網站！（建議收藏），文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下!

                        爬取網站爲：http://xiaohua.zol.com.cn/youmo/

查看網頁機構，爬取笑話內容時存在如下問題：

1、每頁需要進入“查看更多”鏈接下面網頁進行進一步爬取內容每頁查看更多鏈接內容比較多，多任務進行，這裏採用線程池的方式，可以有效地控制系統中併發線程的數量。避免當系統中包含有大量的併發線程時，導致系統性能下降，甚至導致 Python 解釋器崩潰，引入線程池，花費時間更少，更效率。

創建線程池threadpool.ThreadPool()
創建需要線程池處理的任務即threadpool.makeRequests()，makeRequests存放的是要開啓多線程的函數，以及函數相關參數和回調函數，其中回調函數可以不寫（默認是無）
將創建的多個任務put到線程池中,threadpool.putRequest()
等到所有任務處理完畢theadpool.pool()

2、查看鏈接笑話頁內容，div元素內部文本分佈比較混亂。有的分佈在<p>鏈接內有的屬於div的文本，可採用正則表達式的方式解決。

注意2種獲取元素節點的方式：

1）lxml獲取節點字符串

12192974-7ebf765f6e443efa

詳細實例：用python爬蟲爬取幽默笑話網站！（建議收藏）

2）正則表達式寫法1，過濾回車、製表符和p標籤

12192974-bcf94a0c93cb793d

詳細實例：用python爬蟲爬取幽默笑話網站！（建議收藏）

3）正則表達式寫法2，過濾回車、製表符和p標籤

12192974-41dacd1f472c4fd6

詳細實例：用python爬蟲爬取幽默笑話網站！（建議收藏）

3、完整代碼

index.py

12192974-98716fe95f4b4864

詳細實例：用python爬蟲爬取幽默笑話網站！（建議收藏）

12192974-cecff22dbf1acf6f

詳細實例：用python爬蟲爬取幽默笑話網站！（建議收藏）

12192974-ef92796fd7ea6fef

詳細實例：用python爬蟲爬取幽默笑話網站！（建議收藏）

runscrapy.py

12192974-3b916ce2bfcdec78

詳細實例：用python爬蟲爬取幽默笑話網站！（建議收藏）

運行如下:

12192974-21de91e551cf8f3e

詳細實例：用python爬蟲爬取幽默笑話網站！（建議收藏）

總共1988個文件，下載完成。

12192974-ee6ff0ab94210cda

詳細實例：用python爬蟲爬取幽默笑話網站！（建議收藏）

以上就是本文的全部內容，希望對大家的學習有所幫助。

python程序員交流羣：877562786(羣裏含大量學習資料，面試寶典等）

發佈了210 篇原創文章 · 獲贊 38 · 訪問量 3萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

芯片產業管理和營銷指北（3）—— 贏得客戶

注意：本文是依據俞志宏老師的《我在硅谷管芯片：芯片產品線經理生存指南》一書閱讀後歸納總結得到。可以試做此書的讀後感，對芯片產業感興趣的同僚強烈推薦此書爲什麼要見客戶和客戶面對面主要是獲取與客戶相關的各類信息，包含但不限於：市

2024-06-09 14:34:09

【stars-one】星念輕小說下載器

原文: 【stars-one】星念輕小說下載器-Stars-One的雜貨小窩一款將在線輕小說保存到本地的下載工具軟件介紹小說單卷下載小說全卷下載(需VIP) 多線程解析和下載下載導出爲epub文件自動更新軟件使用前需要進行

2024-06-09 14:22:28

shell編程相關的

shell腳本獲取腳本所在目錄執行腳本的父目錄不一定是當前的工作目錄。 url=$(dirname $(readlink -f $0))

2024-06-09 14:16:47

kvm鏈接克隆虛擬機遷移到openstack機器的實驗

總結如果是完整克隆的那種虛擬機，是可以直接在openstack使用的，如果鏡像格式沒問題的話。因爲kvm虛擬機大部分都是鏈接克隆出來的鏡像，不可用直接複製使用，所以需要創建新的鏡像文件創建空盤：qemu-img creat

2024-06-09 14:16:47

【Python】DQN處理CartPole-v1

DQN是強化學習中的一種方法，是對Q-Learning的擴展。通過引入深度神經網絡、經驗回放和目標網絡等技術，使得Q-Learning算法能夠在高維、連續的狀態空間中應用，解決了傳統Q-Learning方法在這些場景下的侷限性。 Q-Le

2024-06-09 14:14:07

P1355 神祕大三角（凸包）

P1355 神祕大三角 - 洛谷 | 計算機科學教育新生態 (luogu.com.cn) 隊友推薦的，算是入門凸包，就是用叉積判斷一下點是否相對每條邊都在凸包的邊的左側。 1 #include <bits/stdc++.h> 2

2024-06-09 14:13:17

前端使用 Konva 實現可視化設計器（13）- 折線 - 最優路徑應用【思路篇】

這一章把直線連接改爲折線連接，沿用原來連接點的關係信息。關於折線的計算，使用的是開源的 AStar 算法進行路徑規劃，啓發方式爲曼哈頓距離，且不允許對角線移動。請大家動動小手，給我一個免費的 Star 吧~ 大家如果發現了 Bug，歡

2024-06-09 14:10:57

生產計劃範圍的擴展 - 工單的拆分與合併

背景　　在過往與不少合作伙伴們，就生產計劃項目方案的討論中，經常提及這樣的一種情況： “我們在編制生產計劃時，有些數量較大的訂單，需要拆分成多個子訂單，這樣才能利用多個資源並行加工，以縮短生產週期，提高資源利用率” - 我們稱爲【工單拆分

2024-06-09 14:09:57

APS系統設計經驗分享(時間推導II - 2023.09)

　　在前一篇關於APS系統設計分享文章(《APS系統設計經驗分享(時間推導 - 2023.03)》)中，我們提到將會分享使用OptaPlanner作爲規劃引擎開發APS系統過程中，遇到的一些時間相關的設計建議與異常情況分析。後來一直忙於項目

2024-06-09 14:09:57

排程過程中任務鎖定的外延與內涵

在生產排程過程中，除了可以藉助強大的算法，與優質的規劃模型對待排任務進行排產優化外，還會遇到一些需要人爲鎖定部分任務的情況。無論是APS系統開發人員，還是排產作業人員，在常見的認識中，對於“鎖定”概念的理解，第一反應就是把任務固定到某個資源

2024-06-09 14:09:57

排程系統中關於任務優先級的需求延伸與設計構思

無論是面向銷售訂單的MPS，還是基於多工序制約關係的APS，還是具體車間生產中針對單一工序的任務作業調度優化，都存在基於被排程對象(例如銷售訂單、生產工單、工序任務)的優先級進行優化的需求場景。當我們僅在宏觀、較高層次的角度考慮，任務優先級

2024-06-09 14:09:57

從零手寫實現 nginx-11-文件處理邏輯與 range 範圍查詢合併

前言大家好，我是老馬。很高興遇到你。我們爲 java 開發者實現了 java 版本的 nginx https://github.com/houbb/nginx4j 如果你想知道 servlet 如何處理的，可以參考我的另一個項目：

2024-06-09 14:02:36

nginx快速分析日誌並找出攻擊IP

第一步：分析NGINX日誌分析日誌主要目的是尋找那些異常活躍的IP地址，通過以下命令可以快速找出。 cat access.log | awk '{print$1}' |sort|uniq -c|sort -rn|head -10 命

2024-06-09 13:59:16

Vue CLI 4與項目構建實戰指南

title: Vue CLI 4與項目構建實戰指南 date: 2024/6/9 updated: 2024/6/9 excerpt: 這篇文章介紹瞭如何使用Vue CLI優化項目構建配置，提高開發效率，涉及配置管理、項目部署策略、插件系

2024-06-09 13:40:15

Vue第三方庫與插件實戰手冊

title: Vue第三方庫與插件實戰手冊 date: 2024/6/8 updated: 2024/6/8 excerpt: 這篇文章介紹瞭如何在Vue框架中實現數據的高效驗證與處理，以及如何集成ECharts、D3.js、Chart.

2024-06-09 13:40:15

24小時熱門文章

最新文章

最新評論文章