Python爬虫-换行的匹配

原創

2021-12-25 21:46

之前在学习爬虫的时候遇到了匹配内容时发现存在换行，这时没法匹配了，后来在网上找到了一种方法，当时懒得记录，今天突然有遇到了这种情况，想想还是在这里记录一下吧。

当时爬取的时csdn首页博客，如下图

看了源代码，发现如果使用<a href="....来爬取的话，这样得到的会有许多其他的网址，并不全是我需要得博文，但是用<div class="title">去匹配后面的又出现了换行，但是换行匹配我又不会。。。。

re.compile()函数的一个标志参数叫re.DOTALL，它可以让正则表达式中的点（.）匹配包括换行符在内的任意字符。

pat = ' <div class="title">.*?<h2>.*?<a href="(.*?)" target="_blank"'   # 此时的.就可以匹配包括换行在内的任意字符
rst1 = re.compile(pat, re.DOTALL).findall(data)

import urllib.request
import re

url = "http://www.csdn.net/"
data = urllib.request.urlopen(url).read().decode("utf-8")
print(len(data))
pat = ' <div class="title">.*?<h2>.*?<a href="(.*?)" target="_blank"'
rst1 = re.compile(pat, re.DOTALL).findall(data)
print(len(rst1))
for i in range(0, len(rst1)):
    print(rst1[i])
    data = urllib.request.urlopen(rst1[i]).read().decode("utf-8", "ignore")
    urllib.request.urlretrieve(rst1[i], "D:\\python\\studyPython\\爬虫学习\\学习urllib\\blog\\"+str(i+1)+".html")
    print("爬取第：", i+1, "篇博客成功")
print("首页所有博客爬取结束")

此时则爬取成功

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

利用pyinstaller打包Python程序为一个可执行文件

有時，Python發佈的程序需要被打包爲一個文件夾、甚至一個文件發佈。目前（2020）最佳的策略是使用pyinstaller。 pyinstaller不僅支持打包整個運行環境到一個可執行文件，而且還支持加密。但唯一的問題是，必須依賴

2024-05-14 02:04:34

做开发我是认真的！要么不做，要么全力以赴 | 每日趣闻

戳一戳小程序查看更多！往期趣聞 ☞你拖後腿了嗎？11 月份程序員工資出爐~ | 每日趣聞 ☞計算機專業會修電腦實錘！| 每日趣聞 ☞IT 行業這麼廣，你的職業規劃是什麼？| 每日趣聞 ☞奔潰啦~希望 Python 可

2024-05-14 01:47:34

anaconda和pycharm区别是什么?Python学习!

　　學習Python的人，肯定聽說過anaconda和pycharm，但是很多人傻傻分不清楚它們之間有什麼區別，今天小編帶大家好好了解一下。　　Anaconda：　　是一個Python發行版，包含了conda、Python等180多個

2024-05-14 01:47:30

Python爬虫进阶必备 | MD5 hash 案例解析汇总（一）

上次鹹魚對關於 MD5 hash 的JS加密方法做了總結，這次把鹹魚遇到的 MD5 hash 的案例做了彙總，這個彙總系列會持續更新，攢到一定數量的網站就發一次。關於 MD5 HASH 的處理可以參考下面這篇文章： Python爬蟲進

2024-05-14 01:40:15

为程序员和新手准备的 8 大 Python 工具

Python 是一種開源編程語言，用於 Web 編程、數據科學、人工智能和許多科學應用。學習 Python 使程序員能夠專注於解決問題，而不是專注於語法，其豐富的庫賦予它完成偉大任務所需的力量。 1) IDLE 安裝 Python 時

2024-05-14 01:06:43

【编测编学】自动化测试面试必背（上）

1、你會封裝自動化測試框架嗎？這個問得最多，甚至有很多公司直接寫在招聘要求中。自動化框架主要的核心框架就是分層+PO模式：分別爲：基礎封裝層BasePage，PO頁面對象層，TestCase測試用例層。然後再加上日誌處理模塊，ini配置文

2024-05-14 00:41:23

树莓派真是个让人欲罢不能的“小妖精”

大晚上不睡覺、枸杞泡起來@我一個月之前、自從入了樹莓派4b 8g板之後、就無法自拔，上班除了開發業務代碼和搭建內部UI組件庫之外，就是不亦樂乎的學習docker、mysql、mongodb、php、python、frp等，採購了阿里雲E

2024-05-14 00:37:28

用python画出全球疫情趋势变化图

前言文的文字及圖片來源於網絡,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。作者：謙睿科技 PS：如有需要Python學習資料的小夥伴可以加點擊下方鏈接自行獲取http://t.cn/A6Z

2024-05-14 00:03:10

复杂嵌套字典数据结构处理库-glom

經常遇到複雜嵌套字典數據，我們都是這麼寫的 data = {'a': {'b': {'c': 'd'}}} print(data['a']['b']['c']) 'd' 然後經常遇到這個bug data2 = {'a': {'b':

2024-05-13 22:58:14

我宣布，这是我找到的史上AI最全论文体系！

在碎片化閱讀充斥眼球的時代，越來越少的人會去關注每篇論文背後的探索和思考。搞AI，不少人都進入一個誤區，那就是隻鑽研自己的代碼是否精進，而沒有注意提升自己的閱讀能力。實際上，一個專業的學術研究員或者AI研究員可能需要花費幾百個小

2024-05-13 21:33:50

OpenCV入门基础操作（一）----图像的读取、显示与保存

OPENCV入門基礎操作（一）圖像的處理讀入圖像顯示圖像保存圖像直接上整體代碼示例圖像的處理剛開始學習opencv 圖像處理，希望能夠多多提出寶貴意見，我也在一步一步地學習下去。堅持！這一講主要就是一

2024-05-13 21:17:21

安装Auto-GPT

安裝 Python 3.8 或更高版本 https://phoenixnap.com/kb/how-to-install-python-3-ubuntu # 查看是否已經安裝了python python --version #更新包 sud

2024-05-12 22:43:51

云效 Pipeline as Code 来了！这些场景，用好它效率翻倍！

從可視化編排到支持 YAML 編排雲效流水線 Flow 是開箱即用的企業級持續集成和持續交付工具，支持豐富的代碼源、構建、自動化測試工具、多種部署類型和部署方式，與阿里雲深度集成，還提供多種企業級特性，助力企業高效完成從開發到上線 CIC

2024-05-11 21:15:05

通义灵码企业版正式发布，满足企业私域知识检索、数据合规、统一管理等需求

5 月 9 日阿里雲 AI 峯會，阿里雲智能集團首席技術官周靖人宣佈，通義靈碼企業版正式發佈，滿足企業用戶的定製化需求，幫助企業提升研發效率。通義靈碼是國內用戶規模第一的智能編碼助手，基於 SOTA 水準的通義千問代碼模型 Code-Qw

2024-05-11 21:15:01

用Python写的udp聊天器

說明在一個電腦中編寫1個程序，有2個功能 1.獲取鍵盤數據，並將其發送給對方 2.接收數據並顯示並且功能數據進行選擇以上的2個功能調用要求實現上述程序參考代碼 import socket def s

2024-05-11 12:30:57

24小時熱門文章

最新文章

最新評論文章