python抓页面基础知识

原創

2020-06-30 07:50

python抓页面基础知识

1.定义函数根据url获得页面

def getPageContent(self,url):
request = urllib2.Request(url)
response = urllib2.urlopen(request)
return response.read().decode('UTF-8')

2. 正则表达式匹配，re.S是dotall模式，意思是.表示所有字符的意思包括换行，（）是分组的意思

pattern = re.compile('<div class="d_author">.*?<ul class="p_author">.*?'+
'<li class="d_name".*?<a.*?'+
'target="_blank">(.*?)</a>',re.S)

content = re.findall(pattern, pagecontent)

3.第二步中的content是数组，通过循环将数据写到文件，item是tuple类型使用[]使用，item[0]为第一列数据，item[1]为第二列，以此类推。

f = open('1.txt','a+')
for item in content:
f.writelines((str(item[0])+str(item[1])+item[2].encode('UTF-8'),f)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

看不懂正则表达式？试试可视化工具吧！

1. 前言正則表達式是一種用來匹配字符串的強有力工具。設計思想是用一種描述性的語言來給字符串定義一個規則，凡是符合規則的字符串我們就認爲它“匹配”了，否則該字符串就是不合法的。日常開發中常常會使用正則表達式，例如：對數據格式進行校

2024-05-24 23:57:40

由浅入深在实践中玩转Zabbix，解决剩下20%的监控需求！

本文整理自Zabbix中級認證專家李銘栓（滿分學員）在Zabbix Meetup廣州站的演講。掌握這幾種監控方式解決80%的監控問題，剩下的20%如何實現？這裏有答案！幾點經驗分享： 1

2024-05-24 22:33:53

OSS_PIPE：Rust编写的大规模文件迁移工具

‍ 隨着業務的發展，文件數量和文件大小會急劇增加，文件遷移的數量和難度不斷攀升。oss_pipe 是rust編寫的文件遷移工具，旨在支撐大規模的文件遷移場景。編寫 oss_pipe 的初衷 •同類產品面臨的問題 •rust 語

京東雲開發者

2024-05-15 23:59:27

OSS_PIPE：Rust编写的大规模文件迁移工具| 京东云技术团队

文盤rust 好久沒有更新了。這段時間筆者用rust寫了個小東西，跟各位分享一下背景隨着業務的發展，文件數量和文件大小會急劇增加，文件遷移的數量和難度不斷攀升。oss_pipe 是rust編寫的文件遷移工具，旨在支撐大規模的文件遷移場

2024-05-13 23:59:27

带你了解GaussDB SQL中的BOOLEAN表达式

本文分享自華爲雲社區《GaussDB SQL基礎語法示例-BOOLEAN表達式》，作者：Gauss松鼠會小助手2。一、前言 SQL是用於訪問和處理數據庫的標準計算機語言。GaussDB支持的SQL標準（默認支持SQL2、SQL3和SQL

2024-05-10 11:30:10

SpringBoot如何优雅的进行参数校验(一)

SpringBoot如何優雅的進行參數校驗一.爲什麼要進行參數校驗在日常的開發過程中,我們常常需要對傳入的參數進行校驗,比如在web前後端分離項目中,參數校驗有兩個方面: 前端進行參數校驗後端進行參數校驗那這兩種

2024-04-23 23:15:58

最新版Spring Security 中的路径匹配方案！

@[toc] Spring Security 是一個功能強大且可高度定製的安全框架，它提供了一套完整的解決方案，用於保護基於 Spring 的應用程序。在 Spring Security 中，路徑匹配是權限控制的核心部分，它決定了哪些請求可

2024-04-22 12:14:28

关于转义符 \ 在php正则中的匹配问题

今天做題遇到一個很經典的問題，記錄一下，先看一段代碼 <?php $str，=，"\\"; $pattern，=，"/\\/"; if(preg_match($partern,$str,$arr)) { ，，，，echo，"suc

2024-04-09 22:46:30

京东云“智能编码”上线了！免费试用

智能編碼JoyCoder 是一款基於大語言模型、適配多種 IDE 的智能編程助手，可以爲研發人員提供代碼預測續寫、UI 草圖轉前端代碼、生成單元測試、代碼安全漏洞自動識別及修復、一鍵生成接口文檔、AI 智能問答等功能。助力開發者高效、流暢、

2024-04-02 23:16:35

引领向量数据库技术新变革，Milvus 2.4 正式上线！

備受關注的 Milvus 2.4 正式上線！作爲向量數據庫賽道的領軍者，Zilliz 一直致力於推動向量技術的進步與創新。本次發佈中，Milvus 新增支持基於 NVIDIA 的 GPU 索引—— CUDA 加速圖形索引（CAGRA），

2024-03-25 21:26:35

（小实验）理解编译原理：一个四则运算的解释器

在前面的課程中，我在 JavaScript 和 CSS 的部分，多次提到了編譯原理相關的知識。這一部分的知識，如果我們從編譯原理“龍書”等正規的資料中學習，就會耗費掉不少的時間，所以我在這裏設計了一個小實驗，幫助你快速理解編譯原理相關的知識

2024-03-25 10:20:45

Prompt 工程师压箱底绝活——Prompt 的基本组成部分、格式化输出与应用构建

本文由飛槳星河社區開發者張洪申貢獻。張洪申，本科畢業於浙江大學竺可楨學院求是數學班，目前浙江大學控制科學與工程學院博士在讀，研究方向爲數據科學、電力系統。科研工作曾被 Nature 官方公衆號 Nature portfolio 專題報道。

2024-03-21 00:45:40

O2OA(翱途)开发平台系统安全-用户登录IP限制

O2OA(翱途)開發平臺[下稱O2OA開發平臺或者O2OA]支持對指定的用戶設置可以連接的客戶端計算機的IP地址，以避免用戶在不安全的環境下訪問系統。本篇主要介紹如何開啓O2OA用戶登錄IP限制。一、先決條件： 1、O2Serve

2024-03-14 22:57:18

从基础到代码实战，带你进阶正则表达式的全方位应用

本文分享自華爲雲社區《Regex Mastery: 從基礎到高級，解鎖正則表達式的全方位應用》，作者：檸檬味擁抱。正則表達式是一種強大的文本匹配和處理工具，廣泛應用於文本處理、數據抽取、表單驗證等領域。本文將從正則表達式的基礎知識出發，逐

2024-03-14 11:13:09

详解GaussDB(DWS)中的行执行引擎

本文分享自華爲雲社區《GaussDB(DWS)行執行引擎詳解》，作者：yd_227398895。 1.前言 GaussDB（DWS）包含三大引擎，一是SQL執行引擎，用來解析用戶輸入的SQL語句，生成執行計劃，供執行引擎來執行；二是執行引

2024-05-11 11:30:53

24小時熱門文章

最新文章

最新評論文章