python抓頁面基礎知識

原創

2020-06-30 07:50

python抓頁面基礎知識

1.定義函數根據url獲得頁面

def getPageContent(self,url):
request = urllib2.Request(url)
response = urllib2.urlopen(request)
return response.read().decode('UTF-8')

2. 正則表達式匹配，re.S是dotall模式，意思是.表示所有字符的意思包括換行，（）是分組的意思

pattern = re.compile('<div class="d_author">.*?<ul class="p_author">.*?'+
'<li class="d_name".*?<a.*?'+
'target="_blank">(.*?)</a>',re.S)

content = re.findall(pattern, pagecontent)

3.第二步中的content是數組，通過循環將數據寫到文件，item是tuple類型使用[]使用，item[0]爲第一列數據，item[1]爲第二列，以此類推。

f = open('1.txt','a+')
for item in content:
f.writelines((str(item[0])+str(item[1])+item[2].encode('UTF-8'),f)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

OSS_PIPE：Rust編寫的大規模文件遷移工具

‍ 隨着業務的發展，文件數量和文件大小會急劇增加，文件遷移的數量和難度不斷攀升。oss_pipe 是rust編寫的文件遷移工具，旨在支撐大規模的文件遷移場景。編寫 oss_pipe 的初衷 •同類產品面臨的問題 •rust 語

京東雲開發者

2024-05-15 23:59:27

OSS_PIPE：Rust編寫的大規模文件遷移工具| 京東雲技術團隊

文盤rust 好久沒有更新了。這段時間筆者用rust寫了個小東西，跟各位分享一下背景隨着業務的發展，文件數量和文件大小會急劇增加，文件遷移的數量和難度不斷攀升。oss_pipe 是rust編寫的文件遷移工具，旨在支撐大規模的文件遷移場

2024-05-13 23:59:27

帶你瞭解GaussDB SQL中的BOOLEAN表達式

本文分享自華爲雲社區《GaussDB SQL基礎語法示例-BOOLEAN表達式》，作者：Gauss松鼠會小助手2。一、前言 SQL是用於訪問和處理數據庫的標準計算機語言。GaussDB支持的SQL標準（默認支持SQL2、SQL3和SQL

2024-05-10 11:30:10

SpringBoot如何優雅的進行參數校驗(一)

SpringBoot如何優雅的進行參數校驗一.爲什麼要進行參數校驗在日常的開發過程中,我們常常需要對傳入的參數進行校驗,比如在web前後端分離項目中,參數校驗有兩個方面: 前端進行參數校驗後端進行參數校驗那這兩種

2024-04-23 23:15:58

最新版Spring Security 中的路徑匹配方案！

@[toc] Spring Security 是一個功能強大且可高度定製的安全框架，它提供了一套完整的解決方案，用於保護基於 Spring 的應用程序。在 Spring Security 中，路徑匹配是權限控制的核心部分，它決定了哪些請求可

2024-04-22 12:14:28

關於轉義符 \ 在php正則中的匹配問題

今天做題遇到一個很經典的問題，記錄一下，先看一段代碼 <?php $str，=，"\\"; $pattern，=，"/\\/"; if(preg_match($partern,$str,$arr)) { ，，，，echo，"suc

2024-04-09 22:46:30

京東雲“智能編碼”上線了！免費試用

智能編碼JoyCoder 是一款基於大語言模型、適配多種 IDE 的智能編程助手，可以爲研發人員提供代碼預測續寫、UI 草圖轉前端代碼、生成單元測試、代碼安全漏洞自動識別及修復、一鍵生成接口文檔、AI 智能問答等功能。助力開發者高效、流暢、

2024-04-02 23:16:35

引領向量數據庫技術新變革，Milvus 2.4 正式上線！

備受關注的 Milvus 2.4 正式上線！作爲向量數據庫賽道的領軍者，Zilliz 一直致力於推動向量技術的進步與創新。本次發佈中，Milvus 新增支持基於 NVIDIA 的 GPU 索引—— CUDA 加速圖形索引（CAGRA），

2024-03-25 21:26:35

（小實驗）理解編譯原理：一個四則運算的解釋器

在前面的課程中，我在 JavaScript 和 CSS 的部分，多次提到了編譯原理相關的知識。這一部分的知識，如果我們從編譯原理“龍書”等正規的資料中學習，就會耗費掉不少的時間，所以我在這裏設計了一個小實驗，幫助你快速理解編譯原理相關的知識

2024-03-25 10:20:45

Prompt 工程師壓箱底絕活——Prompt 的基本組成部分、格式化輸出與應用構建

本文由飛槳星河社區開發者張洪申貢獻。張洪申，本科畢業於浙江大學竺可楨學院求是數學班，目前浙江大學控制科學與工程學院博士在讀，研究方向爲數據科學、電力系統。科研工作曾被 Nature 官方公衆號 Nature portfolio 專題報道。

2024-03-21 00:45:40

O2OA(翱途)開發平臺系統安全-用戶登錄IP限制

O2OA(翱途)開發平臺[下稱O2OA開發平臺或者O2OA]支持對指定的用戶設置可以連接的客戶端計算機的IP地址，以避免用戶在不安全的環境下訪問系統。本篇主要介紹如何開啓O2OA用戶登錄IP限制。一、先決條件： 1、O2Serve

2024-03-14 22:57:18

從基礎到代碼實戰，帶你進階正則表達式的全方位應用

本文分享自華爲雲社區《Regex Mastery: 從基礎到高級，解鎖正則表達式的全方位應用》，作者：檸檬味擁抱。正則表達式是一種強大的文本匹配和處理工具，廣泛應用於文本處理、數據抽取、表單驗證等領域。本文將從正則表達式的基礎知識出發，逐

2024-03-14 11:13:09

乾貨|Zabbix監控深信服超融合

前提： -->實現的流程步驟： -->zabbix上超融合監控展示結果所需軟件：1、zabbix 2、python 3、node.js環境所需資料：1、超融合平臺API接口（通過廠家獲取）關聯zabbix知識點：1、zabbix

2024-02-23 22:58:33

詳解GaussDB(DWS)中的行執行引擎

本文分享自華爲雲社區《GaussDB(DWS)行執行引擎詳解》，作者：yd_227398895。 1.前言 GaussDB（DWS）包含三大引擎，一是SQL執行引擎，用來解析用戶輸入的SQL語句，生成執行計劃，供執行引擎來執行；二是執行引

2024-05-11 11:30:53

OpenSPG新版發佈：大模型知識抽取與快速知識圖譜構建

隨着大數據時代的來臨，知識圖譜在各個領域的應用越來越廣泛，如智能客服、智能推薦、智能問答等。而OpenSPG作爲一款強大的知識圖譜構建工具，一直備受關注。近日，OpenSPG發佈了新版，帶來了大模型知識抽取和快速知識圖譜構建等功能，進一步提

2024-02-05 12:13:38

24小時熱門文章

最新文章

最新評論文章