網絡爬蟲 | 貓眼電影最受期待榜信息抓取 —— 基於multiprocessing / re（多進程/正則表達式）

原創

2020-07-04 07:18

import re
import requests
from requests.exceptions import RequestException
import multiprocessing
import random


headers = {'User-Agent':  "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.151 Safari/534.16"}
def get_one_page(url):
    """
    獲取當前頁的html文本信息
    :param url:
    :return:
    """
    try:
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            # 此處要進行重新編碼
            return response.text
        return None
    except RequestException as e:
        return None


def parse_one_page(html):
    pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?<a.*?data-val.*?>(.*?)</a>.*?<p .*?start">(.*?)</p>.*?'
                         '<p.*?releasetime">(.*?)</p>', re.S)
    items = re.findall(pattern, html)
    for i in items:
        yield {
            "index": items[0],
            "title": items[1],
            "star": items[2],
            "releasetime": items[3]
        }


def main(offset):
    url = "https://maoyan.com/board/6?offset=%s"
    html = get_one_page(url % offset)
    print([item for item in parse_one_page(html)])


if __name__ == "__main__":
    pool = multiprocessing.Pool(4)
    for i in range(10):
        pool.apply_async(main, (i*10, ))

    pool.close()
    pool.join()

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

ASP正則表達式收集

hutchin 發表於 2006/10/31, 4:34 PM. 學習用正則表達式突出顯示字符串中查詢到的單詞的函數<%'''''Function hs(aa,bb) ''建立函數hs，兩值：aa爲內容，bb爲需要查詢的字符Dim re

2020-07-08 10:27:05

一文講透“進程，線程和協程”

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！本文從操作系統原理出髮結合代碼實踐講解了以下內容：什麼是進程，線程和協程？它們之間的關係是什麼？爲什麼說Python中的多線程是僞

雲棲號資訊小哥

2020-08-05 15:37:51

SpringBoot如何優雅的進行參數校驗(一)

SpringBoot如何優雅的進行參數校驗一.爲什麼要進行參數校驗在日常的開發過程中,我們常常需要對傳入的參數進行校驗,比如在web前後端分離項目中,參數校驗有兩個方面: 前端進行參數校驗後端進行參數校驗那這兩種

2024-04-23 23:15:58

最新版Spring Security 中的路徑匹配方案！

@[toc] Spring Security 是一個功能強大且可高度定製的安全框架，它提供了一套完整的解決方案，用於保護基於 Spring 的應用程序。在 Spring Security 中，路徑匹配是權限控制的核心部分，它決定了哪些請求可

2024-04-22 12:14:28

關於轉義符 \ 在php正則中的匹配問題

今天做題遇到一個很經典的問題，記錄一下，先看一段代碼 <?php $str，=，"\\"; $pattern，=，"/\\/"; if(preg_match($partern,$str,$arr)) { ，，，，echo，"suc

2024-04-09 22:46:30

京東雲“智能編碼”上線了！免費試用

智能編碼JoyCoder 是一款基於大語言模型、適配多種 IDE 的智能編程助手，可以爲研發人員提供代碼預測續寫、UI 草圖轉前端代碼、生成單元測試、代碼安全漏洞自動識別及修復、一鍵生成接口文檔、AI 智能問答等功能。助力開發者高效、流暢、

2024-04-02 23:16:35

引領向量數據庫技術新變革，Milvus 2.4 正式上線！

備受關注的 Milvus 2.4 正式上線！作爲向量數據庫賽道的領軍者，Zilliz 一直致力於推動向量技術的進步與創新。本次發佈中，Milvus 新增支持基於 NVIDIA 的 GPU 索引—— CUDA 加速圖形索引（CAGRA），

2024-03-25 21:26:35

（小實驗）理解編譯原理：一個四則運算的解釋器

在前面的課程中，我在 JavaScript 和 CSS 的部分，多次提到了編譯原理相關的知識。這一部分的知識，如果我們從編譯原理“龍書”等正規的資料中學習，就會耗費掉不少的時間，所以我在這裏設計了一個小實驗，幫助你快速理解編譯原理相關的知識

2024-03-25 10:20:45

Prompt 工程師壓箱底絕活——Prompt 的基本組成部分、格式化輸出與應用構建

本文由飛槳星河社區開發者張洪申貢獻。張洪申，本科畢業於浙江大學竺可楨學院求是數學班，目前浙江大學控制科學與工程學院博士在讀，研究方向爲數據科學、電力系統。科研工作曾被 Nature 官方公衆號 Nature portfolio 專題報道。

2024-03-21 00:45:40

O2OA(翱途)開發平臺系統安全-用戶登錄IP限制

O2OA(翱途)開發平臺[下稱O2OA開發平臺或者O2OA]支持對指定的用戶設置可以連接的客戶端計算機的IP地址，以避免用戶在不安全的環境下訪問系統。本篇主要介紹如何開啓O2OA用戶登錄IP限制。一、先決條件： 1、O2Serve

2024-03-14 22:57:18

從基礎到代碼實戰，帶你進階正則表達式的全方位應用

本文分享自華爲雲社區《Regex Mastery: 從基礎到高級，解鎖正則表達式的全方位應用》，作者：檸檬味擁抱。正則表達式是一種強大的文本匹配和處理工具，廣泛應用於文本處理、數據抽取、表單驗證等領域。本文將從正則表達式的基礎知識出發，逐

2024-03-14 11:13:09

乾貨|Zabbix監控深信服超融合

前提： -->實現的流程步驟： -->zabbix上超融合監控展示結果所需軟件：1、zabbix 2、python 3、node.js環境所需資料：1、超融合平臺API接口（通過廠家獲取）關聯zabbix知識點：1、zabbix

2024-02-23 22:58:33

ES 規範爲什麼總在 6 月發版？

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！一.JavaScript 的誕生 1995 年 5 月，一個叫 Brendan Eich 的人花 10 天創造了 JavaScript 二

雲棲號資訊小哥

2020-07-08 18:47:09

知道這 20 個正則表達式，能讓你少寫 1,000 行代碼

http://www.runoob.com/regexp/regexp-syntax.html 正則表達式，一個十分古老而又強大的文本處理工具，僅僅用一段非常簡短的表達式語句，便能夠快速實現一個非常複雜的業務邏輯。熟練地掌握正則表

哈哈金馆长

2020-07-08 11:36:23

re.S、re.I、re.M

re.S (使 . 匹配包括換行在內的所有字符) re.I(不區分大小寫) re.M(多行匹配) ^只匹配字符串的開頭，$只匹配字符串結尾，.不匹配換行符. re.S做的事情是: 讓.也匹配換行符 re.M做的事情是: 讓^匹配每行

2020-07-08 11:16:26

24小時熱門文章

HTTP URL 詳解

最新文章

最新評論文章