Python3爬蟲從零開始：抓取天貓電影排行

原創

ChaosLee_

2018-10-20 02:13

抓取分析

首先打開要抓取的目標站點：http://maoyan.com/board/4

我們需要爬取得實惠電影名稱、主演、評分等信息。可以看到在這個頁面只有10部影片，而我們需要爬取前100，也就是需要爬取10頁。

滾動到最下方分頁列表，打開下一頁，可以看到頁面的URL發生了變化，多了參數offset=10。根據這個規律，我們可以通過改變URL的offset參數請求10次即可。

補充：確定一個網站是否可被爬取，可以先在網站根目錄下查看Robots協議確定是否可爬：

抓取一頁

這裏，我們將提取一頁的代碼用一個函數表示：

def get_one_page(url):

    headers = {

        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.17 Safari/537.36',



    }

    response = requests.get(url,headers = headers)

    if response.status_code == 200:

        return response.text

return None

def main():

    url = 'http://maoyan.com/board/4'

    html = get_one_page(url)

    print(html)

main()

這樣就可以得到我們的頁面源代碼。

正則提取

這裏，我們要按需進行提取，網頁源碼信息那麼多，但是我們只需要提取我們需求的影片信息。因此，需要對源碼進行正則提取，首先就要找到我們需要的信息的源碼部分。F12在網頁中打開【開發者模式】，在【Network】中左邊打開4?offset=0的文件，可以看到源代碼。

！注意，不要在【Elements】中直接查看源碼，因爲【Elements】中的源碼可能經過JavaScript操作（如果有的話）與原始請求頁面不一樣。

根據我們需要提取的信息構造我們的正則表達式：

#排名信息：<dd>.*?board-index.*?>(.*?)

#圖片信息：<dd>.*?board-index.*?>(.*?).*?data-src="(.*?)"

#名字信息：<dd>.*?board-index.*?>(.*?).*?data-src="(.*?)".*?name.*?a.*?>(.*?)</a>

#主演等等：<dd>.*?board-index.*?>(.*?).*?data-src="(.*?)".*?name.*?a.*?>(.*?)</a>.*?star">(.*?).*?releasetime">(.*?).*?integer">(.*?).*?fraction">(.*?).*?</dd>

def parse_one_page(html):

pattern = re.compile('<dd>.*?board-index.*?>(.*?)</i>'

    '.*?data-src="(.*?)".*?name.*?a.*?>(.*?)</a>'

    '.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'

    '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)

    items = re.findall(pattern,html)

    print(items)

結果：

完整代碼

import re

import requests

import json



def get_one_page(url):

    headers = {

    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.17 Safari/537.36',



    }

    response = requests.get(url,headers = headers)

    if response.status_code == 200:

        return response.text

    return None



def main(offset):

    url = 'http://maoyan.com/board/4?offset='+ str(offset)

    html = get_one_page(url)

    for item in parse_one_page(html):

        write_to_file(item)



#排名信息：<dd>.*?board-index.*?>(.*?)</i>

#圖片信息：<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)"

#名字信息：<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)".*?name.*?a.*?>(.*?)</a>

#主演等等綜合：<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)".*?name.*?a.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>

def parse_one_page(html):

    pattern = re.compile('<dd>.*?board-index.*?>(.*?)</i>'

            '.*?data-src="(.*?)".*?name.*?a.*?>(.*?)</a>'

            '.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'

            '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)

    items = re.findall(pattern,html)

#整理數據#

    for item in items:

        yield{

            'index': item[0],

            'image': item[1],

            'title': item[2].strip(),

            'actor': item[3].strip()[3:],

            'time' : item[4].strip()[5:],

            'score': item[5].strip() + item[6].strip()

        }

    print(items)



def write_to_file(content): #寫入文件

    with open('result.txt','a',encoding='utf-8') as f:

    # print(content)

        f.write(json.dumps(content,ensure_ascii=False)+'\n') #json.dumps()是將dict轉化成str格式



if __name__ == '__main__': #這裏沒有這一行也可以

    for i in range(10):

    main(offset=i*10)

結果：

補充： if __name__ == '__main__'的意思是：當.py文件被直接運行時，if __name__ == '__main__'之下的代碼塊將被運行；當.py文件以模塊形式被導入時，if __name__ == '__main__'之下的代碼塊不被運行。

參考見博客：https://blog.csdn.net/yjk13703623757/article/details/77918633

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python3爬蟲從零開始：抓取天貓電影排行

抓取分析

抓取一頁

正則提取

完整代碼

如何使用 JS 判斷用戶是否處於活躍狀態

Mono 支持LoongArch架構

lightdb秒級增加列和刪除列（not null帶默認值）

lightdb數據庫超時相關控制參數

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

lightdb mysql 8.0兼容之不可見主鍵

使用 JS 實現在瀏覽器控制檯打印圖片 console.image()

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（四）使用域名訪問網站應用

git clone速度太慢解決方法 git clone 顯著提速，解決Github代碼拉取速度緩慢問題

KLEE安裝

CMake是什麼？有什麼用？ CMake是什麼？有什麼用？

windows下使用cmake+mingw配置makefile windows下使用cmake+mingw配置makefile(一)

CMake指令 CMake簡單指令：CMake學習筆記（一）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結