[python 那些事] [初級練習] 簡單爬蟲武漢加油

目標網站：https://news.163.com/special/epidemic/
任務：爬取當日各地疫情基本狀況
適合人羣：瞭解基本python代碼，小項目實訓

代碼如下

先引入爬蟲利器requests 和數據處理小能手pandas

import requests
import pandas as pd

下面函數是獲取json數據

def get_page(url):
    headers={'User-Agent':'XXXXXXX'}
    r=requests.get(url, headers=headers)
    r.encoding = r.apparent_encoding
    a=r.json()
    return a

下面就需要稍微分析一下網頁源碼了，畢竟是提取有效信息嘛

def parse_page(html):
    all=[]
    china = html['data']['areaTree'][0]['children']
    for i in range(len(china)):
        provinceName=china[i]['name']
        for j in range(len(china[i]['children'])):
            cityName = china[i]['children'][j]['name']
            confirm = china[i]['children'][j]['today']['confirm']
            dead = china[i]['children'][j]['today']['dead']
            heal = china[i]['children'][j]['today']['heal']
            suspect = china[i]['children'][j]['today']['suspect']
            lastUpdateTime = china[i]['children'][j]['lastUpdateTime']
            a = {'province':provinceName,'city':cityName,
                     'confirm':confirm,'dead':dead,'heal':heal,
                    'suspect':suspect,'lastUpdateTime':lastUpdateTime}
            all.append(a)
    return all

下面是將有效數據保存到文件中

def save_file(all):
    df = pd.DataFrame(all)
    order=['province','city','confirm','dead','heal','suspect','lastUpdateTime']
    df = df[order]
    df.to_csv('pachong.csv',index=True,header=True)

上面都是函數下面就是執行啦

url = "https://c.m.163.com/ug/api/wuhan/app/data/list-total?t=316639086783"
dataJson = get_page(url)
allData = parse_page(dataJson)
save_file(allData)

老規矩有問題私聊

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

[python 那些事] [初級練習] 簡單爬蟲武漢加油

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

[hadoop那些事]sqoop的安裝及配置，簡單的從mysql傳入hdfs中

[hadoop那些事] 錯誤: 找不到或無法加載主類 org.apache.hadoop.mapreduce.v2.app.MRAppMaster

[hadoop那些事]hadoop及其組件資源 115雲盤平臺

[每日推薦] notepad++ 連接上你的服務器，修改配置文件更加方便！！！高效（懶人必備

[hadoop那些事] centos7環境下載並配置mysql，簡單存儲一些信息

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

[python 那些事] [初級練習] 簡單爬蟲 武漢加油

[python 那些事] [初級練習] 簡單爬蟲武漢加油