Python爬蟲技術與數據可視化：Numpy、pandas、Matplotlib的黃金組合

原創

2024-04-29 23:26

前言

在當今信息爆炸的時代，數據已成爲企業決策和發展的關鍵。而互聯網作爲信息的主要來源，網頁中蘊含着大量的數據等待被挖掘。Python爬蟲技術和數據可視化工具的結合，爲我們提供了一個強大的工具箱，可以幫助我們從網絡中抓取數據，並將其可視化，以便更好地理解和利用這些數據。本文將以爬取汽車之家網站上的新能源汽車數據爲例，介紹如何利用Python爬蟲技術和數據可視化工具實現數據的獲取和分析。

第一部分：爬蟲技術初探

首先，讓我們來了解一下Python爬蟲技術的基本原理。爬蟲技術，顧名思義，就是像蜘蛛一樣在互聯網上爬取信息的技術。在Python中，有一些強大的庫可以幫助我們實現這一目標，比如Requests、Beautiful Soup和Scrapy等。

1.1 Requests庫

Requests庫是Python中最常用的HTTP庫之一，它可以輕鬆地發送HTTP請求，並且支持多種HTTP方法，比如GET、POST等。使用Requests庫，我們可以模擬瀏覽器發送請求，從而獲取網頁上的數據。

1.2 Beautiful Soup庫

Beautiful Soup庫是Python中用於解析HTML和XML等文檔的庫，它可以將複雜的網頁結構轉換爲一個易於操作的樹形結構，從而方便我們提取所需的信息。

1.3 實戰：爬取汽車之家新能源汽車數據

現在，讓我們以爬取汽車之家新能源汽車數據爲例，來演示一下爬蟲技術的具體應用。

// 要訪問的目標頁面
string targetUrl = "http://httpbin.org/ip";


// 代理服務器(產品官網 www.16yun.cn)
string proxyHost = "http://t.16yun.cn";
string proxyPort = "31111";

// 代理驗證信息
string proxyUser = "username";
string proxyPass = "password";

// 設置代理服務器
WebProxy proxy = new WebProxy(string.Format("{0}:{1}", proxyHost, proxyPort), true);


ServicePointManager.Expect100Continue = false;

var request = WebRequest.Create(targetUrl) as HttpWebRequest;

request.AllowAutoRedirect = true;
request.KeepAlive = true;
request.Method    = "GET";
request.Proxy     = proxy;

//request.Proxy.Credentials = CredentialCache.DefaultCredentials;

request.Proxy.Credentials = new System.Net.NetworkCredential(proxyUser, proxyPass);

// 設置Proxy Tunnel
// Random ran=new Random();
// int tunnel =ran.Next(1,10000);
// request.Headers.Add("Proxy-Tunnel", String.valueOf(tunnel));


//request.Timeout = 20000;
//request.ServicePoint.ConnectionLimit = 512;
//request.UserAgent = "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.82 Safari/537.36";
//request.Headers.Add("Cache-Control", "max-age=0");
//request.Headers.Add("DNT", "1");


//String encoded = System.Convert.ToBase64String(System.Text.Encoding.GetEncoding("ISO-8859-1").GetBytes(proxyUser + ":" + proxyPass));
//request.Headers.Add("Proxy-Authorization", "Basic " + encoded);

using (var response = request.GetResponse() as HttpWebResponse)
using (var sr = new StreamReader(response.GetResponseStream(), Encoding.UTF8))
{
    string htmlStr = sr.ReadToEnd();
}

通過上述代碼，我們可以輕鬆地爬取到汽車之家網站上關於新能源汽車的基本信息，比如車型和價格等。

第二部分：數據處理與分析

接下來，讓我們使用Numpy和pandas這兩個強大的庫來對爬取到的數據進行處理與分析。

2.1 Numpy庫

Numpy庫是Python中用於科學計算的核心庫之一，它提供了高效的數組操作功能，可以幫助我們進行各種數值計算。

2.2 pandas庫

pandas庫是Python中用於數據分析的重要庫，它提供了強大的數據結構和數據操作功能，可以幫助我們輕鬆地處理各種數據，比如讀取、清洗、轉換和分析等。

2.3 實戰：數據處理與分析

現在，讓我們使用Numpy和pandas庫對爬取到的汽車數據進行處理與分析。

import numpy as np
import pandas as pd

# 創建DataFrame對象
df = pd.DataFrame(cars)

# 數據清洗
df['price'] = df['price'].str.replace('萬', '').astype(float)

# 數據分析
mean_price = np.mean(df['price'])
max_price = np.max(df['price'])
min_price = np.min(df['price'])

# 打印分析結果
print("平均價格：", mean_price, "萬元")
print("最高價格：", max_price, "萬元")
print("最低價格：", min_price, "萬元")

通過上述代碼，我們可以計算出爬取到的新能源汽車數據的平均價格、最高價格和最低價格等信息。

第三部分：數據可視化

最後，讓我們使用Matplotlib庫將分析結果可視化，以便更直觀地展示數據。

3.1 Matplotlib庫

Matplotlib庫是Python中用於繪製圖表的經典庫之一，它提供了豐富的繪圖功能，可以繪製各種類型的圖表，比如折線圖、柱狀圖、散點圖等。

3.2 實戰：數據可視化

現在，讓我們使用Matplotlib庫將分析結果可視化。

import matplotlib.pyplot as plt

# 繪製柱狀圖
plt.figure(figsize=(10, 6))
plt.bar(df['name'], df['price'], color='skyblue')
plt.xlabel('車型')
plt.ylabel('價格（萬元）')
plt.title('新能源汽車價格分佈圖')
plt.xticks(rotation=45)
plt.show()

通過上述代碼，我們可以繪製出新能源汽車價格分佈圖，直觀地展示不同車型的價格情況。

結語

通過本文的介紹，相信大家已經對Python爬蟲技術與數據可視化有了更深入的理解。爬蟲技術可以幫助我們輕鬆地獲取互聯網上的數據，而數據可視化則可以幫助我們更直觀地理解和分析數據。結合Numpy、pandas和Matplotlib這三大神器，我們可以輕鬆地實現數據的爬取、處理和可視化，爲我們的工作和生活帶來更多的便利與樂趣。讓我們一起用技術的力量，創造更美好的未來吧！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python爬蟲技術與數據可視化：Numpy、pandas、Matplotlib的黃金組合

前言

第一部分：爬蟲技術初探

1.1 Requests庫

1.2 Beautiful Soup庫

1.3 實戰：爬取汽車之家新能源汽車數據

第二部分：數據處理與分析

2.1 Numpy庫

2.2 pandas庫

2.3 實戰：數據處理與分析

第三部分：數據可視化

3.1 Matplotlib庫

3.2 實戰：數據可視化

結語

容器中nginx無法使用同一個網絡下的容器域名

Python: SunMoonTimeCalculator

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

NETCore中實現一個輕量無負擔的極簡任務調度ScheduleTask

docker使用特定的網絡

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

nodejs學習07——API

避免DbContext同時在多個線程調用

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

前端面試題 - Node JS與V8是什麼關係？

前端面試題 - V8是什麼？

DevExpress WinForms中文教程 - HTML & CSS支持的實戰應用(一)

Visual C++界面開發組件Xtreme Toolkit Pro v24測試版發佈——完全支持SVG

有隙可乘 - Android 序列化漏洞分析實戰

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結