Pandas：如何讓你的代碼性能飆升

原創

2024-03-19 13:02

在數據分析相關的工作中，Pandas無疑是一個強大的工具，它的易用性和靈活性廣受青睞。
然而，隨着數據量的不斷增長和計算需求的日益複雜，Pandas代碼的性能問題也逐漸浮出水面。
如何讓Pandas代碼運行得更快、更高效，成爲了每一個人使用者都需要面對的挑戰。

今天，本文就一個簡化版的實際分析案例，來一起探討Pandas代碼如何寫才能性能更好，讓你的數據處理流程更加順滑，不再爲漫長的等待運行而煩惱。

1. 案例介紹

假設有個股票分析的場景，我們需要給所有的股票每天的交易情況做一個評估，評估的結果有3個級別：優，中，差。
其中，“優”的條件是當天成交額大於10億且收盤價大於開盤價，也就是股票上漲；
“差”的條件是當天成交額小於1億且收盤價小於開盤價，也就是股票下跌；
除此之外的情況就是“中”。

再次強調一下，這是一個簡化的評估方法，主要是爲了下面演示Pandas的代碼性能，真實的評估不會如此粗糙。

股票交易的數據來自A股2024年1，2月份的日交易數據，大約20多萬條。
數據可從地址 https://databook.top/stock/2024 下載。

導入數據：

import pandas as pd

# 這個路徑根據實際情況修改
fp = r'D:\data\2024\歷史行情數據-東財-不復權-2024.csv'

df = pd.read_csv(fp)
df = df.loc[:, ["股票代碼", "日期", "開盤", "收盤", "最高", "最低", "成交量"]]
df

2. 不同寫法的性能比較

下面是3種代碼的寫法都是基於pandas的，完成的功能也是一樣的。

2.1. 循環遍歷

給每條數據加一個評估的指標，最直接想到的方法就是遍歷所有的數據，然後根據每條數據的情況，
給予一個評估指標（優，中，差）。

首先，封裝一個評估一條數據的函數：

def eval_stock(row):
    """
    評估一條的數據
    """
    # 成交額
    volumn = row["收盤"] * row["成交量"]
    
    if volumn > 1_000_000_000 and row["收盤"] > row["開盤"]:
        return "優"

    if volumn < 100_000_000 and row["收盤"] < row["開盤"]:
        return "差"

    return "中"

然後用遍歷的方式評估我們準備的數據（A股2024年1，2月份的日交易數據）。

for idx, row in df.iterrows():
    df.loc[idx, "評估"] = eval_stock(row)

df

雖然只有20多萬條數據，但是執行時間還挺長的，在jupyter notebook 中用 %%timeit 魔法函數測試性能如下。

%%timeit
for idx, row in df.iterrows():
    df.loc[idx, "評估"] = eval_stock(row)

運行結果：

36.4 s ± 367 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

執行一次要36秒多，效率很低。

2.2. apply方法

apply方法是pandas提供的一種靈活處理數據的接口，它允許我們傳入一個自定義函數來處理數據。
下面我們看看這種方式的性能如何。

%%timeit
df["評估"] = df.apply(eval_stock, axis=1)

運行結果：

4.9 s ± 86.5 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

性能提升非常明顯（36.4秒->4.9秒），代碼也變得更加簡潔。

2.3. 向量化方法

最後，我們看看終極的寫法，這種寫法把pandas的數據結構DataFrame看成是一個一維的向量數組（每列一個向量），而不是一個二維的數值數組。
這樣，我們操作數據是以列爲單位來操作，看看這樣寫的性能如何：

%%timeit
df["評估"] = "中"
df.loc[
    (df["收盤"] * df["成交量"] > 1_000_000_000) & (df["收盤"] > df["開盤"]),
    "評估",
] = "優"
df.loc[
    (df["收盤"] * df["成交量"] < 100_000_000) & (df["收盤"] < df["開盤"]), "評估"
] = "差"

運行結果：

8.22 ms ± 434 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

運行時間幾乎可以忽略不計。

3. 總結

同樣使用pandas寫數據分析的代碼，性能差距居然會如此天差地別。

可見，學習pandas，不僅僅是學習它的各種接口和函數，
更重要的是瞭解從pandas執行的角度應該如何看待數據，是把數據看成一個一個獨立的值，還是一行一行或一列一列的向量。
只有這樣，才能用pandas高效的處理數據，這在數據量膨脹之後，會大大提高我們分析的效率。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Pandas：如何讓你的代碼性能飆升

1. 案例介紹

2. 不同寫法的性能比較

2.1. 循環遍歷

2.2. apply方法

2.3. 向量化方法

3. 總結

.Net 8.0 下的新RPC，IceRPC之試試的新玩法"打洞"

完美替代postman的軟件

關於遊戲付費的一點想法

我通過CKA和CKS啦！

《最新出爐》系列入門篇-Python+Playwright自動化測試-42-強大的可視化追蹤利器Trace Viewer

大數據怎麼學？對大數據開發領域及崗位的詳細解讀，完整理解大數據開發領域技術體系

pandas：時間序列數據的週期轉換

最近常用的幾個【行操作】的Pandas函數

Python裝飾器實戰：打造高效性能計時工具

Python裝飾器實戰：實現優雅的重試機制

扔掉print，用icecream來調試你的代碼

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結