如何監視Python程序的內存使用情況

原創

2021-01-30 10:00

我們使用Python和它的數據處理庫套件(如panda和scikiti -learn)進行大量數據處理時候，可能使用了大量的計算資源。如何監視程序的內存使用情況就顯得尤爲重要。

1.詢問操作系統

跟蹤內存使用情況的最簡單方法是使用操作系統本身。您可以使用top來提供您在一段時間內使用的資源的概述。或者，如果您想要現場檢查資源使用情況，您可以使用ps命令:

$ ps -m -o %cpu,%mem,command

%CPU %MEM COMMAND

23.4  7.2 python analyze_data.py

 0.0  0.0 bash

m標誌指示ps按照進程使用最多內存的順序顯示結果。o標誌控制顯示每個進程的哪些屬性——在本例中是使用的CPU百分比、消耗的系統內存百分比和正在執行的進程的命令行。

CPU百分比將一個完整的CPU核心計算爲100%的使用率，因此如果您有一個4核的機器，可能會看到總計高達400%的CPU使用率。還有其他輸出選項用於顯示其他進程屬性，以及用於控制顯示哪些進程的ps的其他標誌。

結合一些創造性的shell腳本，可以編寫一個監視腳本，使用ps跟蹤任務的內存使用情況。

2.tracemalloc

Python解釋器的操作中有大量的hooks，可以在Python代碼運行時用於監視和內省。pdb使用這些鉤子來提供調試;覆蓋率也使用它們來提供測試覆蓋率。tracemalloc模塊還使用它們來提供一個瞭解內存使用情況的窗口。

tracemalloc是在Python 3.4中添加的一個標準庫模塊，它跟蹤Python解釋器分配的每個單獨的內存塊。tracemalloc能夠提供關於運行Python進程中內存分配的非常細粒度的信息:

import tracemalloc

tracemalloc.start()
my_complex_analysis_method()
current, peak = tracemalloc.get_traced_memory()
print(f"Current memory usage is {current / 10**6}MB; Peak was {peak / 10**6}MB")
tracemalloc.stop()

調用tracemplugin .start()啓動跟蹤進程。在進行跟蹤時，您可以詢問分配了哪些內容的詳細信息;在本例中，我們只要求當前和峯值內存分配。調用tracemplugin .stop()將刪除hook並清除已經收集的任何跟蹤。

不過，這種程度的細節是要付出代價的。tracemalloc將自己深深地注入到正在運行的Python進程中——正如您所預期的那樣，這會帶來性能損失。在我們的測試中，我們觀察到在運行分析時使用tracemalloc的速度下降了30%。在分析單個進程時，這可能是可以的，但在生產中，您確實不希望僅僅爲了監視內存使用情況而降低30%的性能。

3.抽樣

幸運的是，Python標準庫提供了另一種觀察內存使用情況的方法—resource模塊。resource模塊爲程序分配的資源提供基本控制，包括內存使用:

import resource
usage = resource.getrusage(resource.RUSAGE_SELF).ru_maxrss

getrusage()的調用返回程序所使用的資源。常量RUSAGE_SELF表示我們只對這個進程使用的資源感興趣，而不是它的子進程。返回的對象是一個結構，它包含一系列操作系統資源，包括CPU時間、信號、上下文切換等;但就我們的目的而言，我們感興趣的是maxrss——最大駐留集大小——它是進程當前在RAM中持有的內存量。

但是，與tracemalloc模塊不同的是，資源模塊不隨時間跟蹤使用情況—它只提供點採樣。因此，我們需要實現一種方法來隨時間對內存使用情況進行採樣。

首先，我們定義一個類來執行內存監控:

import resource
from time import sleep

class MemoryMonitor:
    def __init__(self):
        self.keep_measuring = True

    def measure_usage(self):
        max_usage = 0
        while self.keep_measuring:
            max_usage = max(
                max_usage,
                resource.getrusage(resource.RUSAGE_SELF).ru_maxrss
            )
            sleep(0.1)

        return max_usage

在這個類的實例上調用measure_usage()時，它將進入一個循環，每0.1秒測量一次內存使用情況。將跟蹤內存使用量的任何增加，並在循環退出時返回最大內存分配。

但是什麼告訴循環退出呢?我們在哪裏調用被監視的代碼?我們在單獨的線程中完成。

from concurrent.futures import ThreadPoolExecutor


with ThreadPoolExecutor() as executor:
    monitor = MemoryMonitor()
    mem_thread = executor.submit(monitor.measure_usage)
    try:
        fn_thread = executor.submit(my_analysis_function)
        result = fn_thread.result()

    finally:
        monitor.keep_measuring = False
        max_usage = mem_thread.result()

    print(f"Peak memory usage: {max_usage}")

ThreadPoolExecutor爲提交要在線程中執行的任務提供了一種方便的方法。我們向執行程序提交兩個任務——監視器和my_analysis_function(如果分析函數需要額外的參數，可以通過提交調用傳入它們)。

對fn_thread.result()的調用將被阻塞，直到分析函數完成並獲得其結果，此時我們可以通知監視器停止並獲得最大內存。try/finally模塊確保瞭如果分析函數拋出異常，內存線程仍然會被終止。

使用這種方法，我們可以有效地隨時間對內存使用情況進行抽樣。大部分工作將在主分析線程中完成;但是每0.1秒，監視器線程就會被喚醒，進行一次內存測量，如果內存使用量增加就將其存儲，然後返回睡眠狀態。

英文原文： https://medium.com/survata-engineering-blog/monitoring-memory-usage-of-a-running-python-program-49f027e3d1ba

本文僅供學習之用，版權歸原作者所有，如有侵權請聯繫刪除。

在學習Python的道路上肯定會遇見困難，別慌，我這裏有一套學習資料，包含40+本電子書，800+個教學視頻，涉及Python基礎、爬蟲、框架、數據分析、機器學習等，不怕你學不會！ https://shimo.im/docs/JWCghr8prjCVCxxK/ 《Python學習資料》

關注公衆號【Python圈子】，優質文章每日送達。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

如何監視Python程序的內存使用情況

1.詢問操作系統

2.tracemalloc

3.抽樣

如何熟悉一個陌生系統

裁員了！別錯過2024年大數據工程師必備的10項技能

【安裝部署】Apache SeaTunnel 和 Web快速安裝詳解

更換容器內的源

一個.NET開源的功能豐富、靈活易用的 Windows 窗口增強神器

揭祕智能寫手GPT的測試報告生成技巧

C# 凍結Excel窗口以鎖定行列、或解除凍結

簡單郵件驗證碼html代碼模板

RocketMQ 事件驅動：雲時代的事件驅動有啥不同？

低代碼集成Java系列：高效構建自定義插件

【安裝部署】Apache SeaTunnel 和 Web快速安裝詳解

推薦一款新低代碼產品—敲敲雲，優勢在於上手簡單，價格和功能更開放

實戰：如何編寫一個 OpenTelemetry Extensions

界面組件DevExpress WinForms v23.2 - 數據展示、UI模板功能全新升級

盤點2024年流行的數據庫管理工具，Navicat、Devart備受關注！

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結