python字節碼

Python 字節碼介紹

原文出處: James Bennett 譯文出處:linux中國—qhwdw
引用自:伯樂在線

如果你曾經編寫過 Python,或者只是使用過 Python,你或許經常會看到 Python 源代碼文件——它們的名字以 .py 結尾。你可能還看到過其它類型的文件,比如以 .pyc 結尾的文件,或許你可能聽說過它們就是 Python 的 “字節碼bytecode” 文件。(在 Python 3 上這些可能不容易看到 —— 因爲它們與你的 .py 文件不在同一個目錄下,它們在一個叫 pycache 的子目錄中)或者你也聽說過,這是節省時間的一種方法,它可以避免每次運行 Python 時去重新解析源代碼。

但是,除了 “噢,原來這就是 Python 字節碼” 之外,你還知道這些文件能做什麼嗎?以及 Python 是如何使用它們的?

如果你不知道,那你走運了!今天我將帶你瞭解 Python 的字節碼是什麼,Python 如何使用它去運行你的代碼,以及知道它是如何幫助你的。

Python 如何工作

Python 經常被介紹爲它是一個解釋型語言 —— 其中一個原因是在程序運行時,你的源代碼被轉換成 CPU 的原生指令 —— 但這樣的看法只是部分正確。Python 與大多數解釋型語言一樣,確實是將源代碼編譯爲一組虛擬機指令,並且 Python 解釋器是針對相應的虛擬機實現的。這種中間格式被稱爲 “字節碼”。

因此,這些 .pyc 文件是 Python 悄悄留下的,是爲了讓它們運行的 “更快”,或者是針對你的源代碼的 “優化” 版本;它們是你的程序在 Python 虛擬機上運行的字節碼指令。

我們來看一個示例。這裏是用 Python 寫的經典程序 “Hello, World!”:

def hello()
    print("Hello, World!")
1
2
def hello()
    print("Hello, World!")

下面是轉換後的字節碼(轉換爲人類可讀的格式):

2           0 LOAD_GLOBAL              0 (print)
            2 LOAD_CONST               1 ('Hello, World!')
            4 CALL_FUNCTION            1
1
2
3
2           0 LOAD_GLOBAL              0 (print)
            2 LOAD_CONST               1 ('Hello, World!')
            4 CALL_FUNCTION            1

如果你輸入那個 hello() 函數,然後使用 CPython 解釋器去運行它,那麼上述列出的內容就是 Python 所運行的。它看起來可能有點奇怪,因此,我們來深入瞭解一下它都做了些什麼。

Python 虛擬機內幕

CPython 使用一個基於棧的虛擬機。也就是說,它完全面向棧數據結構的(你可以 “推入” 一個東西到棧 “頂”,或者,從棧 “頂” 上 “彈出” 一個東西來)。

CPython 使用三種類型的棧:

  • 調用棧call stack。這是運行 Python 程序的主要結構。它爲每個當前活動的函數調用使用了一個東西 —— “幀frame”,棧底是程序的入口點。每個函數調用推送一個新的幀到調用棧,每當函數調用返回後,這個幀被銷燬。
  • 在每個幀中,有一個計算棧evaluation stack (也稱爲數據棧data stack)。這個棧就是 Python 函數運行的地方,運行的 Python 代碼大多數是由推入到這個棧中的東西組成的,操作它們,然後在返回後銷燬它們。
  • 在每個幀中,還有一個塊棧block stack。它被 Python 用於去跟蹤某些類型的控制結構:循環、try / except 塊、以及 with 塊,全部推入到塊棧中,當你退出這些控制結構時,塊棧被銷燬。這將幫助 Python 瞭解任意給定時刻哪個塊是活動的,比如,一個 continue 或者 break 語句可能影響正確的塊。

大多數 Python 字節碼指令操作的是當前調用棧幀的計算棧,雖然,還有一些指令可以做其它的事情(比如跳轉到指定指令,或者操作塊棧)。

爲了更好地理解,假設我們有一些調用函數的代碼,比如這個:my_function(my_variable, 2)。Python 將轉換爲一系列字節碼指令:

  • 一個 LOAD_NAME 指令去查找函數對象 my_function,然後將它推入到計算棧的頂部
  • 另一個 LOAD_NAME 指令去查找變量 my_variable,然後將它推入到計算棧的頂部
  • 一個 LOAD_CONST 指令去推入一個實整數值 2 到計算棧的頂部
  • 一個 CALL_FUNCTION 指令

這個 CALL_FUNCTION 指令將有 2 個參數,它表示那個 Python 需要從棧頂彈出兩個位置參數;然後函數將在它上面進行調用,並且它也同時被彈出(對於函數涉及的關鍵字參數,它使用另一個不同的指令 —— CALL_FUNCTION_KW,但使用的操作原則類似,以及第三個指令 —— CALL_FUNCTION_EX,它適用於函數調用涉及到參數使用 * 或 ** 操作符的情況)。一旦 Python 擁有了這些之後,它將在調用棧上分配一個新幀,填充到函數調用的本地變量上,然後,運行那個幀內的 my_function 字節碼。運行完成後,這個幀將被調用棧銷燬,而在最初的幀內,my_function 的返回值將被推入到計算棧的頂部。

訪問和理解 Python 字節碼

如果你想玩轉字節碼,那麼,Python 標準庫中的 dis 模塊將對你有非常大的幫助;dis 模塊爲 Python 字節碼提供了一個 “反彙編”,它可以讓你更容易地得到一個人類可讀的版本,以及查找各種字節碼指令。dis 模塊的文檔 可以讓你遍歷它的內容,並且提供一個字節碼指令能夠做什麼和有什麼樣的參數的完整清單。

例如,獲取上面的 hello() 函數的列表,可以在一個 Python 解析器中輸入如下內容,然後運行它:

import dis
dis.dis(hello)
1
2
import dis
dis.dis(hello)

函數 dis.dis() 將反彙編一個函數、方法、類、模塊、編譯過的 Python 代碼對象、或者字符串包含的源代碼,以及顯示出一個人類可讀的版本。dis 模塊中另一個方便的功能是 distb()。你可以給它傳遞一個 Python 追溯對象,或者在發生預期外情況時調用它,然後它將在發生預期外情況時反彙編調用棧上最頂端的函數,並顯示它的字節碼,以及插入一個指向到引發意外情況的指令的指針。

它也可以用於查看 Python 爲每個函數構建的編譯後的代碼對象,因爲運行一個函數將會用到這些代碼對象的屬性。這裏有一個查看 hello() 函數的示例:

>>> hello.__code__
<code object hello at 0x104e46930, file "<stdin>", line 1>
>>> hello.__code__.co_consts
(None, 'Hello, World!')
>>> hello.__code__.co_varnames
()
>>> hello.__code__.co_names
('print',)
1
2
3
4
5
6
7
8
>>> hello.__code__
<code object hello at 0x104e46930, file "<stdin>", line 1>
>>> hello.__code__.co_consts
(None, 'Hello, World!')
>>> hello.__code__.co_varnames
()
>>> hello.__code__.co_names
('print',)

代碼對象在函數中可以以屬性 code 來訪問,並且攜帶了一些重要的屬性:

  • co_consts 是存在於函數體內的任意實數的元組
  • co_varnames 是函數體內使用的包含任意本地變量名字的元組
  • co_names 是在函數體內引用的任意非本地名字的元組

許多字節碼指令 —— 尤其是那些推入到棧中的加載值,或者在變量和屬性中的存儲值 —— 在這些元組中的索引作爲它們參數。
因此,現在我們能夠理解 hello() 函數中所列出的字節碼:

  • LOAD_GLOBAL 0:告訴 Python 通過 co_names (它是 print 函數)的索引 0 上的名字去查找它指向的全局對象,然後將它推入到計算棧
  • LOAD_CONST 1:帶入 co_consts 在索引 1 上的字面值,並將它推入(索引 0 上的字面值是 None,它表示在 co_consts 中,因爲 Python 函數調用有一個隱式的返回值 None,如果沒有顯式的返回表達式,就返回這個隱式的值 )。
  • CALL_FUNCTION 1:告訴 Python 去調用一個函數;它需要從棧中彈出一個位置參數,然後,新的棧頂將被函數調用。

“原始的” 字節碼 —— 是非人類可讀格式的字節 —— 也可以在代碼對象上作爲 co_code 屬性可用。如果你有興趣嘗試手工反彙編一個函數時,你可以從它們的十進制字節值中,使用列出 dis.opname 的方式去查看字節碼指令的名字。

字節碼的用處

現在,你已經瞭解的足夠多了,你可能會想 “OK,我認爲它很酷,但是知道這些有什麼實際價值呢?”由於對它很好奇,我們去了解它,但是除了好奇之外,Python 字節碼在幾個方面還是非常有用的。

  • 首先,理解 Python 的運行模型可以幫你更好地理解你的代碼。人們都開玩笑說,C 是一種 “可移植彙編器”,你可以很好地猜測出一段 C 代碼轉換成什麼樣的機器指令。理解 Python 字節碼之後,你在使用 Python 時也具備同樣的能力 —— 如果你能預料到你的 Python 源代碼將被轉換成什麼樣的字節碼,那麼你可以知道如何更好地寫和優化 Python 源代碼。
  • 第二,理解字節碼可以幫你更好地回答有關 Python 的問題。比如,我經常看到一些 Python 新手困惑爲什麼某些結構比其它結構運行的更快(比如,爲什麼 {} 比 dict() 快)。知道如何去訪問和閱讀 Python 字節碼將讓你很容易回答這樣的問題(嘗試對比一下: dis.dis("{}") 與 dis.dis(“dict()”) 就會明白)。
  • 最後,理解字節碼和 Python 如何運行它,爲 Python 程序員不經常使用的一種特定的編程方式提供了有用的視角:面向棧的編程。如果你以前從來沒有使用過像 FORTH 或 Fator 這樣的面向棧的編程語言,它們可能有些古老,但是,如果你不熟悉這種方法,學習有關 Python 字節碼的知識,以及理解面向棧的編程模型是如何工作的,將有助你開拓你的編程視野。

延伸閱讀

如果你想進一步瞭解有關 Python 字節碼、Python 虛擬機、以及它們是如何工作的更多知識,我推薦如下的這些資源:

  • Python 虛擬機內幕,它是 Obi Ike-Nwosu 寫的一本免費在線電子書,它深入 Python 解析器,解釋了 Python 如何工作的細節。
  • 一個用 Python 編寫的 Python 解析器,它是由 Allison Kaptur 寫的一個教程,它是用 Python 構建的 Python 字節碼解析器,並且它實現了運行 Python 字節碼的全部構件。
  • 最後,CPython 解析器是一個開源軟件,你可以在 GitHub 上閱讀它。它在文件 Python/ceval.c 中實現了字節碼解析器。這是 Python 3.6.4 發行版中那個文件的鏈接;字節碼指令是由第 1266 行開始的 switch 語句來處理的。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章