Python函數式編程指南(一):概述

這大概算是Python最難啃的一塊骨頭吧。在我Python生涯的這一年裏,我遇到了一些Pythoner,他們毫無例外地完全不會使用函數式編程(有些人喜歡稱爲Pythonic),比如,從來不會傳遞函數,不知道lambda是什麼意思,知道列表展開但從來不知道用在哪裏,對Python不提供經典for循環感到無所適從,言談之中表現出對函數式風格的一種抗拒甚至厭惡。

我嘗試剖析這個問題,最終總結了這麼兩個原因:1、不想改變,認爲現有的知識可以完成任務;2、對小衆語言的歧視,Python目前在國內市場份額仍然很小很小,熟悉Python風格用處不大。

然而我認爲,學習使用一種截然不同的風格可以顛覆整個編程的思想。我會慢慢總結一個系列共4篇文字,篇幅都不大,輕鬆就能看完,希望對喜歡Python的人們有所幫助,因爲我個人確實從中受益匪淺。

還是那句老話,尊重作者的勞動,轉載請註明原作者和原地址:)

1. 函數式編程概述

1.1. 什麼是函數式編程?

函數式編程使用一系列的函數解決問題。函數僅接受輸入併產生輸出,不包含任何能影響產生輸出的內部狀態。任何情況下,使用相同的參數調用函數始終能產生同樣的結果。

在一個函數式的程序中,輸入的數據“流過”一系列的函數,每一個函數根據它的輸入產生輸出。函數式風格避免編寫有“邊界效應”(side effects)的函數:修改內部狀態,或者是其他無法反應在輸出上的變化。完全沒有邊界效應的函數被稱爲“純函數式的”(purely functional)。避免邊界效應意味着不使用在程序運行時可變的數據結構,輸出只依賴於輸入。

可以認爲函數式編程剛好站在了面向對象編程的對立面。對象通常包含內部狀態(字段),和許多能修改這些狀態的函數,程序則由不斷修改狀態構成;函數式編程則極力避免狀態改動,並通過在函數間傳遞數據流進行工作。但這並不是說無法同時使用函數式編程和麪向對象編程,事實上,複雜的系統一般會採用面向對象技術建模,但混合使用函數式風格還能讓你額外享受函數式風格的優點。

1.2. 爲什麼使用函數式編程?

函數式的風格通常被認爲有如下優點:

  • 邏輯可證 
    這是一個學術上的優點:沒有邊界效應使得更容易從邏輯上證明程序是正確的(而不是通過測試)。
  • 模塊化 
    函數式編程推崇簡單原則,一個函數只做一件事情,將大的功能拆分成儘可能小的模塊。小的函數更易於閱讀和檢查錯誤。
  • 組件化 
    小的函數更容易加以組合形成新的功能。
  • 易於調試 
    細化的、定義清晰的函數使得調試更加簡單。當程序不正常運行時,每一個函數都是檢查數據是否正確的接口,能更快速地排除沒有問題的代碼,定位到出現問題的地方。
  • 易於測試 
    不依賴於系統狀態的函數無須在測試前構造測試樁,使得編寫單元測試更加容易。
  • 更高的生產率 
    函數式編程產生的代碼比其他技術更少(往往是其他技術的一半左右),並且更容易閱讀和維護。
1.3. 如何辨認函數式風格?

支持函數式編程的語言通常具有如下特徵,大量使用這些特徵的代碼即可被認爲是函數式的:

  • 函數是一等公民 
    函數能作爲參數傳遞,或者是作爲返回值返回。這個特性使得模板方法模式非常易於編寫,這也促使了這個模式被更頻繁地使用。 
    以一個簡單的集合排序爲例,假設lst是一個數集,並擁有一個排序方法sort需要將如何確定順序作爲參數。 
    如果函數不能作爲參數,那麼lst的sort方法只能接受普通對象作爲參數。這樣一來我們需要首先定義一個接口,然後定義一個實現該接口的類,最後將該類的一個實例傳給sort方法,由sort調用這個實例的compare方法,就像這樣:
    1
    2
    3
    4
    5
    6
    7
    8
    9
    #僞代碼
    interface Comparator{
        compare(o1,o2)
    }
    lst=list(range(5))
    lst.sort(Comparator(){
        compare(o1,o2){
            return o2-o1//逆序
    })
    可見,我們定義了一個新的接口、新的類型(這裏是一個匿名類),並new了一個新的對象只爲了調用一個方法。如果這個方法可以直接作爲參數傳遞會怎樣呢?看起來應該像這樣:
    1
    2
    3
    4
    def compare(o1,o2):
        return o2-o1#逆序
    lst=list(range(5))
    lst.sort(compare)
    請注意,前一段代碼已經使用了匿名類技巧從而省下了不少代碼,但仍然不如直接傳遞函數簡單、自然。
  • 匿名函數(lambda) 
    lambda提供了快速編寫簡單函數的能力。對於偶爾爲之的行爲,lambda讓你不再需要在編碼時跳轉到其他位置去編寫函數。 
    lambda表達式定義一個匿名的函數,如果這個函數僅在編碼的位置使用到,你可以現場定義、直接使用:
    1
    lst.sort(lambda o1,o2:o1.compareTo(o2))
    相信從這個小小的例子你也能感受到強大的生產效率:)
  • 封裝控制結構的內置模板函數 
    爲了避開邊界效應,函數式風格儘量避免使用變量,而僅僅爲了控制流程而定義的循環變量和流程中產生的臨時變量無疑是最需要避免的。 
    假如我們需要對剛纔的數集進行過濾得到所有的正數,使用指令式風格的代碼應該像是這樣:
    1
    2
    3
    4
    lst2=list()
    for iin range(len(lst)):#模擬經典for循環
        if lst[i]>0:
            lst2.append(lst[i])
    這段代碼把從創建新列表、循環、取出元素、判斷、添加至新列表的整個流程完整的展示了出來,儼然把解釋器當成了需要手把手指導的傻瓜。然而,“過濾”這個動作是很常見的,爲什麼解釋器不能掌握過濾的流程,而我們只需要告訴它過濾規則呢? 
    在Python裏,過濾由一個名爲filter的內置函數實現。有了這個函數,解釋器就學會了如何“過濾”,而我們只需要把規則告訴它:
    1
    lst2=filter(lambda n:n>0,lst)
    這個函數帶來的好處不僅僅是少寫了幾行代碼這麼簡單。 
    封裝控制結構後,代碼中就只需要描述功能而不是做法,這樣的代碼更清晰,更可讀。因爲避開了控制結構的干擾,第二段代碼顯然能讓你更容易瞭解它的意圖。 
    另外,因爲避開了索引,使得代碼中不太可能觸發下標越界這種異常,除非你手動製造一個。 
    函數式編程語言通常封裝了數個類似“過濾”這樣的常見動作作爲模板函數。唯一的缺點是這些函數需要少量的學習成本,但這絕對不能掩蓋使用它們帶來的好處。
  • 閉包(closure) 
    閉包是綁定了外部作用域的變量(但不是全局變量)的函數。大部分情況下外部作用域指的是外部函數。 
    閉包包含了自身函數體和所需外部函數中的“變量名的引用”。引用變量名意味着綁定的是變量名,而不是變量實際指向的對象;如果給變量重新賦值,閉包中能訪問到的將是新的值。 
    閉包使函數更加靈活和強大。即使程序運行至離開外部函數,如果閉包仍然可見,則被綁定的變量仍然有效;每次運行至外部函數,都會重新創建閉包,綁定的變量是不同的,不需要擔心在舊的閉包中綁定的變量會被新的值覆蓋。 
    回到剛纔過濾數集的例子。假設過濾條件中的 0 這個邊界值不再是固定的,而是由用戶控制。如果沒有閉包,那麼代碼必須修改爲: 
    1
    2
    3
    4
    5
    6
    7
    8
    9
    class greater_than_helper:
        def __init__(self,minval):
            self.minval=minval
        def is_greater_than(self,val):
            return val>self.minval
     
    def my_filter(lst,minval):
        helper=greater_than_helper(minval)
        return filter(helper.is_greater_than,lst)

    請注意我們現在已經爲過濾功能編寫了一個函數my_filter。如你所見,我們需要在別的地方(此例中是類greater_than_helper)持有另一個操作數minval。 
    如果支持閉包,因爲閉包可以直接使用外部作用域的變量,我們就不再需要greater_than_helper了: 
    1
    2
    def my_filter(lst,minval):
        return filter(lambda n:n>minval,lst)

    可見,閉包在不影響可讀性的同時也省下了不少代碼量。 
    函數式編程語言都提供了對閉包的不同程度的支持。在Python 2.x中,閉包無法修改綁定變量的值,所有修改綁定變量的行爲都被看成新建了一個同名的局部變量並將綁定變量隱藏。Python 3.x中新加入了一個關鍵字 nonlocal 以支持修改綁定變量。但不管支持程度如何,你始終可以訪問(讀取)綁定變量。
  • 內置的不可變數據結構 
    爲了避開邊界效應,不可變的數據結構是函數式編程中不可或缺的部分。不可變的數據結構保證數據的一致性,極大地降低了排查問題的難度。 
    例如,Python中的元組(tuple)就是不可變的,所有對元組的操作都不能改變元組的內容,所有試圖修改元組內容的操作都會產生一個異常。 
    函數式編程語言一般會提供數據結構的兩種版本(可變和不可變),並推薦使用不可變的版本。
  • 遞歸 
    遞歸是另一種取代循環的方法。遞歸其實是函數式編程很常見的形式,經常可以在一些算法中見到。但之所以放到最後,是因爲實際上我們一般很少用到遞歸。如果一個遞歸無法被編譯器或解釋器優化,很容易就會產生棧溢出;另一方面複雜的遞歸往往讓人感覺迷惑,不如循環清晰,所以衆多最佳實踐均指出使用循環而非遞歸。 
    這一系列短文中都不會關注遞歸的使用。

<第一節完>

轉自:http://www.cnblogs.com/huxi/archive/2011/06/18/2084316.html

原作者:AstralWind

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章