0 前言
說到處理循環,我們習慣使用for, while等,比如依次打印每個列表中的字符:
在打印內容字節數較小時,全部載入內存後,再打印,沒有問題。可是,如果現在有成千上百萬條車輛行駛軌跡,叫你分析出其中每個客戶的出行規律,堵車情況等,假如是在單機上處理這件事。
你可能首先要面臨,也可能被你忽視,最後代碼都寫好後,纔可能暴露出的一個問題:outofmemory, 這在實際項目中經常遇到。
這個問題提醒我們,處理數據時,如何寫出高效利用內存的程序,就顯得很重要。今天,我們就來探討如何高效利用內存,節省內存同時還能把事情辦好。
其實,Python已經準備好一個模塊專門用來處理這件事,它就是itertools 模塊,這裏面幾個函數的功能其實很好理解。
我不打算籠統的介紹它們所能實現的功能,而是想分析這些功能背後的實現代碼,它們如何做到高效節省內存的,Python內核的貢獻者們又是如何寫出一手漂亮的代碼的,這很有趣,不是嗎?
OK,let's go. Hope you enjoy the journey!
1 拼接元素
itertools 中的chain 函數實現元素拼接,原型如下,參數*表示個數可變的參數
chain(iterables)
應用如下:
哇,不能再好用了,它有點join的味道,但是比join強,它的重點在於參數都是可迭代的實例。
那麼,chain如何實現高效節省內存的呢?chain大概的實現代碼如下:
以上代碼不難理解,chain本質返回一個生成器,所以它實際上是一次讀入一個元素到內存,所以做到最高效地節省內存。
2 逐個累積
返回列表的累積彙總值,原型:
accumulate(iterable[, func, *, initial=None])
應用如下:
accumulate大概的實現代碼如下:
以上代碼,你還好嗎?與chain簡單的yield不同,此處稍微複雜一點,yield有點像return,所以 yield total那行直接就返回一個元素,也就是iterable的第一個元素,因爲任何時候這個函數返回的第一個元素就是它的第一個。又因爲yield返回的是一個generator對象,比如名字gen,所以next(gen)時,代碼將會執行到 for element in it:這行,而此時的迭代器it 已經指到iterable的第二個元素,OK,相信你懂了!
3 漏斗篩選
它是compress 函數,功能類似於漏斗功能,所以我稱它爲漏斗篩選,原型:
compress(data, selectors)
容易看出,compress返回的元素個數等於兩個參數中較短的列表長度。
它的大概實現代碼:
這個函數非常好用
4 段位篩選
掃描列表,不滿足條件處開始往後保留,原型如下:
dropwhile(predicate, iterable)
應用例子:
實現它的大概代碼如下:
5 段位篩選2
掃描列表,只要滿足條件就從可迭代對象中返回元素,直到不滿足條件爲止,原型如下:
takewhile(predicate, iterable)
應用例子:
實現它的大概代碼如下:
6 次品篩選
掃描列表,只要不滿足條件都保留,原型如下:
dropwhile(predicate, iterable)
應用例子:
實現它的大概代碼如下:
7 切片篩選
Python中的普通切片操作,比如:
它們的缺陷還是lis 必須全部載入內存,所以更節省內存的操作islice,原型如下:
islice(iterable, start, stop[, step])
應用例子:
實現它的大概代碼如下:
巧妙利用生成器迭代結束時會拋出異常StopIteration,做一些邊界處理的事情。
8 細胞分裂
tee函數類似於我們熟知的細胞分裂,它能複製原迭代器n個,原型如下:
tee(iterable, n=2)
應用如下,可以看出複製出的兩個迭代器是獨立的
實現它的代碼大概如下:
tee 實現內部使用一個隊列類型deques,起初生成空隊列,向複製出來的每個隊列中添加元素newval, 同時yield 當前被調用的mydeque中的最左元素。
9 map變體
starmap可以看做是map的變體,它能更加節省內存,同時iterable的元素必須也爲可迭代對象,原型如下:
starmap(function, iterable)
應用它:
starmap的實現細節如下:
10 複製元素
repeat實現複製元素n次,原型如下:
repeat(object[, times])
應用如下:
它的實現細節大概如下:
11 笛卡爾積
笛卡爾積實現的效果同下:
所以,笛卡爾積的實現效果如下:
它的實現細節:
12 加強版zip
組合值。若可迭代對象的長度未對齊,將根據 fillvalue 填充缺失值,注意:迭代持續到耗光最長的可迭代對象,效果如下:
它的實現細節:
它裏面使用repeat,也就是在可迭代對象的長度未對齊時,根據 fillvalue 填充缺失值。理解上面代碼的關鍵是迭代器對象(iter),next方法的特殊性:
結合這個提示再理解上面代碼,就不會吃力。