巧用CPU緩存優化代碼：數組 vs. 鏈表

原創

2020-02-23 16:08

一個常見的編程問題： 遍歷同樣大小的數組和鏈表，哪個比較快？ 如果按照大學教科書上的算法分析方法，你會得出結論，這2者一樣快，因爲時間複雜度都是 O(n)。但是在實踐中，這2者卻有極大的差異。通過下面的分析你會發現，其實數組比鏈表要快很多。

首先介紹一個概念：memory hierarchy （存儲層次結構），電腦中存在多種不同的存儲器，如下表

CPU 寄存器 – immediate access (0-1個CPU時鐘週期)
CPU L1 緩存 – fast access (3個CPU時鐘週期)
CPU L2 緩存 – slightly slower access (10個CPU時鐘週期)
內存 (RAM) – slow access (100個CPU時鐘週期)
硬盤 (file system) – very slow (10,000,000個CPU時鐘週期)

（數據來自 http://www.answers.com/topic/locality-of-reference）

各級別的存儲器速度差異非常大，CPU寄存器速度是內存速度的100倍！這就是爲什麼CPU產商發明了CPU緩存。而這個CPU緩存，就是數組和鏈表的區別的關鍵所在。

CPU緩存會把一片連續的內存空間讀入，因爲數組結構是連續的內存地址，所以數組全部或者部分元素被連續存在CPU緩存裏面，平均讀取每個元素的時間只要3個CPU時鐘週期。而鏈表的節點是分散在堆空間裏面的，這時候CPU緩存幫不上忙，只能是去讀取內存，平均讀取時間需要100個CPU時鐘週期。這樣算下來，數組訪問的速度比鏈表快33倍！ （這裏只是介紹概念，具體的數字因CPU而異）

因此，程序中儘量使用連續的數據結構，這樣可以充分發揮CPU緩存的威力。這種對緩存友好的算法稱爲 Cache-oblivious algorithm，有興趣可以參考相關資料。再舉一個簡單例子：

對比

for i in 0..n
for j in 0..m
for k in 0..p
C[i][j] = C[i][j] + A[i][k] * B[k][j];
和

for i in 0..n

for k in 0..p
for j in 0..m
C[i][j] = C[i][j] + A[i][k] * B[k][j];

雖然兩者執行結果一樣，算法複雜度也一樣，但是你會發現第二種寫法要快很多。

總結一下，各種存儲器的速度差異很大，在編程中絕對有必要考慮這個因素。比如，內存速度比硬盤快1萬倍，所以程序中應該儘量避免頻繁的硬盤讀寫；CPU緩存比內存快幾十倍，在程序中儘量多加利用。

>> 原創文章的版權屬於作者，轉載請註明出處和作者信息(http://blog.csdn.net/WinGeek/)，謝謝。 <<

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

巧用CPU緩存優化代碼：數組 vs. 鏈表

985 碩士程序員，空窗 4 個月沒有 Offer！

營銷系統黑名單優化：位圖的應用解析

一文搞懂 Spring 循環依賴

我真的從測試轉成了開發......

nginx添加相應配置，通過瀏覽器訪問或curl時返回客戶端對應公網IP

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

python內置函數——sorted

[oeasy]python020在遊戲中體驗數值自由_勇闖地下城_終端文字遊戲

爲何我建議你學會抄代碼

抖音面試：說說延遲任務的調度算法？

值得注意的函數: DrawIndexedPrimitive

BSP技術詳解(補充)--------------pvs算法

骨骼系統

OpenGL - Material (材質)

int offset = (int)(t)1 - (int)(singleton )(t*)1

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結