巧用CPU緩存優化代碼:數組 vs. 鏈表

一個常見的編程問題: 遍歷同樣大小的數組和鏈表, 哪個比較快? 如果按照大學教科書上的算法分析方法,你會得出結論,這2者一樣快, 因爲時間複雜度都是 O(n)。 但是在實踐中, 這2者卻有極大的差異。   通過下面的分析你會發現, 其實數組比鏈表要快很多。

 

首先介紹一個概念:memory hierarchy (存儲層次結構),電腦中存在多種不同的存儲器,如下表

  • CPU 寄存器 – immediate access (0-1個CPU時鐘週期)
  • CPU L1 緩存  – fast access (3個CPU時鐘週期)
  • CPU L2 緩存 – slightly slower access (10個CPU時鐘週期)
  • 內存 (RAM)   – slow access (100個CPU時鐘週期)
  • 硬盤 (file system) – very slow (10,000,000個CPU時鐘週期)

      (數據來自 http://www.answers.com/topic/locality-of-reference

 

各級別的存儲器速度差異非常大,CPU寄存器速度是內存速度的100倍! 這就是爲什麼CPU產商發明了CPU緩存。 而這個CPU緩存,就是數組和鏈表的區別的關鍵所在。

 

CPU緩存會把一片連續的內存空間讀入, 因爲數組結構是連續的內存地址,所以數組全部或者部分元素被連續存在CPU緩存裏面, 平均讀取每個元素的時間只要3個CPU時鐘週期。   而鏈表的節點是分散在堆空間裏面的,這時候CPU緩存幫不上忙,只能是去讀取內存,平均讀取時間需要100個CPU時鐘週期。 這樣算下來,數組訪問的速度比鏈表快33倍! (這裏只是介紹概念,具體的數字因CPU而異)

 

因此,程序中儘量使用連續的數據結構,這樣可以充分發揮CPU緩存的威力。 這種對緩存友好的算法稱爲 Cache-oblivious algorithm, 有興趣可以參考相關資料。再舉一個簡單例子:

 

對比

for i in 0..n
  for j in 0..m
    for k in 0..p
      C[i][j] = C[i][j] + A[i][k] * B[k][j];

for i in 0..n

  for k in 0..p
    for j in 0..m
      C[i][j] = C[i][j] + A[i][k] * B[k][j];

 

雖然兩者執行結果一樣,算法複雜度也一樣,但是你會發現第二種寫法要快很多。 

 

總結一下, 各種存儲器的速度差異很大,在編程中絕對有必要考慮這個因素。 比如,內存速度比硬盤快1萬倍,所以程序中應該儘量避免頻繁的硬盤讀寫;CPU緩存比內存快幾十倍,在程序中儘量多加利用。

 

 

 >> 原創文章的版權屬於作者,轉載請註明出處和作者信息(http://blog.csdn.net/WinGeek/), 謝謝。 <<

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章