dsp cache優化(轉載)

以前我自己編寫過乒乓結構的程序,後來查資料的時候發現乒乓結構還是很普遍的用法,但是我是初學者,其實編程優化方面,只是做過手工的軟件流水,對於硬件的深入瞭解還遠遠不夠,對CACHE的程序級優化還有待提高

下面是今天學習的一些摘錄,我相信對我今後一定有很大用處

 

對於一般的CPU信號處理加上外圍設備的DMA數據讀寫情況,處理方法是在內存中開闢pingpong緩衝區。inbufa,outbufa,inbufb,outbufb四塊內存區,當CPU處理inbufa的數據並將產生的結果放到outbufa,這是外圍器件DMA搬移數據到inbufb,另一外圍設備將數據從outbufb搬出;同理當CPU處理inbufb並將產生的結果放到outbufb時,外圍設備利用DMA分別從inbufa和outbufa搬入數據和搬出數據。一般L2RAM DMA實現代碼如下:
for (i=0; i<(DATASIZE/BUFSIZE)–2; i+=2)
{
/* –––––––––––––––––––––––––––– */
/* InBuffA –> OutBuffA Processing */
/* –––––––––––––––––––––––––––– */
<DMA_transfer(peripheral, InBuffB, BUFSIZE)>
<DMA_transfer(OutBuffB, peripheral, BUFSIZE)>
process(InBuffA, OutBuffA, BUFSIZE);
/* –––––––––––––––––––––––––––– */
/* InBuffB –> OutBuffB Processing */
/* –––––––––––––––––––––––––––– */
<DMA_transfer(peripheral, InBuffA, BUFSIZE)>
<DMA_transfer(OutBuffA, peripheral, BUFSIZE)>
process(InBuffB, OutBuffB, BUFSIZE);
}
上面CACHE的一致性由CPU自動管理,無須程序員設置,而下面要說的片外RAM開闢雙緩衝區時要求程序員掌握L2cache 和片外RAM coherence(一致性)以及L2RAM和L1D的一致性,否則程序會出錯。
對於C64x系列,無論什麼時候當片外設備DMA寫片外RAM開闢的inbuf時,都要使用CACHE_invL2(InBuffB, BUFSIZE, CACHE_WAIT),使L1D當中的inbuffb無效;當片外設備DMA讀片外RAM開闢的outbuf時,都要使用CACHE_wbL2(OutBuffB, BUFSIZE, CACHE_WAIT),使L1D當中的相應數據write back 到片外RAM .
External Memory DMA Double Buffering Code Example
for (i=0; i<(DATASIZE/BUFSIZE)–2; i+=2)
{
/* –––––––––––––––––––––––––– */
/* InBuffA –> OutBuffA Processing */
/* –––––––––––––––––––––––––– */
CACHE_wbInvL2(InBuffB, BUFSIZE, CACHE_WAIT);
<DMA_transfer(peripheral, InBuffB, BUFSIZE)>
CACHE_wbL2(OutBuffB, BUFSIZE, CACHE_WAIT);
<DMA_transfer(OutBuffB, peripheral, BUFSIZE)>
process(InBuffA, OutBuffA, BUFSIZE);
/* –––––––––––––––––––––––––– */
/* InBuffB –> OutBuffB Processing */
/* –––––––––––––––––––––––––– */
CACHE_wbInvL2(InBuffA, BUFSIZE, CACHE_WAIT);
<DMA_transfer(peripheral, InBuffA, BUFSIZE)>
CACHE_wbL2(OutBuffA, BUFSIZE, CACHE_WAIT);
<DMA_transfer(OutBuffA, peripheral, BUFSIZE)>
process(InBuffB, OutBuffB, BUFSIZE);
}
雖然我們可以指定一定大小的buf被write back或者invalidate或者write back+invalidate,但是cache controller是對完整的line操作,這就要求我們在片外RAM開闢內存( 或者數組)作buffer時,儘量使得其大小是CACHE_L2_LINESIZE(128)的整數倍並且CACHE_L2_LINESIZE對齊,爲此我們需要:

#pragma DATA_ALIGN(InBuffA, CACHE_L2_LINESIZE)
#pragma DATA_ALIGN(InBuffB, CACHE_L2_LINESIZE)
#pragma DATA_ALIGN(OutBuffA,CACHE_L2_LINESIZE)
#pragma DATA_ALIGN(OutBuffB,CACHE_L2_LINESIZE)

來對齊buffer。
使用宏#define CACHE_ROUND_TO_LINESIZE(cache,elcnt,elsize) \
((CACHE_#cache#_LINESIZE * \
((elcnt)*(elsize)/CACHE_#cache#_LINESIZE) + 1) / \
(elsize))
來對其內存,使用如下;
unsigned char InBuffA [CACHE_ROUND_TO_LINESIZE(L2, N, sizeof(unsigned char)];
unsigned char OutBuffA[CACHE_ROUND_TO_LINESIZE(L2, N, sizeof(unsigned char)];
unsigned char InBuffB [CACHE_ROUND_TO_LINESIZE(L2, N, sizeof(unsigned char)];
unsigned char OutBuffB[CACHE_ROUND_TO_LINESIZE(L2, N, sizeof(unsigned char)];
這樣我們得到的數組就是內存對齊並且其大小是CACHE_L2_LINESIZE的整數倍,儘管這樣做浪費片外RAM。由於L2CACHE最大256K,所以如果生命的數組大小超過256K,就需要多用幾次cache write back和invalidate函數。
如果程序沒有配置L2CACHE,也就是說片內256K都作爲RAM,那麼當利用片外RAM開闢buffer時要考慮的L1D和L1P與片外設備的一致性問題,也有一組相應的write back和invalidate函數對應。

3    基於cache的程序優化
3.1    應用級優化 (application-level optimization)
1) 合理設置cache大小,儘量將DMA用到的buffer開在片內RAM上
2) 將一般性程序代碼和數據放到片外RAM,將DSP型代碼和數據放到L2RAM。所謂一般性代碼是指帶有很多條件分支轉移的指令,程序執行在空間上有隨意性,不利於流水線的形成,外在片外可以發揮L2CACHE 4 way的優勢。DSP型代碼是指算法型的代碼,放在L2RAM,CPU stall 時間少,可以充分發揮DSP速度快的優勢。
3.2 程序級優化(procedural-level optimization)
1)選擇合適的數據類型。能用short就不要用int。
2)將同一個函數要處理的數據儘量在內存中連續存放。
3.3避免L1P read miss
這種情況發生在一個循環體中有兩個或以上的函數要執行,要利用#pragma DATA_SECTION僞指令將和CMD文件將其在內存中相鄰定位,這樣不會發生兩個程序對應L1P中相同line所造成的衝突缺失。
若果循環體中的兩個函數大小超過L1P容量,將這兩個函數分別放到兩個循環體中。這樣做會造成中間數據變量的加大。
3.4避免L1D read miss
利用#pragma DATA_SECTION僞指令將函數要同時處理的數組在內存中相鄰存放。最好再用#pragma DATA_MEM_BANK 將數組內存對齊


 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章