dsp cache優化（轉載）

以前我自己編寫過乒乓結構的程序,後來查資料的時候發現乒乓結構還是很普遍的用法，但是我是初學者，其實編程優化方面，只是做過手工的軟件流水，對於硬件的深入瞭解還遠遠不夠，對CACHE的程序級優化還有待提高

下面是今天學習的一些摘錄，我相信對我今後一定有很大用處

對於一般的CPU信號處理加上外圍設備的DMA數據讀寫情況，處理方法是在內存中開闢pingpong緩衝區。inbufa,outbufa,inbufb,outbufb四塊內存區，當CPU處理inbufa的數據並將產生的結果放到outbufa,這是外圍器件DMA搬移數據到inbufb,另一外圍設備將數據從outbufb搬出；同理當CPU處理inbufb並將產生的結果放到outbufb時，外圍設備利用DMA分別從inbufa和outbufa搬入數據和搬出數據。一般L2RAM DMA實現代碼如下：
for (i=0; i<(DATASIZE/BUFSIZE)–2; i+=2)
{
/* –––––––––––––––––––––––––––– */
/* InBuffA –> OutBuffA Processing */
/* –––––––––––––––––––––––––––– */
<DMA_transfer(peripheral, InBuffB, BUFSIZE)>
<DMA_transfer(OutBuffB, peripheral, BUFSIZE)>
process(InBuffA, OutBuffA, BUFSIZE);
/* –––––––––––––––––––––––––––– */
/* InBuffB –> OutBuffB Processing */
/* –––––––––––––––––––––––––––– */
<DMA_transfer(peripheral, InBuffA, BUFSIZE)>
<DMA_transfer(OutBuffA, peripheral, BUFSIZE)>
process(InBuffB, OutBuffB, BUFSIZE);
}
上面CACHE的一致性由CPU自動管理，無須程序員設置，而下面要說的片外RAM開闢雙緩衝區時要求程序員掌握L2cache 和片外RAM coherence(一致性）以及L2RAM和L1D的一致性，否則程序會出錯。
對於C64x系列，無論什麼時候當片外設備DMA寫片外RAM開闢的inbuf時，都要使用CACHE_invL2(InBuffB, BUFSIZE, CACHE_WAIT)，使L1D當中的inbuffb無效；當片外設備DMA讀片外RAM開闢的outbuf時，都要使用CACHE_wbL2(OutBuffB, BUFSIZE, CACHE_WAIT)，使L1D當中的相應數據write back 到片外RAM .
External Memory DMA Double Buffering Code Example
for (i=0; i<(DATASIZE/BUFSIZE)–2; i+=2)
{
/* –––––––––––––––––––––––––– */
/* InBuffA –> OutBuffA Processing */
/* –––––––––––––––––––––––––– */
CACHE_wbInvL2(InBuffB, BUFSIZE, CACHE_WAIT);
<DMA_transfer(peripheral, InBuffB, BUFSIZE)>
CACHE_wbL2(OutBuffB, BUFSIZE, CACHE_WAIT);
<DMA_transfer(OutBuffB, peripheral, BUFSIZE)>
process(InBuffA, OutBuffA, BUFSIZE);
/* –––––––––––––––––––––––––– */
/* InBuffB –> OutBuffB Processing */
/* –––––––––––––––––––––––––– */
CACHE_wbInvL2(InBuffA, BUFSIZE, CACHE_WAIT);
<DMA_transfer(peripheral, InBuffA, BUFSIZE)>
CACHE_wbL2(OutBuffA, BUFSIZE, CACHE_WAIT);
<DMA_transfer(OutBuffA, peripheral, BUFSIZE)>
process(InBuffB, OutBuffB, BUFSIZE);
}
雖然我們可以指定一定大小的buf被write back或者invalidate或者write back+invalidate,但是cache controller是對完整的line操作，這就要求我們在片外RAM開闢內存( 或者數組）作buffer時，儘量使得其大小是CACHE_L2_LINESIZE（128）的整數倍並且CACHE_L2_LINESIZE對齊，爲此我們需要：

#pragma DATA_ALIGN(InBuffA, CACHE_L2_LINESIZE)
#pragma DATA_ALIGN(InBuffB, CACHE_L2_LINESIZE)
#pragma DATA_ALIGN(OutBuffA,CACHE_L2_LINESIZE)
#pragma DATA_ALIGN(OutBuffB,CACHE_L2_LINESIZE)

來對齊buffer。
使用宏#define CACHE_ROUND_TO_LINESIZE(cache,elcnt,elsize) \
((CACHE_#cache#_LINESIZE * \
((elcnt)*(elsize)/CACHE_#cache#_LINESIZE) + 1) / \
(elsize))
來對其內存，使用如下;
unsigned char InBuffA [CACHE_ROUND_TO_LINESIZE(L2, N, sizeof(unsigned char)];
unsigned char OutBuffA[CACHE_ROUND_TO_LINESIZE(L2, N, sizeof(unsigned char)];
unsigned char InBuffB [CACHE_ROUND_TO_LINESIZE(L2, N, sizeof(unsigned char)];
unsigned char OutBuffB[CACHE_ROUND_TO_LINESIZE(L2, N, sizeof(unsigned char)];
這樣我們得到的數組就是內存對齊並且其大小是CACHE_L2_LINESIZE的整數倍，儘管這樣做浪費片外RAM。由於L2CACHE最大256K，所以如果生命的數組大小超過256K，就需要多用幾次cache write back和invalidate函數。
如果程序沒有配置L2CACHE，也就是說片內256K都作爲RAM，那麼當利用片外RAM開闢buffer時要考慮的L1D和L1P與片外設備的一致性問題，也有一組相應的write back和invalidate函數對應。

3 基於cache的程序優化
3.1 應用級優化（application-level optimization)
1) 合理設置cache大小，儘量將DMA用到的buffer開在片內RAM上
2) 將一般性程序代碼和數據放到片外RAM，將DSP型代碼和數據放到L2RAM。所謂一般性代碼是指帶有很多條件分支轉移的指令，程序執行在空間上有隨意性，不利於流水線的形成，外在片外可以發揮L2CACHE 4 way的優勢。DSP型代碼是指算法型的代碼，放在L2RAM，CPU stall 時間少，可以充分發揮DSP速度快的優勢。
3.2 程序級優化（procedural-level optimization)
1)選擇合適的數據類型。能用short就不要用int。
2)將同一個函數要處理的數據儘量在內存中連續存放。
3.3避免L1P read miss
這種情況發生在一個循環體中有兩個或以上的函數要執行，要利用#pragma DATA_SECTION僞指令將和CMD文件將其在內存中相鄰定位，這樣不會發生兩個程序對應L1P中相同line所造成的衝突缺失。
若果循環體中的兩個函數大小超過L1P容量，將這兩個函數分別放到兩個循環體中。這樣做會造成中間數據變量的加大。
3.4避免L1D read miss
利用#pragma DATA_SECTION僞指令將函數要同時處理的數組在內存中相鄰存放。最好再用#pragma DATA_MEM_BANK 將數組內存對齊

dsp cache優化（轉載）

如何使用 JS 判斷用戶是否處於活躍狀態

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

dsp cache優化（轉載）

我的友情鏈接

CCIR601和CCIR656標準的區別

千里之行始於足下

dsp cache優化（轉載）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結