ARM程序優化及其在嵌入式TCP/IP協議實現中的應用

摘要:本文從ARM結構的特點出發,根據程序優化的基本原則,闡述了面向ARM的C語言程序優化設計的一些基本原則和方法及其在TCP/IP協議實現中的應用。


關鍵詞:程序優化;嵌入式系統;ARM結構;TCP/IP協議


隨着嵌入式技術的發展,人們對系統的智能化、小型化的要求也越來越高。基於ARM結構的微處理器以其高性能、低功耗、低價格等方面的優勢被廣泛應用於各種電子產品,特別是一些高端的嵌入式控制應用中,例如移動電話、工業控制、網絡通信等方面。ARM技術具有很好的性能和功效,其合作伙伴包括許多世界頂級的半導體公司。可以說ARM技術幾乎無處不在。


TCP/IP互聯網協議族在全世界範圍內已經成爲開放系統互聯的協議,它提供了很好的交互操作能力,可兼容多種網絡技術。嵌入式技術與TCP/IP技術的結合已經展現出強勁的發展勢頭和巨大的市場潛力。如何開發面向ARM的高效代碼,尤其是提高類似於TCP/IP協議棧等基礎性的軟件模塊的執行效率已成爲每個從事基於ARM的嵌入式系統開發人員必須思考的問題。


面向ARM的程序優化


開發高效的程序涉及很多方面,包括優秀的算法實現、良好的編程風格以及針對目標的程序優化。程序優化是指軟件編程基本結束後,利用軟件開發工具對程序代碼進行調整和改進,使程序能夠更加充分地利用有限的軟硬件資源,縮減代碼尺寸,提高運行效率的過程。


在實際的程序設計過程中,程序優化的兩個目標(運行速度和代碼大小)往往是互相矛盾的。爲了提高程序運行效率,就要以犧牲存儲空間、增加代碼量爲代價;而爲了減少程序代碼量、壓縮存儲器空間,可能又要以降低程序運行效率爲代價。按照優化的側重點不同,程序優化可分爲運行速度優化和代碼尺寸優化。隨着微電子技術的不斷髮展,存儲空間已不再是制約系統集成的主要因素。面向ARM的程序優化主要是討論如何在瞭解彙編語言和編譯規則的基礎上編寫出能夠高效運行的C語言程序。


作爲高性能、低功耗的RISC芯片,ARM的C語言編譯器已經非常成熟。儘管如此,在編寫面向ARM的C源程序時,對程序進行必要的優化仍是提高程序運行效率的有效途徑。以下是一些在實現TCP/IP協議過程中用到的比較典型的優化原則和方法,這些技術也適用於其他RISC
指令集微處理器。


變量定義
32位ARM處理器的指令集支持有符號/無符號的8位、16位、32位整型和浮點型變量類型,這不僅可以節省代碼,而且可以提高代碼的運行效率。按照作用範圍的不同,C語言的變量可以劃分爲全局變量和局部變量。ARM編譯器通常將全局變量定位在存儲空間中,局部變量分配給通用寄存器。


在全局變量聲明時,需要考慮最佳的存儲器佈局,使得各種類型的變量能以32位的空間位基準對齊,從而減少不必要的存儲空間浪費,提高運行效率。如:


這裏定義的四個變量形式相同,只是次序不同,卻導致了在最終映像中不同的數據佈局,如圖1所示。顯然第二種方式節約了更多的存儲器空間。


圖1 變量在數據區中的佈局


對於局部變量,要儘量不使用32位以外的變量類型。當一個函數的局部變量數目不多時,編譯器會把局部變量分配給內部寄存器,每個變量佔一個32位的寄存器。這樣short和char類型的變量不但起不到節省空間的作用,反而會耗費更多的指令週期來完成short和char的存取操作。C語言代碼及其編譯結果如下所示:






條件執行
條件執行是程序中必不可少的基本操作。典型的條件執行代碼序列是由一個比較指令開始的,接下來是一系列相關的執行語句。ARM中的條件執行是通過對運算結果標誌位進行判斷實現的,一些帶標誌位的運算結果中,N和Z標誌位的結果與比較語句的結果相同。儘管在C語言中沒有帶標誌位的指令,但在面向ARM的C語言程序中,如果運算結果是與0作比較,編譯器會移去比較指令,通過一條帶標誌位指令實現運算和判斷。例如:




因此,面向ARM的C語言程序設計的條件判斷應當儘量採用“與0比較”的形式。C語言中,條件執行語句大多數應用在if條件判斷中,也有應用在複雜的關係運算(<,==,>等)及位操運算(&&,!,and等)中的。面向ARM的C語言程序設計中,有符號型變量應儘量採取x<0、x>=0、x==0、x!=0的關係運算;對於無符號型的變量應採用x==0、x!=0(或者x>0)關係運算符。編譯器都可以對條件執行進行優化。


對於程序設計中的條件語句,應儘量簡化if和else判斷條件。與傳統的C語言程序設計有所不同,面向ARM的C語言程序設計中,關係表述中類似的條件應該集中在一起,使編譯器能夠對判斷條件進行優化。


循環
循環是程序設計中非常普遍的結構。在嵌入式系統中,微處理器執行時間在循環中運行的比例較大,因此關注循環的執行效率是非常必要的。除了在保證系統正確工作的前提下儘量簡化核循環體的過程以外,正確和高效的循環結束標誌條件也非常重要。按照以上所述的“與0比較”原則,程序中的循環結束條件應該是“減到0”的循環,結束條件儘量簡單。應儘可能在關鍵循環中採取上述的判斷形式,這樣可以在關鍵循環中省去一些不必要的比較語句,減少不必要的開銷,提高性能。如下面二個示例:




fact1和fact2中通過定義局部變量a來減少對n的load/store操作。fact2函數遵循了“與0比較”原則,省去了fact1編譯結果中的比較指令,並且,變量n在整個循環過程不參與運算,也不需要保存。由於省去了寄存器分配,從而給其他部分程序的編譯帶來了方便,提高了運行效率。


“減到0”的方法同樣適用於while和do語句。如果一個循環體只循環幾次,可以用展開的方法提高運行效率。當循環展開後,不需要循環計數器和相關的跳轉語句,雖然代碼的長度有所增加,但是得到了更高的執行效率。


除法和求餘
ARM指令集中沒有提供整數的除法,除法是由C語言函數庫中的代碼(符號型_rt_sdiv和無符號型的_rt_udiv)實現的。一個32位數的除法需要20~140個週期,依賴於分子和分母的取值。除法操作所用的時間是一個時間常量乘每一位除法所需要的時間:


Time(分子/分母)=C0+C1×log2(分子/分母)
=C0+C1×(log2(分子)-log2(分母))
由於除法的執行週期長,耗費的資源多,程序設計中應當儘量避免使用除法。以下是一些避免調用除法的變通辦法:


(1)在某些特定的程序設計時,可以把除法改寫爲乘法。例如:(x/y)>z,在已知y是正數而且y×z是整數的情況下,就可以寫爲x>(z×y)。


(2)儘可能使用2的次方作爲除數,編譯器使用移位操作完成除法,如128就比100更加適合。在程序設計中,使用無符號型的除法要快於符號型的除法。


(3)使用求餘運算的一個目的是爲了按模計算,這樣的操作有時可以使用if的判斷語句來完成,考慮如下的應用:


uintcounter1(uintcount)uintcounter2(uintcount)


{{return(++count`);if(++count>=60)}count=0;
return(count);}


(4)對於一些特殊的除法和求餘運算,採用查找表的方法也可以獲得很好的運行效果。


在除以某些特定的常數時,編寫特定的函數完成此操作會比編譯產生的代碼效率高很多。ARM的C語言庫中就有二個這樣的符號型和無符號型數除以10的函數,用來完成十進制數的快速運算。在toolkit子目錄的examples\explasm\div.c和examples\thumb\div.c文件中,有這二個函數的ARM和Thumb版本。


面向ARM的程序優化在嵌入式TCP/IP協議實現中的應用


筆者採用ATMEL公司的AT91RM9200微處理器,配合以太網物理層驅動芯片(DM9161)構建面向網絡的嵌入式系統硬件平臺,如圖2所示。在此平臺上,實現基於ARM微處理器的嵌入式TCP/IP協議處理。


基於ARM的嵌入式系統直接面向以太網數據,典型的以太網數據封裝格式如圖3所示。根據以上的優化方法,在變量定義時需要考慮最佳的存儲器佈局,使得各種類型的變量能以32位的空間位基準對齊,對於功能函數中參加運算的數據應儘量採用32位的數據進行處理。


嵌入式TCP/IP協議的實現通常採用Linux中的TCP/IP網絡結構層次。TCP/IP協議實現網絡層和控制層的ARP/RARP、IP、ICMP、TCP、UDP等協議,直接爲HTTP、SMTP、FTP、TELNET等這樣的應用層協議提供支持。每個系統都需要具體定義應用層程序和協議軟件之間的接口。


協議處理的一般流程如圖4所示。協議處理過程中需要多次條件判斷,對IP地址和TCP數據的校驗和處理循環比較是無法避免的,因此可以充分利用“與0比較”的條件判斷和“減到0”的循環來優化程序設計。


結束語


除了以上所述的面向ARM的程序優化的原則和方法以外,C語言程序設計本身還有很多程序優化的方法。在上述基於ARM嵌入式系統硬件平臺的系統開發過程中,充分利用面向ARM的C程序優化設計方法,可將TCP/IP協議處理模塊的可執行代碼減少5%以上,執行效率有所提高。實踐證明,基於ARM的嵌入式系統設計中,在透徹瞭解ARM彙編指令的特性和編譯過程的基礎上,合理地使用程序優化的原則和方法可以有效地提高編譯效率和代碼執行效率。

點擊打開鏈接

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章