彙編語言的準備知識和初級教程

彙編語言和CPU以及內存,端口等硬件知識是連在一起的. 這也是爲什麼彙編語言沒有通用性的原因. 下面簡單講講基本知識(針對INTEL x86及其兼容機)
  ============================
  x86彙編語言的指令,其操作對象是CPU上的寄存器,系統內存,或者立即數. 有些指令表面上沒有操作數, 或者看上去缺少操作數, 其實該指令有內定的操作對象, 比如push指令, 一定是對SS:ESP指定的內存操作, 而cdq的操作對象一定是eax / edx.

  在彙編語言中,寄存器用名字來訪問. CPU 寄存器有好幾類, 分別有不同的用處:

  1. 通用寄存器:
  EAX,EBX,ECX,EDX,ESI,EDI,EBP,ESP(這個雖然通用,但很少被用做除了堆棧指針外的用途)
  
  這些32位可以被用作多種用途,但每一個都有"專長". EAX 是"累加器"(accumulator), 它是很多加法乘法指令的缺省寄存器. EBX 是"基地址"(base)寄存器, 在內存尋址時存放基地址. ECX 是計數器(counter), 是重複(REP)前綴指令和LOOP指令的內定計數器. EDX是...(忘了..哈哈)但它總是被用來放整數除法產生的餘數. 這4個寄存器的低16位可以被單獨訪問,分別用AX,BX,CX和DX. AX又可以單獨訪問低8位(AL)和高8位(AH), BX,CX,DX也類似. 函數的返回值經常被放在EAX中.
  
  ESI/EDI分別叫做"源/目標索引寄存器"(source/destination index),因爲在很多字符串操作指令中, DS:ESI指向源串,而ES:EDI指向目標串.

  EBP是"基址指針"(BASE POINTER), 它最經常被用作高級語言函數調用的"框架指針"(frame pointer). 在破解的時候,經常可以看見一個標準的函數起始代碼:
  
  push ebp ;保存當前ebp
  mov ebp,esp ;EBP設爲當前堆棧指針
  sub esp, xxx ;預留xxx字節給函數臨時變量.
  ...
  
  這樣一來,EBP 構成了該函數的一個框架, 在EBP上方分別是原來的EBP, 返回地址和參數. EBP下方則是臨時變量. 函數返回時作 mov esp,ebp/pop ebp/ret 即可.
  
  ESP 專門用作堆棧指針.
  
  2. 段寄存器:
  CS(Code Segment,代碼段) 指定當前執行的代碼段. EIP (Instruction pointer, 指令指針)則指向該段中一個具體的指令. CS:EIP指向哪個指令, CPU 就執行它. 一般只能用jmp, ret, jnz, call 等指令來改變程序流程,而不能直接對它們賦值.
  DS(DATA SEGMENT, 數據段) 指定一個數據段. 注意:在當前的計算機系統中, 代碼和數據沒有本質差別, 都是一串二進制數, 區別只在於你如何用它. 例如, CS 制定的段總是被用作代碼, 一般不能通過CS指定的地址去修改該段. 然而,你可以爲同一個段申請一個數據段描述符"別名"而通過DS來訪問/修改. 自修改代碼的程序常如此做.
  ES,FS,GS 是輔助的段寄存器, 指定附加的數據段.
  SS(STACK SEGMENT)指定當前堆棧段. ESP 則指出該段中當前的堆棧頂. 所有push/pop 系列指令都只對SS:ESP指出的地址進行操作.
  
  3. 標誌寄存器(EFLAGS):

  該寄存器有32位,組合了各個系統標誌. EFLAGS一般不作爲整體訪問, 而只對單一的標誌位感興趣. 常用的標誌有:
  
  進位標誌C(CARRY), 在加法產生進位或減法有借位時置1, 否則爲0.
  零標誌Z(ZERO), 若運算結果爲0則置1, 否則爲0
  符號位S(SIGN), 若運算結果的最高位置1, 則該位也置1. 
  溢出標誌O(OVERFLOW), 若(帶符號)運算結果超出可表示範圍, 則置1. 
  
  JXX 系列指令就是根據這些標誌來決定是否要跳轉, 從而實現條件分枝. 要注意,很多JXX 指令是等價的, 對應相同的機器碼. 例如, JE 和JZ 是一樣的,都是當Z=1是跳轉. 只有JMP 是無條件跳轉. JXX 指令分爲兩組, 分別用於無符號操作和帶符號操作. JXX 後面的"XX" 有如下字母:
  
  無符號操作: 帶符號操作:
  A = "ABOVE", 表示"高於" G = "GREATER", 表示"大於"
  B = "BELOW", 表示"低於" L = "LESS", 表示"小於"
  C = "CARRY", 表示"進位"或"借位" O = "OVERFLOW", 表示"溢出"
  S = "SIGN", 表示"負"
  通用符號:
  E = "EQUAL" 表示"等於", 等價於Z (ZERO)
  N = "NOT" 表示"非", 即標誌沒有置位. 如JNZ "如果Z沒有置位則跳轉"
  Z = "ZERO", 與E同.
  
  如果仔細想一想,就會發現 JA = JNBE, JAE = JNB, JBE = JNA, JG = JNLE, JGE= JNL, JL= JNGE, ....
  
  4. 端口

  端口是直接和外部設備通訊的地方。外設接入系統後,系統就會把外設的數據接口映射到特定的端口地址空間,這樣,從該端口讀入數據就是從外設讀入數據,而向外設寫入數據就是向端口寫入數據。當然這一切都必須遵循外設的工作方式。端口的地址空間與內存地址空間無關,系統總共提供對64K個8位端口的訪問,編號0-65535. 相鄰的8位端口可以組成成一個16位端口,相鄰的16位端口可以組成一個32位端口。端口輸入輸出由指令IN,OUT,INS和OUTS實現,具體可參考彙編語言書籍。

  彙編指令的操作數可以是內存中的數據, 如何讓程序從內存中正確取得所需要的數據就是對內存的尋址。

  INTEL 的CPU 可以工作在兩種尋址模式:實模式和保護模式。 前者已經過時,就不講了, WINDOWS 現在是32位保護模式的系統, PE 文件就基本是運行在一個32位線性地址空間, 所以這裏就只介紹32位線性空間的尋址方式。

  其實線性地址的概念是很直觀的, 就想象一系列字節排成一長隊,第一個字節編號爲0, 第二個編號位1, 。。。。 一直到4294967295(十六進制FFFFFFFF,這是32位二進制數所能表達的最大值了)。 這已經有4GB的容量! 足夠容納一個程序所有的代碼和數據。 當然, 這並不表示你的機器有那麼多內存。 物理內存的管理和分配是很複雜的內容, 初學者不必在意, 總之, 從程序本身的角度看, 就好象是在那麼大的內存中。

  在INTEL系統中, 內存地址總是由"段選擇符:有效地址"的方式給出。段選擇符(SELECTOR)存放在某一個段寄存器中, 有效地址則可由不同的方式給出。 段選擇符通過檢索段描述符確定段的起始地址, 長度(又稱段限制), 粒度, 存取權限, 訪問性質等。 先不用深究這些, 只要知道段選擇符可以確定段的性質就行了。 一旦由選擇符確定了段, 有效地址相對於段的基地址開始算。 比如由選擇符1A7選擇的數據段, 其基地址是400000, 把1A7 裝入DS中, 就確定使用該數據段。 DS:0 就指向線性地址400000。 DS:1F5278 就指向線性地址5E5278。 我們在一般情況下, 看不到也不需要看到段的起始地址, 只需要關心在該段中的有效地址就行了。 在32位系統中, 有效地址也是由32位數字表示, 就是說, 只要有一個段就足以涵蓋4GB線性地址空間, 爲什麼還要有不同的段選擇符呢? 正如前面所說的, 這是爲了對數據進行不同性質的訪問。 非法的訪問將產生異常中斷, 而這正是保護模式的核心內容, 是構造優先級和多任務系統的基礎。 這裏有涉及到很多深層的東西, 初學者先可不必理會。

  有效地址的計算方式是: 基址+間址*比例因子+偏移量。 這些量都是指段內的相對於段起始地址的量度, 和段的起始地址沒有關係。 比如, 基址=100000, 間址=400, 比例因子=4, 偏移量=20000, 則有效地址爲:

  100000+400*4+20000=100000+1000+20000=121000。 對應的線性地址是400000+121000=521000。 (注意, 都是十六進制數)。

  基址可以放在任何32位通用寄存器中, 間址也可以放在除ESP外的任何一個通用寄存器中。 比例因子可以是1, 2, 4 或8。 偏移量是立即數。 如: [EBP+EDX*8+200]就是一個有效的有效地址表達式。 當然, 多數情況下用不着這麼複雜, 間址,比例因子和偏移量不一定要出現。

  內存的基本單位是字節(BYTE)。 每個字節是8個二進制位, 所以每個字節能表示的最大的數是11111111, 即十進制的255。 一般來說, 用十六進制比較方便, 因爲每4個二進制位剛好等於1個十六進制位, 11111111b = 0xFF。 內存中的字節是連續存放的, 兩個字節構成一個字(WORD), 兩個字構成一個雙字(DWORD)。 在INTEL架構中, 採用small endian格式, 即在內存中,高位字節在低位字節後面。 舉例說明:十六進制數803E7D0C, 每兩位是一個字節, 在內存中的形式是: 0C 7D 3E 80。 在32位寄存器中則是正常形式,如在EAX就是803E7D0C。 當我們的形式地址指向這個數的時候,實際上是指向第一個字節,即0C。 我們可以指定訪問長度是字節, 字或者雙字。 假設DS:[EDX]指向第一個字節0C:

  mov AL, byte ptr DS:[EDX] ;把字節0C存入AL 
  mov AX, word ptr DS:[EDX] ;把字7D0C存入AX 
  mov EAX, dword ptr DS:[EDX] ;把雙字803E7D0C存入EAX

  在段的屬性中,有一個就是缺省訪問寬度。如果缺省訪問寬度爲雙字(在32位系統中經常如此),那麼要進行字節或字的訪問,就必須用byte/word ptr顯式地指明。

  缺省段選擇:如果指令中只有作爲段內偏移的有效地址,而沒有指明在哪一個段裏的時候,有如下規則:

  如果用ebp和esp作爲基址或間址,則認爲是在SS確定的段中; 
  其他情況,都認爲是在DS確定的段中。

  如果想打破這個規則,就必須使用段超越前綴。舉例如下:

  mov eax, dword ptr [edx] ;缺省使用DS,把DS:[EDX]指向的雙字送入eax 
  mov ebx, dword ptr ES:[EDX] ;使用ES:段超越前綴,把ES:[EDX]指向的雙字送入ebx

  堆棧:

  堆棧是一種數據結構,嚴格地應該叫做“棧”。“堆”是另一種類似但不同的結構。SS 和 ESP 是INTEL對棧這種數據結構的硬件支持。push/pop指令是專門針對棧結構的特定操作。SS指定一個段爲棧段,ESP則指出當前的棧頂。push xxx 指令作如下操作:

  把ESP的值減去4; 
  把xxx存入SS:[ESP]指向的內存單元。

  這樣,esp的值減小了4,並且SS:[ESP]指向新壓入的xxx。 所以棧是“倒着長”的,從高地址向低地址方向擴展。pop yyy 指令做相反的操作,把SS:[ESP]指向的雙字送到yyy指定的寄存器或內存單元,然後把esp的值加上4。這時,認爲該值已被彈出,不再在棧上了,因爲它雖然還暫時存在在原來的棧頂位置,但下一個push操作就會把它覆蓋。因此,在棧段中地址低於esp的內存單元中的數據均被認爲是未定義的。

  最後,有一個要注意的事實是,彙編語言是面向機器的,指令和機器碼基本上是一一對應的,所以它們的實現取決於硬件。有些看似合理的指令實際上是不存在的,比如:

  mov DS:[edx], ds:[ecx] ;內存單元之間不能直接傳送 
  mov DS, 1A7 ;段寄存器不能直接由立即數賦值 
  mov EIP, 3D4E7 ;不能對指令指針直接操作。

  “彙編語言”作爲一門語言,對應於高級語言的編譯器,我們需要一個“彙編器”來把彙編語言原文件彙編成機器可執行的代碼。高級的彙編器如MASM, TASM等等爲我們寫匯編程序提供了很多類似於高級語言的特徵,比如結構化、抽象等。在這樣的環境中編寫的匯編程序,有很大一部分是面向彙編器的僞指令,已經類同於高級語言。現在的彙編環境已經如此高級,即使全部用匯編語言來編寫windows的應用程序也是可行的,但這不是彙編語言的長處。彙編語言的長處在於編寫高效且需要對機器硬件精確控制的程序。而且我想這裏的人學習彙編的目的多半是爲了在破解時看懂反彙編代碼,很少有人真的要拿彙編語言編程序吧?(汗......)

  好了,言歸正傳。大多數彙編語言書都是面向彙編語言編程的,我的帖是面向機器和反彙編的,希望能起到相輔相成的作用。有了前面兩篇的基礎,彙編語言書上對大多數指令的介紹應該能夠看懂、理解了。這裏再講一講一些常見而操作比較複雜的指令。我這裏講的都是機器的硬指令,不針對任何彙編器。

  無條件轉移指令jmp:

  這種跳轉指令有三種方式:短(short),近(near)和遠(far)。短是指要跳至的目標地址與當前地址前後相差不超過128字節。近是指跳轉的目標地址與當前地址在用一個段內,即CS的值不變,只改變EIP的值。遠指跳到另一個代碼段去執行,CS/EIP都要改變。短和近在編碼上有所不同,在彙編指令中一般很少顯式指定,只要寫 jmp 目標地址,幾乎任何彙編器都會根據目標地址的距離採用適當的編碼。遠轉移在32位系統中很少見到,原因前面已經講過,由於有足夠的線性空間,一個程序很少需要兩個代碼段,就連用到的系統模塊也被映射到同一個地址空間。

  jmp的操作數自然是目標地址,這個指令支持直接尋址和間接尋址。間接尋址又可分爲寄存器間接尋址和內存間接尋址。舉例如下(32位系統):

  jmp 8E347D60 ;直接尋址段內跳轉 
  jmp EBX ;寄存器間接尋址:只能段內跳轉 
  jmp dword ptr [EBX] ;內存間接尋址,段內跳轉 
  jmp dword ptr [00903DEC] ;同上 
  jmp fward ptr [00903DF0] ;內存間接尋址,段間跳轉

  解釋: 
  在32位系統中,完整目標地址由16位段選擇子和32位偏移量組成。因爲寄存器的寬度是32位,因此寄存器間接尋址只能給出32位偏移量,所以只能是段內近轉移。在內存間接尋址時,指令後面是方括號內的有效地址,在這個地址上存放跳轉的目標地址。比如,在[00903DEC]處有如下數據:7C 82 59 00 A7 01 85 65 9F 01

  內存字節是連續存放的,如何確定取多少作爲目標地址呢?dword ptr 指明該有效地址指明的是雙字,所以取 
  0059827C作段內跳轉。反之,fward ptr 指明後面的有效地址是指向48位完全地址,所以取19F:658501A7 做遠跳轉。

  注意:在保護模式下,如果段間轉移涉及優先級的變化,則有一系列複雜的保護檢查,現在可不加理會。將來等各位功力提升以後可以自己去學習。

  條件轉移指令jxx:只能作段內轉移,且只支持直接尋址。

  ========================================= 
  調用指令CALL:

  Call的尋址方式與jmp基本相同,但爲了從子程序返回,該指令在跳轉以前會把緊接着它的下一條指令的地址壓進堆棧。如果是段內調用(目標地址是32位偏移量),則壓入的也只是一個偏移量。如果是段間調用(目標地址是48位全地址),則也壓入下一條指令的完全地址。同樣,如果段間轉移涉及優先級的變化,則有一系列複雜的保護檢查。

  與之對應retn/retf指令則從子程序返回。它從堆棧上取得返回地址(是call指令壓進去的)並跳到該地址執行。retn取32位偏移量作段內返回,retf取48位全地址作段間返回。retn/f 還可以跟一個立即數作爲操作數,該數實際上是從堆棧上傳給子程序的參數的個數(以字計)返回後自動把堆棧指針esp加上指定的數*2,從而丟棄堆棧中的參數。這裏具體的細節留待下一篇講述。

  雖然call和ret設計爲一起工作,但它們之間沒有必然的聯繫。就是說,如果你直接用push指令向堆棧中壓入一個數,然後執行ret,他同樣會把你壓入的數作爲返回地址,而跳到那裏去執行。這種非正常的流程轉移可以被用作反跟蹤手段。

  ========================================== 
  中斷指令INT n

  在保護模式下,這個指令必定會被操作系統截獲。在一般的PE程序中,這個指令已經不太見到了,而在DOS時代,中斷是調用操作系統和BIOS的重要途徑。現在的程序可以文質彬彬地用名字來調用windows功能,如 call user32!getwindowtexta。從程序角度看,INT指令把當前的標誌寄存器先壓入堆棧,然後把下一條指令的完全地址也壓入堆棧,最後根據操作數n來檢索“中斷描述符表”,試圖轉移到相應的中斷服務程序去執行。通常,中斷服務程序都是操作系統的核心代碼,必然會涉及到優先級轉換和保護性檢查、堆棧切換等等,細節可以看一些高級的教程

  與之相應的中斷返回指令IRET做相反的操作。它從堆棧上取得返回地址,並用來設置CS:EIP,然後從堆棧中彈出標誌寄存器。注意,堆棧上的標誌寄存器值可能已經被中斷服務程序所改變,通常是進位標誌C, 用來表示功能是否正常完成。同樣的,IRET也不一定非要和INT指令對應,你可以自己在堆棧上壓入標誌和地址,然後執行IRET來實現流程轉移。實際上,多任務操作系統常用此伎倆來實現任務轉換。

  廣義的中斷是一個很大的話題,有興趣可以去查閱系統設計的書籍。

  ============================================ 
  裝入全指針指令LDS,LES,LFS,LGS,LSS

  這些指令有兩個操作數。第一個是一個通用寄存器,第二個操作數是一個有效地址。指令從該地址取得48位全指針,將選擇符裝入相應的段寄存器,而將32位偏移量裝入指定的通用寄存器。注意在內存中,指針的存放形式總是32位偏移量在前面,16位選擇符在後面。裝入指針以後,就可以用DS:[ESI]這樣的形式來訪問指針指向的數據了。

  ============================================ 
  字符串操作指令

  這裏包括CMPS,SCAS,LODS,STOS,MOVS,INS和OUTS等。這些指令有一個共同的特點,就是沒有顯式的操作數,而由硬件規定使用DS:[ESI]指向源字符串,用ES:[EDI]指向目的字符串,用AL/AX/EAX做暫存。這是硬件規定的,所以在使用這些指令之前一定要設好相應的指針。 
  這裏每一個指令都有3種寬度形式,如CMPSB(字節比較)、CMPSW(字比較)、CMPSD(雙字比較)等。 
  CMPSB:比較源字符串和目標字符串的第一個字符。若相等則Z標誌置1。若不等則Z標誌置0。指令執行完後,ESI 和EDI都自動加1,指向源/目標串的下一個字符。如果用CMPSW,則比較一個字,ESI/EDI自動加2以指向下一個字。 
  如果用CMPSD,則比較一個雙字,ESI/EDI自動加4以指向下一個雙字。(在這一點上這些指令都一樣,不再贅述) 
  SCAB/W/D 把AL/AX/EAX中的數值與目標串中的一個字符/字/雙字比較。 
  LODSB/W/D 把源字符串中的一個字符/字/雙字送入AL/AX/EAX 
  STOSB/W/D 把AL/AX/EAX中的直送入目標字符串中 
  MOVSB/W/D 把源字符串中的字符/字/雙字複製到目標字符串 
  INSB/W/D 從指定的端口讀入字符/字/雙字到目標字符串中,端口號碼由DX寄存器指定。 
  OUTSB/W/D 把源字符串中的字符/字/雙字送到指定的端口,端口號碼由DX寄存器指定。

  串操作指令經常和重複前綴REP和循環指令LOOP結合使用以完成對整個字符串的操作。而REP前綴和LOOP指令都有硬件規定用ECX做循環計數器。舉例:

  LDS ESI,SRC_STR_PTR 
  LES EDI,DST_STR_PTR 
  MOV ECX,200 
  REP MOVSD

  上面的代碼從SRC_STR拷貝200個雙字到DST_STR. 細節是:REP前綴先檢查ECX是否爲0,若否則執行一次MOVSD,ECX自動減1,然後執行第二輪檢查、執行......直到發現ECX=0便不再執行MOVSD,結束重複而執行下面的指令。


  LDS ESI,SRC_STR_PTR 
  MOV ECX,100 
  LOOP1: 
  LODSW 
  .... (deal with value in AX)

  LOOP LOOP1 
  .....

  從SRC_STR處理100個字。同樣,LOOP指令先判斷ECX是否爲零,來決定是否循環。每循環一輪ECX自動減1。

  REP和LOOP 都可以加上條件,變成REPZ/REPNZ 和 LOOPZ/LOOPNZ. 這是除了ECX外,還用檢查零標誌Z. REPZ 和LOOPZ在Z爲1時繼續循環,否則退出循環,即使ECX不爲0。REPNZ/LOOPNZ則相反。

  ====================================================

  高級語言程序的彙編解析

  在高級語言中,如C和PASCAL等等,我們不再直接對硬件資源進行操作,而是面向於問題的解決,這主要體現在數據抽象化和程序的結構化。例如我們用變量名來存取數據,而不再關心這個數據究竟在內存的什麼地方。這樣,對硬件資源的使用方式完全交給了編譯器去處理。不過,一些基本的規則還是存在的,而且大多數編譯器都遵循一些規範,這使得我們在閱讀反彙編代碼的時候日子好過一點。這裏主要講講彙編代碼中一些和高級語言對應的地方。

  1. 普通變量。通常聲明的變量是存放在內存中的。編譯器把變量名和一個內存地址聯繫起來(這裏要注意的是,所謂的“確定的地址”是對編譯器而言在編譯階段算出的一個臨時的地址。在連接成可執行文件並加載到內存中執行的時候要進行重定位等一系列調整,才生成一個實時的內存地址,不過這並不影響程序的邏輯,所以先不必太在意這些細節,只要知道所有的函數名字和變量名字都對應一個內存的地址就行了),所以變量名在彙編代碼中就表現爲一個有效地址,就是放在方括號中的操作數。例如,在C文件中聲明:

  int my_age;

  這個整型的變量就存在一個特定的內存位置。語句 my_age= 32; 在反彙編代碼中可能表現爲:

  mov word ptr [007E85DA], 20

  所以在方括號中的有效地址對應的是變量名。又如:

  char my_name[11] = "lianzi2000";

  這樣的說明也確定了一個地址,對應於my_name. 假設地址是007E85DC,則內存中[007E85DC]="l",[007E85DD]="i", etc. 對my_name的訪問也就是對這地址處的數據訪問。

  指針變量其本身也同樣對應一個地址,因爲它本身也是一個變量。如:

  char *your_name;

  這時也確定變量"your_name"對應一個內存地址,假設爲007E85F0. 語句your_name=my_name;很可能表現爲:

  mov [007E85F0], 007E85DC ;your_name的內容是my_name的地址。

  2. 寄存器變量

  在C和C++中允許說明寄存器變量。register int i; 指明i是寄存器存放的整型變量。通常,編譯器都把寄存器變量放在esi和edi中。寄存器是在cpu內部的結構,對它的訪問要比內存快得多,所以把頻繁使用的變量放在寄存器中可以提高程序執行速度。

  3. 數組

  不管是多少維的數組,在內存中總是把所有的元素都連續存放,所以在內存中總是一維的。例如,int i_array[2][3]; 在內存確定了一個地址,從該地址開始的12個字節用來存貯該數組的元素。所以變量名i_array對應着該數組的起始地址,也即是指向數組的第一個元素。存放的順序一般是i_array[0][0],[0][1],[0][2],[1][0],[1][1],[1][2] 即最右邊的下標變化最快。當需要訪問某個元素時,程序就會從多維索引值換算成一維索引,如訪問i_array[1][1],換算成內存中的一維索引值就是1*3+1=4.這種換算可能在編譯的時候就可以確定,也可能要到運行時纔可以確定。無論如何,如果我們把i_array對應的地址裝入一個通用寄存器作爲基址,則對數組元素的訪問就是一個計算有效地址的問題:

  ; i_array[1][1]=0x16

  lea ebx,xxxxxxxx ;i_array 對應的地址裝入ebx 
  mov edx,04 ;訪問i_array[1][1],編譯時就已經確定 
  mov word ptr [ebx+edx*2], 16 ;

  當然,取決於不同的編譯器和程序上下文,具體實現可能不同,但這種基本的形式是確定的。從這裏也可以看到比例因子的作用(還記得比例因子的取值爲1,2,4或8嗎?),因爲在目前的系統中簡單變量總是佔據1,2,4或者8個字節的長度,所以比例因子的存在爲在內存中的查表操作提供了極大方便。

  4. 結構和對象

  結構和對象的成員在內存中也都連續存放,但有時爲了在字邊界或雙字邊界對齊,可能有些微調整,所以要確定對象的大小應該用sizeof操作符而不應該把成員的大小相加來計算。當我們聲明一個結構變量或初始化一個對象時,這個結構變量和對象的名字也對應一個內存地址。舉例說明:

  struct tag_info_struct 
  { 
  int age; 
  int sex; 
  float height; 
  float weight; 
  } marry;

  變量marry就對應一個內存地址。在這個地址開始,有足夠多的字節(sizeof(marry))容納所有的成員。每一個成員則對應一個相對於這個地址的偏移量。這裏假設此結構中所有的成員都連續存放,則age的相對地址爲0,sex爲2, height 爲4,weight爲8。

  ; marry.sex=0;

  lea ebx,xxxxxxxx ;marry 對應的內存地址 
  mov word ptr [ebx+2], 0 
  ......

  對象的情況基本相同。注意成員函數具體的實現在代碼段中,在對象中存放的是一個指向該函數的指針。

  5. 函數調用

  一個函數在被定義時,也確定一個內存地址對應於函數名字。如:

  long comb(int m, int n) 
  { 
  long temp; 
  .....

  return temp; 
  }

  這樣,函數comb就對應一個內存地址。對它的調用表現爲:

  CALL xxxxxxxx ;comb對應的地址。這個函數需要兩個整型參數,就通過堆棧來傳遞:

  ;lresult=comb(2,3);

  push 3 
  push 2 
  call xxxxxxxx 
  mov dword ptr [yyyyyyyy], eax ;yyyyyyyy是長整型變量lresult的地址

  這裏請注意兩點。第一,在C語言中,參數的壓棧順序是和參數順序相反的,即後面的參數先壓棧,所以先執行push 3. 第二,在我們討論的32位系統中,如果不指明參數類型,缺省的情況就是壓入32位雙字。因此,兩個push指令總共壓入了兩個雙字,即8個字節的數據。然後執行call指令。call 指令又把返回地址,即下一條指令(mov dword ptr....)的32位地址壓入,然後跳轉到xxxxxxxx去執行。

  在comb子程序入口處(xxxxxxxx),堆棧的狀態是這樣的:

  03000000 (請回憶small endian 格式) 
  02000000 
  yyyyyyyy <--ESP 指向返回地址

  前面講過,子程序的標準起始代碼是這樣的:

  push ebp ;保存原先的ebp 
  mov ebp, esp;建立框架指針 
  sub esp, XXX;給臨時變量預留空間 
  .....

  執行push ebp之後,堆棧如下:

  03000000 
  02000000 
  yyyyyyyy 
  old ebp <---- esp 指向原來的ebp

  執行mov ebp,esp之後,ebp 和esp 都指向原來的ebp. 然後sub esp, xxx 給臨時變量留空間。這裏,只有一個臨時變量temp,是一個長整數,需要4個字節,所以xxx=4。這樣就建立了這個子程序的框架:

  03000000 
  02000000 
  yyyyyyyy 
  old ebp <---- 當前ebp指向這裏 
  temp

  所以子程序可以用[ebp+8]取得第一參數(m),用[ebp+C]來取得第二參數(n),以此類推。臨時變量則都在ebp下面,如這裏的temp就對應於[ebp-4].

  子程序執行到最後,要返回temp的值:

  mov eax,[ebp-04] 
  然後執行相反的操作以撤銷框架:

  mov esp,ebp ;這時esp 和ebp都指向old ebp,臨時變量已經被撤銷 
  pop ebp ;撤銷框架指針,恢復原ebp.

  這是esp指向返回地址。緊接的retn指令返回主程序

  retn 4

  該指令從堆棧彈出返回地址裝入EIP,從而返回到主程序去執行call後面的指令。同時調整esp(esp=esp+4*2),從而撤銷參數,使堆棧恢復到調用子程序以前的狀態,這就是堆棧的平衡。調用子程序前後總是應該維持堆棧的平衡。從這裏也可以看到,臨時變量temp已經隨着子程序的返回而消失,所以試圖返回一個指向臨時變量的指針是非法的。

  爲了更好地支持高級語言,INTEL還提供了指令Enter 和Leave 來自動完成框架的建立和撤銷。Enter 接受兩個操作數,第一個指明給臨時變量預留的字節數,第二個是子程序嵌套調用層數,一般都爲0。enter xxx,0 相當於:

  push ebp 
  mov ebp,esp 
  sub esp,xxx

  leave 則相當於:

  mov esp,ebp 
  pop ebp

  ============================================================= 
  好啦,我的學習心得講完了,謝謝各位的擡舉。教程是不敢當的,因爲我也是個大菜鳥。如果這些東東能使你們的學習輕鬆一些,進步快一些,本菜鳥就很開心了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章