如何調用C標準庫的exit函數詳解

這篇文章主要給大家介紹了關於如何調用C標準庫的exit函數的相關資料,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面來一起學習學習吧

編譯大於運算符

原定的計劃中這一篇應當是要講如何編譯if表達式的,但是我發現沒什麼東西可以作爲if的test-form的部分的表達式,所以覺得,要不還是先實現一下比較兩個數字這樣子的功能吧。說幹就幹,我決定用大於運算符來作爲例子——大於運算符就是指>啦。所以,我的目標是要編譯下面這樣的代碼

(> 1 2)

並且比較之後的結果要放在EAX寄存器中。鑑於現在這門語言還非常地簡陋,沒有布爾類型這樣子的東西,所以在此仿照C語言的處置方式,以數值0表示邏輯假,其它的值表示邏輯真。所以上面的表達式在編譯成彙編代碼並最終運行後,應當可以看到EAX寄存器中的值爲0。

爲了編譯大於運算符,並且將結果放入到EAX寄存器中,需要用到新的指令CMP、JG,以及JMP了。我的想法是,先將第一個操作數放入到EAX寄存器,將第二個操作數放入到EBX寄存器。然後,使用CMP指令比較這兩個寄存器。如果EAX中的數值大於EBX,那麼就使用JG指令跳到一個MOV指令上,這道MOV會將寄存器EAX的值修改爲1;否則,JG不被執行,執行後續的一道MOV指令,將數值0寫入到EAX寄存器,然後使用JMP跳走,避免又執行到了剛纔的第一道MOV指令。思路還是挺簡單的。

在修改jjcc2之前,還需要在inside-out/aux中對>予以支持,但沒什麼特別的,就是往member的參數中加入>這個符號而已。之後,將jjcc2改爲如下的形式

(defun jjcc2 (expr globals)
 "支持兩個數的四則運算的編譯器"
 (check-type globals hash-table)
 (cond ((eq (first expr) '+)
  `((movl ,(get-operand expr 0) %eax)
  (movl ,(get-operand expr 1) %ebx)
  (addl %ebx %eax)))
 ((eq (first expr) '-)
  `((movl ,(get-operand expr 0) %eax)
  (movl ,(get-operand expr 1) %ebx)
  (subl %ebx %eax)))
 ((eq (first expr) '*)
  ;; 將兩個數字相乘的結果放到第二個操作數所在的寄存器中
  ;; 因爲約定了用EAX寄存器作爲存放最終結果給continuation用的寄存器,所以第二個操作數應當爲EAX
  `((movl ,(get-operand expr 0) %eax)
  (movl ,(get-operand expr 1) %ebx)
  (imull %ebx %eax)))
 ((eq (first expr) '/)
  `((movl ,(get-operand expr 0) %eax)
  (cltd)
  (movl ,(get-operand expr 1) %ebx)
  (idivl %ebx)))
 ((eq (first expr) 'progn)
  (let ((result '()))
  (dolist (expr (rest expr))
  (setf result (append result (jjcc2 expr globals))))
  result))
 ((eq (first expr) 'setq)
  ;; 編譯賦值語句的方式比較簡單,就是將被賦值的符號視爲一個全局變量,然後將eax寄存器中的內容移動到這裏面去
  ;; TODO: 這裏expr的second的結果必須是一個符號才行
  ;; FIXME: 不知道應該賦值什麼比較好,先隨便寫個0吧
  (setf (gethash (second expr) globals) 0)
  (values (append (jjcc2 (third expr) globals)
    ;; 爲了方便stringify函數的實現,這裏直接構造出RIP-relative形式的字符串
    `((movl %eax ,(get-operand expr 0))))
   globals))
 ((eq (first expr) '_exit)
  ;; 因爲知道_exit只需要一個參數,所以將它的第一個操作數塞到EDI寄存器裏面就可以了
  ;; TODO: 更好的寫法,應該是有一個單獨的函數來處理這種參數傳遞的事情(以符合calling convention的方式)
  `((movl ,(get-operand expr 0) %edi)
  (movl #x2000001 %eax)
  (syscall)))
 ((eq (first expr) '>)
  ;; 爲了可以把比較之後的結果放入到EAX寄存器中,以我目前不完整的彙編語言知識,可以想到的方法如下
  (let ((label-greater-than (intern (symbol-name (gensym)) :keyword))
  (label-end (intern (symbol-name (gensym)) :keyword)))
  ;; 根據這篇文章(https://en.wikibooks.org/wiki/X86_Assembly/Control_Flow#Comparison_Instructions)中的說法,大於號左邊的數字應該放在CMP指令的第二個操作數中,右邊的放在第一個操作數中
  `((movl ,(get-operand expr 0) %eax)
  (movl ,(get-operand expr 1) %ebx)
  (cmpl %ebx %eax)
  (jg ,label-greater-than)
  (movl $0 %eax)
  (jmp ,label-end)
  ,label-greater-than
  (movl $1 %eax)
  ,label-end)))))

然後便可以在REPL中運行下列代碼了

(let* ((ht (make-hash-table))
 (asm (jjcc2 (inside-out '(_exit (> 1 2))) ht)))
 (stringify asm ht))

輸出的彙編代碼爲

 .data
G809: .long 0
 .section __TEXT,__text,regular,pure_instructions
 .globl _main
_main:
 MOVL $1, %EAX
 MOVL $2, %EBX
 CMPL %EBX, %EAX
 JG G810
 MOVL $0, %EAX
 JMP G811
G810:
 MOVL $1, %EAX
G811:
 MOVL %EAX, G809(%RIP)
 MOVL G809(%RIP), %EDI
 MOVL $33554433, %EAX
 SYSCALL

編譯鏈接運行後,就可以得到預期的結果了。下面開始本文的正文

調用C標準庫的exit函數

在上面的介紹中,實現了對大於號(>)的處理,那麼對if表達式的編譯也就是信手拈來的事了,不解釋太多。在本篇中,將會講述一下如何產生可以調用來自於C語言標準庫的exit(3)函數的彙編代碼。

在Common Lisp中並沒有一個叫做EXIT的內置函數,所以如同之前實現的_exit一樣,我會新增一種需要識別的(first expr),即符號exit。爲了可以調用C語言標準庫中的exit函數,需要遵循調用約定。對於exit這種只有一個參數的函數而言,情形比較簡單,只需要跟對_exit一樣處理即可。剛開始,我寫下的代碼是這樣的

(defun jjcc2 (expr globals)
 ;; 省略不必要的內容
 (cond ;; 省略不必要的內容
 ((member (first expr) '(_exit exit))
  ;; 暫時以硬編碼的方式識別一個函數是否來自於C語言的標準庫
  `((movl ,(get-operand expr 0) %edi)
  (call :|_exit|)))))

對(exit 1)進行編譯,會得到如下的代碼

 .data
 .section __TEXT,__text,regular,pure_instructions
 .globl _main
_main:
 MOVL $1, %EDI
 CALL _exit

不過這樣的代碼經過編譯鏈接之後,一運行就會遇到段錯誤(segmentation fault)。經過一番放狗搜索後,才知道原來在macOS上調用C函數的時候,需要先將棧對齊到16字節——我將其理解爲將指向棧頂的指針對齊到16字節。於是乎,我將jjcc2修改爲如下的形式

(defun jjcc2 (expr globals)
 ;; 省略不必要的內容
 (cond ;; 省略不必要的內容
 ((member (first expr) '(_exit exit))
  ;; 暫時以硬編碼的方式識別一個函數是否來自於C語言的標準庫
  `((movl ,(get-operand expr 0) %edi)
  ;; 據這篇回答(https://stackoverflow.com/questions/12678230/how-to-print-argv0-in-nasm)所說,在macOS上調用C語言函數,需要將棧對齊到16位
  ;; 假裝要對齊的是棧頂地址。因爲棧頂地址是往低地址增長的,所以只需要將地址的低16位抹掉就可以了
  (and ,(format nil "$0x~X" #XFFFFFFF0) %esp)
  (call :|_exit|)))))

結果發現還是不行。最後,實在沒轍了,只好先寫一段簡單的C代碼,然後用gcc -S生成彙編代碼,來看看究竟應當如何處理這個棧的對齊要求。一番瞎折騰之後,發現原來是要處理RSP寄存器而不是ESP寄存器——我也不曉得這是爲什麼,ESP不就是RSP的低32位而已麼。

最後,把jjcc2寫成下面這樣後,終於可以成功編譯(exit 1)了

(defun jjcc2 (expr globals)
 "支持兩個數的四則運算的編譯器"
 (check-type globals hash-table)
 (cond ((eq (first expr) '+)
   `((movl ,(get-operand expr 0) %eax)
   (movl ,(get-operand expr 1) %ebx)
   (addl %ebx %eax)))
  ((eq (first expr) '-)
   `((movl ,(get-operand expr 0) %eax)
   (movl ,(get-operand expr 1) %ebx)
   (subl %ebx %eax)))
  ((eq (first expr) '*)
   ;; 將兩個數字相乘的結果放到第二個操作數所在的寄存器中
   ;; 因爲約定了用EAX寄存器作爲存放最終結果給continuation用的寄存器,所以第二個操作數應當爲EAX
   `((movl ,(get-operand expr 0) %eax)
   (movl ,(get-operand expr 1) %ebx)
   (imull %ebx %eax)))
  ((eq (first expr) '/)
   `((movl ,(get-operand expr 0) %eax)
   (cltd)
   (movl ,(get-operand expr 1) %ebx)
   (idivl %ebx)))
  ((eq (first expr) 'progn)
   (let ((result '()))
   (dolist (expr (rest expr))
    (setf result (append result (jjcc2 expr globals))))
   result))
  ((eq (first expr) 'setq)
   ;; 編譯賦值語句的方式比較簡單,就是將被賦值的符號視爲一個全局變量,然後將eax寄存器中的內容移動到這裏面去
   ;; TODO: 這裏expr的second的結果必須是一個符號才行
   ;; FIXME: 不知道應該賦值什麼比較好,先隨便寫個0吧
   (setf (gethash (second expr) globals) 0)
   (values (append (jjcc2 (third expr) globals)
       ;; 爲了方便stringify函數的實現,這裏直接構造出RIP-relative形式的字符串
       `((movl %eax ,(get-operand expr 0))))
     globals))
  ;; ((eq (first expr) '_exit)
  ;; ;; 因爲知道_exit只需要一個參數,所以將它的第一個操作數塞到EDI寄存器裏面就可以了
  ;; ;; TODO: 更好的寫法,應該是有一個單獨的函數來處理這種參數傳遞的事情(以符合calling convention的方式)
  ;; `((movl ,(get-operand expr 0) %edi)
  ;; (movl #x2000001 %eax)
  ;; (syscall)))
  ((eq (first expr) '>)
   ;; 爲了可以把比較之後的結果放入到EAX寄存器中,以我目前不完整的彙編語言知識,可以想到的方法如下
   (let ((label-greater-than (intern (symbol-name (gensym)) :keyword))
    (label-end (intern (symbol-name (gensym)) :keyword)))
   ;; 根據這篇文章(https://en.wikibooks.org/wiki/X86_Assembly/Control_Flow#Comparison_Instructions)中的說法,大於號左邊的數字應該放在CMP指令的第二個操作數中,右邊的放在第一個操作數中
   `((movl ,(get-operand expr 0) %eax)
    (movl ,(get-operand expr 1) %ebx)
    (cmpl %ebx %eax)
    (jg ,label-greater-than)
    (movl $0 %eax)
    (jmp ,label-end)
    ,label-greater-than
    (movl $1 %eax)
    ,label-end)))
  ((eq (first expr) 'if)
   ;; 假定if語句的測試表達式的結果也是放在%eax寄存器中的,所以只需要拿%eax寄存器中的值跟0做比較即可(類似於C語言)
   (let ((label-else (intern (symbol-name (gensym)) :keyword))
    (label-end (intern (symbol-name (gensym)) :keyword)))
   (append (jjcc2 (second expr) globals)
     `((cmpl $0 %eax)
      (je ,label-else))
     (jjcc2 (third expr) globals)
     `((jmp ,label-end)
      ,label-else)
     (jjcc2 (fourth expr) globals)
     `(,label-end))))
  ((member (first expr) '(_exit exit))
   ;; 暫時以硬編碼的方式識別一個函數是否來自於C語言的標準庫
   `((movl ,(get-operand expr 0) %edi)
   ;; 據這篇回答(https://stackoverflow.com/questions/12678230/how-to-print-argv0-in-nasm)所說,在macOS上調用C語言函數,需要將棧對齊到16位
   ;; 假裝要對齊的是棧頂地址。因爲棧頂地址是往低地址增長的,所以只需要將地址的低16位抹掉就可以了
   (and ,(format nil "$0x~X" #XFFFFFFFFFFFFFFF0) %rsp)
   (call :|_exit|)))))

生成的彙編代碼如下

  .data
  .section __TEXT,__text,regular,pure_instructions
  .globl _main
_main:
  MOVL $1, %EDI
  AND $0xFFFFFFFFFFFFFFF0, %RSP
  CALL _exit

好了,這個時候我就在想,如果想要支持其它來自C語言標準庫的函數的話,只要依葫蘆畫瓢就好了,好像還挺簡單的——天真的我如此天真地想着。

總結

以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作具有一定的參考學習價值,謝謝大家對神馬文庫的支持。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章