C語言編譯和鏈接和加載


轉自:

http://www.cnblogs.com/oubo/archive/2011/12/06/2394631.html 


一、概述

C語言的編譯鏈接過程要把我們編寫的一個c程序(源代碼)轉換成可以在硬件上運行的程序(可執行代碼),需要進行編譯和鏈接。編譯就是把文本形式源代碼翻譯爲機器語言形式的目標文件的過程。鏈接是把目標文件、操作系統的啓動代碼和用到的庫文件進行組織形成最終生成可加載、可執行代碼的過程。

過程圖解如下: 

  1. 預處理器:將.c 文件轉化成 .i文件,使用的gcc命令是:gcc –E,對應於預處理命令cpp;
  2. 編譯器:將.c/.h文件轉換成.s文件,使用的gcc命令是:gcc –S,對應於編譯命令 cc –S;
  3. 彙編器:將.s 文件轉化成 .o文件,使用的gcc 命令是:gcc –c,對應於彙編命令是 as;
  4. 鏈接器:將.o文件轉化成可執行程序,使用的gcc 命令是: gcc,對應於鏈接命令是 ld;
  5. 加載器:將可執行程序加載到內存並進行執行,loader和ld-linux.so。


二、編譯過程

編譯過程又可以分成兩個階段:編譯和彙編。

2.1編譯

編譯是指編譯器讀取源程序(字符流),對之進行詞法和語法的分析,將高級語言指令轉換爲功能等效的彙編代碼

源文件的編譯過程包含兩個主要階段:

第一個階段是預處理階段,在正式的編譯階段之前進行。預處理階段將根據已放置在文件中的預處理指令來修改源文件的內容。

主要是以下幾方面的處理:

  1. 宏定義指令,如 #define a b 對於這種僞指令,預編譯所要做的是將程序中的所有a用b替換,但作爲字符串常量的 a則不被替換。還有 #undef,則將取消對某個宏的定義,使以後該串的出現不再被替換。
  2. 條件編譯指令,如#ifdef,#ifndef,#else,#elif,#endif等。 這些僞指令的引入使得程序員可以通過定義不同的宏來決定編譯程序對哪些代碼進行處理。預編譯程序將根據有關的文件,將那些不必要的代碼過濾掉
  3. 頭文件包含指令,如#include "FileName"或者#include 等。 該指令將頭文件中的定義統統都加入到它所產生的輸出文件中,以供編譯程序對之進行處理。
  4. 特殊符號,預編譯程序可以識別一些特殊的符號。 例如在源程序中出現的LINE標識將被解釋爲當前行號(十進制數),FILE則被解釋爲當前被編譯的C源程序的名稱。預編譯程序對於在源程序中出現的這些串將用合適的值進行替換。

頭文件的目的主要是爲了使某些定義可以供多個不同的C源程序使用,這涉及到頭文件的定位即搜索路徑問題。頭文件搜索規則如下:

  1. 所有header file的搜尋會從-I開始
  2. 然後找環境變量 C_INCLUDE_PATH,CPLUS_INCLUDE_PATH,OBJC_INCLUDE_PATH指定的路徑
  3. 再找默認目錄(/usr/include、/usr/local/include、/usr/lib/gcc-lib/i386-linux/2.95.2/include......)

 

第二個階段編譯、優化階段編譯程序所要作得工作就是通過詞法分析和語法分析,在確認所有的指令都符合語法規則之後,將其翻譯成等價的中間代碼表示或彙編代碼。 


2.2彙編

彙編實際上指彙編器(as)把彙編語言代碼翻譯成目標機器指令的過程。目標文件中所存放的也就是與源程序等效的目標的機器語言代碼。目標文件由段組成。通常一個目標文件中至少有兩個段:

  • 代碼段:該段中所包含的主要是程序的指令。該段一般是可讀和可執行的,但一般卻不可寫。
  • 數據段:主要存放程序中要用到的各種全局變量或靜態的數據。一般數據段都是可讀,可寫,可執行的。

 

2.3目標文件(Executable and Linkable Format)

  1. 可重定位(Relocatable)文件:由編譯器和彙編器生成,可以與其他可重定位目標文件合併創建一個可執行或共享的目標文件;
  2. 共享(Shared)目標文件:一類特殊的可重定位目標文件,可以在鏈接(靜態共享庫)時加入目標文件或加載時或運行時(動態共享庫)被動態的加載到內存並執行;
  3. 可執行(Executable)文件:由鏈接器生成,可以直接通過加載器加載到內存中充當進程執行的文件。

 

2.4 靜態庫與動態庫

靜態庫(static library)就是將相關的目標模塊打包形成的單獨的文件。使用ar命令。

靜態庫的優點在於:

  • 程序員不需要顯式的指定所有需要鏈接的目標模塊,因爲指定是一個耗時且容易出錯的過程;
  • 鏈接時,連接程序只從靜態庫中拷貝被程序引用的目標模塊,這樣就減小了可執行文件在磁盤和內存中的大小。

動態庫(dynamic library)是一種特殊的目標模塊,它可以在運行時被加載到任意的內存地址,或者是與任意的程序進行鏈接。

動態庫的優點在於:

  • 更新動態庫,無需重新鏈接;對於大系統,重新鏈接是一個非常耗時的過程;
  • 運行中可供多個程序使用,內存中只需要有一份,節省內存。

 

三、鏈接過程

鏈接器主要是將有關的目標文件彼此相連接生成可加載、可執行的目標文件。鏈接器的核心工作就是符號表解析和重定位。


3.1 鏈接的時機:

  1. 編譯時,就是源代碼被編譯成機器代碼時(靜態鏈接器負責);
  2. 加載時,也就是程序被加載到內存時(加載器負責);
  3. 運行時,由應用程序來實施(動態鏈接器負責)。


3.2 鏈接的作用(軟件複用):

  1. 使得分離編譯成爲可能;
  2. 動態綁定(binding):使定義、實現、使用分離


3.3 靜態庫搜索路徑(由靜態鏈接器負責)

  1. gcc先從-L尋找;
  2. 再找環境變量LIBRARY_PATH指定的搜索路徑;
  3. 再找內定目錄 /lib /usr/lib /usr/local/lib 這是當初compile gcc時寫在程序內的。


3.4 動態庫搜索路徑(由動態鏈接器負責)

  1. 編譯目標代碼時指定的動態庫搜索路徑-L;
  2. 環境變量LD_LIBRARY_PATH指定的動態庫搜索路徑;
  3. 配置文件/etc/ld.so.conf中指定的動態庫搜索路徑;
  4. 默認的動態庫搜索路徑/lib /usr/lib/ /usr/local/lib


3.5 靜態鏈接(編譯時)

鏈接器將函數的代碼從其所在地(目標文件或靜態鏈接庫中)拷貝到最終的可執行程序中。這樣該程序在被執行時這些代碼將被裝入到該進程的虛擬地址空間中。靜態鏈接庫實際上是一個目標文件的集合,其中的每個文件含有庫中的一個或者一組相關函數的代碼。

爲創建可執行文件,鏈接器必須要完成的主要任務:

  1. 符號解析:把目標文件中符號的定義和引用聯繫起來;
  2. 重定位:把符號定義和內存地址對應起來,然後修改所有對符號的引用。

關於符號表和符號解析以及重定位的分析後續學習。


3.6 動態鏈接(加載、運行時)

在此種方式下,函數的定義在動態鏈接庫或共享對象的目標文件中。在編譯的鏈接階段,動態鏈接庫只提供符號表和其他少量信息用於保證所有符號引用都有定義,保證編譯順利通過。動態鏈接器(ld-linux.so)鏈接程序在運行過程中根據記錄的共享對象的符號定義來動態加載共享庫,然後完成重定位。在此可執行文件被執行時,動態鏈接庫的全部內容將被映射到運行時相應進程的虛地址空間。動態鏈接程序將根據可執行程序中記錄的信息找到相應的函數代碼。  


四、加載過程

加載器把可執行文件從外存加載到內存並進行執行。 Linux中進程運行時的內存映像如下:

 

 加載過程如下:

加載器首先創建如上圖所示的內存映像,然後根據段頭部表,把目標文件拷貝到內存的數據和代碼段中。然後,加載器跳轉到程序入口點(即符號_start 的地址),執行啓動代碼(startup code),啓動代碼的調用順序如所示:


五、處理目標的常用工具

UNIX系統提供了一系列工具幫助理解和處理目標文件。GNUbinutils 包也提供了很多幫助。這些工具包括:

  • AR :創建靜態庫,插入、刪除、列出和提取成員;
  • STRINGS :列出目標文件中所有可以打印的字符串;
  • STRIP :從目標文件中刪除符號表信息;
  • NM :列出目標文件符號表中定義的符號;
  • SIZE :列出目標文件中節的名字和大小;
  • READELF :顯示一個目標文件的完整結構,包括ELF 頭中編碼的所有信息。
  • OBJDUMP :顯示目標文件的所有信息,最有用的功能是反彙編.text節中的二進制指令。
  • LDD :列出可執行文件在運行時需要的共享庫。

其他:

一、C語言源程序文件經過編譯連接之後生成一個後綴爲 .exe 的文件。

二、編譯,編譯程序讀取源程序(字符流),對之進行詞法和語法的分析,將高級語言指令轉換爲功能等效的彙編代碼,再由彙編程序轉換爲機器語言,並且按照操作系統對可執行文件格式的要求鏈接生成可執行程序。
1、預編譯,對源代碼的宏進行替換,生成中間文件(文本,默認不保留)。
2、翻譯爲彙編代碼(文本,默認不保留)。
3、由彙編器生成二進制文件(.obj)。
4、連接爲可執行文件(.exe)。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章