深入編譯，鏈接和運行

一.編譯和鏈接

1.預處理

命令：gcc -E hello.c -o hello.i

主要處理.c文件中以“#”開頭的預編譯指令

2.編譯

命令：gcc -S hello.i -o hello.s

[1]詞法分析

[2]語法分析

[3]語義分析

編譯器只能分析靜態語義（編譯期確定的語義）

靜態語義有聲明，類型轉換，類型匹配

[4]優化後生成相應的彙編代碼文件

中間語言生成，目標代碼生成與優化。

3.彙編

命令：gcc -c hello.s -o hello.o

彙編器是將彙編代碼轉化成機器可以執行的指令。

4.鏈接

重定位：絕對地址引用的位置“打補丁”，使其指向正確的地址

符號：函數或變量的起始地址

[1]地址和空間分配

[2]符號決議

[3]重定位

二.目標文件

基礎知識：

1】可執行文件格式有windows下的PE和linux下的ELF,都是COFF格式的變種。

2】靜態鏈接庫（windows下的.lib,linux下的.a）動態鏈接庫（windows下的.dll,linux下的.so）都按可執行文件格式存儲。

爲何將可執行文件的代碼段和數據段分開存放？

1】代碼段只讀，數據段可讀可寫，有利於分別保護

2】現代cpu的緩存被設計爲指令緩存和數據緩存分離，分開存放可提高cpu的緩存命中率。

3】運行多個進程時，有各自的數據段，共享代碼段，節省內存

程序示例：

查看目標文件的結構和內容：

目標文件段的基本分佈

1.代碼段（.text）

存放機器指令

2.數據段（.data）

存放已經初始化的靜態變量，全局變量

3.只讀數據段（.rodata）

存放只讀數據，一般爲只讀變量（const修飾的變量）和常量字符串

4.數據段（.bss）

存放未初始化或初始化爲0的靜態變量，全局變量

因爲數據全爲0，.data段存儲數據0是沒有必要的，因此在目標文件中.bss是預留的，沒有內容，不佔內存空間，運行時的確佔內存空間

注：未初始化的全局變量在.comment段，故.bss的大小爲0x14=20字節，並非24字節。

ELF文件結構描述

1.文件頭

2.段表：描述每個段的基本信息

編譯器，鏈接器，裝載器都是通過段表來訪問和定位段的屬性的

ELF32_Shdr段描述符結構：每一個ELF32_Shdr結構體對應一個段

mian.o的段表及所有段的位置和長度

注：以2^2=4字節對齊，故有一小部分空餘。

3.重定位表

.rel.text是針對.text的重定位表。在.text段有絕對地址的引用，那就是printf函數。.data段包含幾個常量，沒有絕對地址的引用。

4.字符串表

字符串表（.strtab）：保存普通的字符串，比如符號名。

段表字符串表（.shstrtab）：保存段表中的字符串，比如段名。

鏈接的接口----符號

1】在鏈接中，目標文件的相互拼合實際上是目標文件之間對地址的引用，即對函數和變量的地址的引用。

比如目標文件B用到了目標文件A中的foo函數，則稱目標文件A定義了foo函數，目標文件B引用了目標文件A中的foo函數。（同樣適用於變量）

2】在鏈接中，將函數和變量統稱爲符號，函數名和變量命爲符號名。

3】每一個目標文件有一個相對應的符號表。

符號表記錄了目標文件的所有符號，每一個符號對應一個符號值。對函數和變量來說，符號值就是它們的地址。

符號的類型

1】全局符號 @@@@@@鏈接過程只關心全局符號的相互粘合。

1)定義在本目標文件的，可以被其他目標文件引用。eg:main,gdata1,gdata2,gdata3

2)外部符號：沒有定義在本目標文件，在本目標文件中引用。eg:printf

2】局部符號

只在編譯單元內部可見，對於鏈接過程沒有作用。eg:d.e.f,gdata4,gdata5,gdata6

5.符號表(.symtab)

符號修飾與函數簽名

1】爲了避免庫文件中的函數和全局變量名與目標文件中的名字起衝突，函數經編譯後要在符號名前加"_"。eg:foo----->_foo （C語言）

2】名稱空間：解決多模塊的符號衝突問題（c++）

3】c++符號修飾

函數簽名：用於識別不同的函數。包含了函數的所有信息，包括函數名，參數列表，它所在的名稱空間和類。

c++編譯器在編譯時會將函數（函數簽名）和變量的名字進行修飾，形成符號名。

extern"c" 符號的引用

c++編譯器會將 extern"c" 大括號內部的代碼當作C語言代碼處理。

C語言不支持 extern "c" 語法，爲兼容C語言和c++定義兩套頭文件，c++的宏"_cplusplus"，c++編譯器在c++編譯程序時默認調用該宏。

弱符號與強符號-----》針對符號的定義，並非符號的引用。 (只適用於C語言)

1】強符號：函數和初始化了的全局變量。弱符號：未初始化的全局變量。（在.COMMON塊）

2】鏈接器按如下規則處理不同目標文件中重複定義的符號：

1）同名強符號，編譯錯誤。

2）同名強，弱符號，選擇強符號。

3）同名弱符號，選擇佔用內存大的。

3】強引用和弱引用：

強引用：若沒有找到符號的定義，鏈接器會報符號未定義的錯誤。

弱引用：若符號有定義，鏈接器將該符號的引用決議。若沒有定義，鏈接器不會報錯。主要用於庫的鏈接過程。

爲何將未初始化的全局變量放在.comment段，不放在.bss段？？？？？

答：未初始化的全局變量放在.comment段只針對編譯後的目標文件。在鏈接時，兩個目標文件鏈接爲一個可執行文件，若兩個目標文件出現了同名的弱符號，則選擇內存佔用大的，實際上未初始化的全局變量在鏈接後是放在.bss段的（此時已經選擇出了佔用內存大的弱符號）。而在編譯時，並不確定在別的源文件中是否有同名的弱符號，不可確定其最終的大小，因此將未初始化的全局變量暫時存放在.comment段。

三.靜態鏈接

空間與地址分配

1】相似段合併：相同性質的段進行合併，obj文件以2^2=4字節對齊，合併後以頁面(4k)對齊。

.bss段不佔目標文件和可執行文件的空間，裝載時爲其分配空間，其只有虛擬地址空間。

2】調整段偏移和段長度，合併符號表。

程序示例：