虛函數

虛函數是在類中被聲明爲virtual的成員函數，當編譯器看到通過指針或引用調用此類函數時，對其執行晚綁定，即通過指針（或引用）指向的類的類型信息來決定該函數是哪個類的。通常此類指針或引用都聲明爲基類的，它可以指向基類或派生類的對象。
多態指同一個方法根據其所屬的不同對象可以有不同的行爲（根據自己理解，不知這麼說是否嚴謹）。

舉個例子說明虛函數、多態、早綁定和晚綁定：
李氏兩兄妹（哥哥和妹妹）參加姓氏運動會（不同姓氏組隊參加），哥哥男子項目比賽，妹妹參加女子項目比賽，開幕式有一個參賽隊伍代表發言儀式，兄妹倆都想去露露臉，可只能一人去，最終他們決定到時抓鬮決定，而組委會也不反對，它纔不關心是哥哥還是妹妹來發言，只要派一個姓李的來說兩句話就行。運動會如期舉行，妹妹抓鬮獲得代表李家發言的機會，哥哥參加了男子項目比賽，妹妹參加了女子項目比賽。比賽結果就不是我們關心的了。
現在讓我們來做個類比（只討論與運動會相關的話題）：
（1）類的設計：
李氏兄妹屬於李氏家族，李氏是基類（這裏還是抽象的純基類），李氏又派生出兩個子類（李氏男和李氏女），李氏男會所有男子項目的比賽（李氏男的成員函數），李氏女會所有女子項目的比賽（李氏女的成員函數）。姓李的人都會發言（基類虛函數），李氏男和李氏女繼承自李氏當然也會發言，只是男女說話聲音不一樣，內容也會又差異，給人感覺不同（李氏男和李氏女分別重新定義發言這個虛函數）。李氏兩兄妹就是李氏男和李氏女兩個類的實體。
（2）程序設計：
李氏兄妹填寫參賽報名表。
（3）編譯：
李氏兄妹的參賽報名表被上交給組委會（編譯器），哥哥和妹妹分別參加男子和女子的比賽，組委會一看就明白了（早綁定），只是發言人選不明確，組委會看到報名錶上寫的是“李家代表”（基類指針），組委會不能確定到底是誰，就做了個備註：如果是男的，就是哥哥李某某；如果是女的，就是妹妹李某某（晚綁定）。組委會做好其它準備工作後，就等運動會開始了（編譯完畢）。
（4）程序運行：
運動會開始了（程序開始運行），開幕式上我們聽到了李家妹妹的發言，如果是哥哥運氣好抓鬮勝出，我們將聽到哥哥的發言（多態）。然後就是看到兄妹倆參加比賽了。。。

但願這個比喻說清楚了虛函數、多態、早綁定和晚綁定的概念和它們之間的關係。再說一下，早綁定指編譯器在編譯期間即知道對象的具體類型並確定此對象調用成員函數的確切地址；而晚綁定是根據指針所指對象的類型信息得到類的虛函數表指針進而確定調用成員函數的確切地址。

2、揭密晚綁定的祕密

編譯器到底做了什麼實現的虛函數的晚綁定呢？我們來探個究竟。

編譯器對每個包含虛函數的類創建一個表（稱爲V TA B L E）。在V TA B L E中，編譯器放置特定類的虛函數地址。在每個帶有虛函數的類中，編譯器祕密地置一指針，稱爲v p o i n t e r（縮寫爲V P T R），指向這個對象的V TA B L E。通過基類指針做虛函數調用時（也就是做多態調用時），編譯器靜態地插入取得這個V P T R，並在V TA B L E表中查找函數地址的代碼，這樣就能調用正確的函數使晚捆綁發生。爲每個類設置V TA B L E、初始化V P T R、爲虛函數調用插入代碼，所有這些都是自動發生的，所以我們不必擔心這些。利用虛函數，這個對象的合適的函數就能被調用，哪怕在編譯器還不知道這個對象的特定類型的情況下。（《C++編程思想》）

————這段話紅色加粗部分似乎有點問題，我個人的理解看後面的總結。

在任何類中不存在顯示的類型信息，可對象中必須存放類信息，否則類型不可能在運行時建立。那這個類信息是什麼呢？我們來看下面幾個類：

class no_virtual
{
public:
     void fun1() const{}
     int  fun2() const { return a; }
private:
     int a;
}

class one_virtual
{
public:
     virtual void fun1() const{}
     int  fun2() const { return a; }
private:
     int a;
}

class two_virtual
{
public:
     virtual void fun1() const{}
     virtual int  fun2() const { return a; }
private:
     int a;
}

以上三個類中：
no_virtual沒有虛函數，sizeof(no_virtual)=4，類no_virtual的長度就是其成員變量整型a的長度；
one_virtual有一個虛函數，sizeof(one_virtual)=8；
two_virtual 有兩個虛函數，sizeof(two_virtual)=8；有一個虛函數和兩個虛函數的類的長度沒有區別，其實它們的長度就是no_virtual的長度加一個void指針的長度，它反映出，如果有一個或多個虛函數，編譯器在這個結構中插入一個指針（ V P T R）。在one_virtual 和 two_virtual之間沒有區別。這是因爲V P T R指向一個存放地址的表，只需要一個指針，因爲所有虛函數地址都包含在這個表中。

這個VPTR就可以看作類的類型信息。

那我們來看看編譯器是怎麼建立VPTR指向的這個虛函數表的。先看下面兩個類：
class base
{
public:
     void bfun(){}
     virtual void vfun1(){}
     virtual int vfun2(){}
private:
     int a;
}

class derived : public base
{
public:
     void dfun(){}
     virtual void vfun1(){}
     virtual int vfun3(){}
private:
     int b;
}

兩個類VPTR指向的虛函數表（VTABLE）分別如下：
base類
                       ——————
VPTR——> |&base::vfun1 |
                       ——————
                  |&base::vfun2 |
                   ——————

derived類
                       ———————
VPTR——> |&derived::vfun1 |
                       ———————
                   |&base::vfun2    |
                   ———————
                   |&derived::vfun3 |
                    ———————

每當創建一個包含有虛函數的類或從包含有虛函數的類派生一個類時，編譯器就爲這個類創建一個VTABLE，如上圖所示。在這個表中，編譯器放置了在這個類中或在它的基類中所有已聲明爲virtual的函數的地址。如果在這個派生類中沒有對在基類中聲明爲virtual的函數進行重新定義，編譯器就使用基類的這個虛函數地址。（在derived的VTABLE中，vfun2的入口就是這種情況。）然後編譯器在這個類中放置VPTR。當使用簡單繼承時，對於每個對象只有一個VPTR。VPTR必須被初始化爲指向相應的VTABLE，這在構造函數中發生。
一旦VPTR被初始化爲指向相應的VTABLE，對象就"知道"它自己是什麼類型。但只有當虛函數被調用時這種自我認知纔有用。

個人總結如下：
1、從包含虛函數的類派生一個類時，編譯器就爲該類創建一個VTABLE。其每一個表項是該類的虛函數地址。
2、在定義該派生類對象時，先調用其基類的構造函數，然後再初始化VPTR，最後再調用派生類的構造函數（ 從二進制的視野來看，所謂基類子類是一個大結構體，其中this指針開頭的四個字節存放虛函數表頭指針。執行子類的構造函數的時候，首先調用基類構造函數，this指針作爲參數，在基類構造函數中填入基類的vptr，然後回到子類的構造函數，填入子類的vptr，覆蓋基類填入的vptr。如此以來完成vptr的初始化。）
3、在實現動態綁定時，不能直接採用類對象，而一定要採用指針或者引用。因爲採用類對象傳值方式，有臨時基類對象的產生，而採用指針，則是通過指針來訪問外部的派生類對象的VPTR來達到訪問派生類虛函數的結果。

VPTR 常常位於對象的開頭，編譯器能很容易地取到VPTR的值，從而確定VTABLE的位置。VPTR總指向VTABLE的開始地址，所有基類和它的子類的虛函數地址（子類自己定義的虛函數除外）在VTABLE中存儲的位置總是相同的，如上面base類和derived類的VTABLE中vfun1和vfun2 的地址總是按相同的順序存儲。編譯器知道vfun1位於VPTR處，vfun2位於VPTR+1處，因此在用基類指針調用虛函數時，編譯器首先獲取指針指向對象的類型信息（VPTR），然後就去調用虛函數。如一個base類指針pBase指向了一個derived對象，那pBase->vfun2 ()被編譯器翻譯爲 VPTR+1 的調用，因爲虛函數vfun2的地址在VTABLE中位於索引爲1的位置上。同理，pBase->vfun3 ()被編譯器翻譯爲 VPTR+2的調用。這就是所謂的晚綁定。

我們來看一下虛函數調用的彙編代碼，以加深理解。

void test(base* pBase)
{
pBase->vfun2();
}

int main(int argc, char* argv[])
{
derived td;

  test(&td);

  return 0;
}

derived td;編譯生成的彙編代碼如下：
  mov DWORD PTR _td$[esp+24], OFFSET FLAT:??_7derived@@6B@ ; derived::`vftable'
  由編譯器的註釋可知，此時PTR _td$[esp+24]中存儲的就是derived類的VTABLE地址。

test(&td);編譯生成的彙編代碼如下：
  lea eax, DWORD PTR _td$[esp+24]
  mov DWORD PTR __$EHRec$[esp+32], 0
  push eax
  call ?test@@YAXPAVbase@@@Z   ; test
  調用test函數時完成了如下工作：取對象td的地址，將其壓棧，然後調用test。

pBase->vfun2();編譯生成的彙編代碼如下：
   mov ecx, DWORD PTR _pBase$[esp-4]
  mov eax, DWORD PTR [ecx]
  jmp DWORD PTR [eax+4]
   首先從棧中取出pBase指針指向的對象地址賦給ecx，然後取對象開頭的指針變量中的地址賦給eax，此時eax的值即爲VPTR的值，也就是 VTABLE的地址。最後就是調用虛函數了，由於vfun2位於VTABLE的第二個位置，相當於 VPTR+1，每個函數指針是4個字節長，所以最後的調用被編譯器翻譯爲 jmp DWORD PTR [eax+4]。如果是調用pBase->vfun1()，這句就該被編譯爲 jmp DWORD PTR [eax]。

現在應該對多態、虛函數、晚綁定有比較清楚的瞭解了吧。

轉貼：http://blog.csdn.net/shenmea00000/archive/2007/10/31/1859762.aspx

補充：今天參加金山二面，面試官問道爲什麼虛函數效率低,我不懂，後來請教面試官，他說跟cpu流水線執行效率有關。

cpu流水線:
流水線是Intel首次在486芯片中開始使用的。流水線的工作方式就象工業生產上的裝配流水線。在CPU中由5—6個不同功能的電路單元組成一條指令處理流水線，然後將一條X86指令分成5—6步後再由這些電路單元分別執行，這樣就能實現在一個CPU時鐘週期完成一條指令，因此提高CPU的運算速度。經典奔騰每條整數流水線都分爲四級流水，即指令預取、譯碼、執行、寫回結果，浮點流水又分爲八級流水。

因爲虛函數需要一次間接的尋址。而一般的函數可以在編譯時定位到函數的地址,虛函數(動態類型調用)是根據某個指針定要位到函數的地址.在調用虛函數之前，還調用了獲得虛函數地址的代碼。也就是虛函數需要一次間接的尋址