va_list深究

2011-04-21 21:06:11| 分類： C/C++|字號訂閱

VA函數（variable argument function），參數個數可變函數，又稱可變參數函數。C/C++編程中，系統提供給編程人員的va函數很少。*printf()/*scanf()系列函數，用於輸入輸出時格式化字符串；exec*()系列函數，用於在程序中執行外部文件(main(int argc, char* argv[]算不算呢，與其說main()也是一個可變參數函數，倒不如說它是exec*()經過封裝後的具備特殊功能和意義的函數，至少在原理這一級上有很多相似之處)。由於參數個數的不確定，使va函數具有很大的靈活性，易用性，對沒有使用過可變參數函數的編程人員很有誘惑力；那麼，該如何編寫自己的va函數，va函數的運用時機、編譯實現又是如何。作者借本文談談自己關於va函數的一些淺見。

一、從printf()開始

從大家都很熟悉的格式化字符串函數開始介紹可變參數函數。

原型：int printf(const char * format, ...);

參數format表示如何來格式字符串的指令，…

表示可選參數，調用時傳遞給"..."的參數可有可無，根據實際情況而定。

系統提供了vprintf系列格式化字符串的函數，用於編程人員封裝自己的I/O函數。

int vprintf / vscanf(const char * format, va_list ap); // 從標準輸入/輸出格式化字符串
int vfprintf / vfsacanf(FILE * stream, const char * format, va_list ap); // 從文件流
int vsprintf / vsscanf(char * s, const char * format, va_list ap); // 從字符串

// 例1：格式化到一個文件流，可用於日誌文件

FILE *logfile;
int WriteLog(const char * format, ...)
{
va_list arg_ptr;

va_start(arg_ptr, format);
int nWrittenBytes = vfprintf(logfile, format, arg_ptr);
va_end(arg_ptr);

return nWrittenBytes;
}
…
// 調用時，與使用printf()沒有區別。
WriteLog("%04d-%02d-%02d %02d:%02d:%02d %s/%04d logged out.",
nYear, nMonth, nDay, nHour, nMinute, szUserName, nUserID);

同理，也可以從文件中執行格式化輸入；或者對標準輸入輸出，字符串執行格式化。

在上面的例1中，WriteLog()函數可以接受參數個數可變的輸入，本質上，它的實現需要vprintf()的支持。如何真正實現屬於自己的可變參數函數，包括控制每一個傳入的可選參數。

二、 va函數的定義和va宏

C語言支持va函數，作爲C語言的擴展--C++同樣支持va函數，但在C++中並不推薦使用，C++引入的多態性同樣可以實現參數個數可變的函數。不過，C++的重載功能畢竟只能是有限多個可以預見的參數個數。比較而言，C中的va函數則可以定義無窮多個相當於C++的重載函數，這方面C++是無能爲力的。va函數的優勢表現在使用的方便性和易用性上，可以使代碼更簡潔。C編譯器爲了統一在不同的硬件架構、硬件平臺上的實現，和增加代碼的可移植性，提供了一系列宏來屏蔽硬件環境不同帶來的差異。

ANSI C標準下，va的宏定義在stdarg.h中，它們有：va_list，va_start()，va_arg()，va_end()。

// 例2：求任意個自然數的平方和：

int SqSum(int n1, ...)
{
va_list arg_ptr;
int nSqSum = 0, n = n1;

va_start(arg_ptr, n1);
while (n > 0)
{
nSqSum += (n * n);
n = va_arg(arg_ptr, int);
}
va_end(arg_ptr);

return nSqSum;
}

// 調用時
int nSqSum = SqSum(7, 2, 7, 11, -1);

可變參數函數的原型聲明格式爲：

type VAFunction(type arg1, type arg2, … );

參數可以分爲兩部分：個數確定的固定參數和個數可變的可選參數。函數至少需要一個固定參數，固定參數的聲明和普通函數一樣；可選參數由於個數不確定，聲明時用"…"表示。固定參數和可選參數公同構成一個函數的參數列表。

藉助上面這個簡單的例2，來看看各個va_xxx的作用。
va_list arg_ptr：定義一個指向個數可變的參數列表指針；

va_start(arg_ptr, argN)：使參數列表指針arg_ptr指向函數參數列表中的第一個可選參數，說明：argN是位於第一個可選參數之前的固定參數，（或者說，最後一個固定參數；…之前的一個參數），函數參數列表中參數在內存中的順序與函數聲明時的順序是一致的。如果有一va函數的聲明是void va_test(char a, char b, char c, …)，則它的固定參數依次是a,b,c，最後一個固定參數argN爲c，因此就是va_start(arg_ptr, c)。

va_arg(arg_ptr, type)：返回參數列表中指針arg_ptr所指的參數，返回類型爲type，並使指針arg_ptr指向參數列表中下一個參數。

va_copy(dest, src)：dest，src的類型都是va_list，va_copy()用於複製參數列表指針，將dest初始化爲src。

va_end(arg_ptr)：清空參數列表，並置參數指針arg_ptr無效。說明：指針arg_ptr被置無效後，可以通過調用va_start()、va_copy()恢復arg_ptr。每次調用va_start() / va_copy()後，必須得有相應的va_end()與之匹配。參數指針可以在參數列表中隨意地來回移動，但必須在va_start() … va_end()之內。

三、編譯器如何實現va

例2中調用SqSum(7, 2, 7, 11, -1)來求7, 2, 7, 11的平方和，-1是結束標誌。

簡單地說，va函數的實現就是對參數指針的使用和控制。

typedef char * va_list; // x86平臺下va_list的定義

函數的固定參數部分，可以直接從函數定義時的參數名獲得；對於可選參數部分，先將指針指向第一個可選參數，然後依次後移指針，根據與結束標誌的比較來判斷是否已經獲得全部參數。因此，va函數中結束標誌必須事先約定好，否則，指針會指向無效的內存地址，導致出錯。

這裏，移動指針使其指向下一個參數，那麼移動指針時的偏移量是多少呢，沒有具體答案，因爲這裏涉及到內存對齊（alignment）問題，內存對齊跟具體使用的硬件平臺有密切關係，比如大家熟知的32位x86平臺規定所有的變量地址必須是4的倍數(sizeof(int) = 4)。va機制中用宏_INTSIZEOF(n)來解決這個問題，沒有這些宏，va的可移植性無從談起。

首先介紹宏_INTSIZEOF(n)，它求出變量佔用內存空間的大小，是va的實現的基礎。

#define _INTSIZEOF(n) ((sizeof(n)+sizeof(int)-1)&~(sizeof(int) - 1) )

#define va_start(ap,v) ( ap = (va_list)&v + _INTSIZEOF(v) ) //第一個可選參數地址
#define va_arg(ap,t) ( *(t *)((ap += _INTSIZEOF(t)) - _INTSIZEOF(t)) ) //下一個參數地址
#define va_end(ap) ( ap = (va_list)0 ) // 將指針置爲無效

下表是針對函數int TestFunc(int n1, int n2, int n3, …) 參數傳遞時的內存堆棧情況。（C編譯器默認的參數傳遞方式是__cdecl。）

對該函數的調用爲int result = TestFunc(a, b, c, d. e); 其中e爲結束標誌。

va_xxx宏如此編寫的原因。

1． va_start。爲了得到第一個可選參數的地址，我們有三種辦法可以做到：

A) = &n3 + _INTSIZEOF(n3)
// 最後一個固定參數的地址 + 該參數佔用內存的大小

B) = &n2 + _INTSIZEOF(n3) + _INTSIZEOF(n2)
// 中間某個固定參數的地址 + 該參數之後所有固定參數佔用的內存大小之和

C) = &n1 + _INTSIZEOF(n3) + _INTSIZEOF(n2) + _INTSIZEOF(n1)
// 第一個固定參數的地址 + 所有固定參數佔用的內存大小之和

從編譯器實現角度來看，方法B)，方法C)爲了求出地址，編譯器還需知道有多少個固定參數，以及它們的大小，沒有把問題分解到最簡單，所以不是很聰明的途徑，不予採納；相對來說，方法A)中運算的兩個值則完全可以確定。va_start()正是採用A)方法，接受最後一個固定參數。調用va_start()的結果總是使指針指向下一個參數的地址，並把它作爲第一個可選參數。在含多個固定參數的函數中，調用va_start()時，如果不是用最後一個固定參數，對於編譯器來說，可選參數的個數已經增加，將給程序帶來一些意想不到的錯誤。(當然如果你認爲自己對指針已經知根知底，遊刃有餘，那麼，怎麼用就隨你，你甚至可以用它完成一些很優秀（高效）的代碼，但是，這樣會大大降低代碼的可讀性。)

注意：宏va_start是對參數的地址進行操作的，要求參數地址必須是有效的。一些地址無效的類型不能當作固定參數類型。比如：寄存器類型，它的地址不是有效的內存地址值；數組和函數也不允許，他們的長度是個問題。因此，這些類型時不能作爲va函數的參數的。

2． va_arg身兼二職：返回當前參數，並使參數指針指向下一個參數。

初看va_arg宏定義很彆扭，如果把它拆成兩個語句，可以很清楚地看出它完成的兩個職責。

#define va_arg(ap,t) ( *(t *)((ap += _INTSIZEOF(t)) - _INTSIZEOF(t)) ) //下一個參數地址
// 將( *(t *)((ap += _INTSIZEOF(t)) - _INTSIZEOF(t)) )拆成：
/* 指針ap指向下一個參數的地址 */
1． ap += _INTSIZEOF(t)； // 當前，ap已經指向下一個參數了
/* ap減去當前參數的大小得到當前參數的地址，再強制類型轉換後返回它的值 */
2． return *(t *)( ap - _INTSIZEOF(t))

回想到printf/scanf系列函數的%d %s之類的格式化指令，我們不難理解這些它們的用途了- 明示參數強制轉換的類型。

(注：printf/scanf沒有使用va_xxx來實現，但原理是一致的。)

3．va_end很簡單，僅僅是把指針作廢而已。

#define va_end(ap) (ap = (va_list)0) // x86平臺

四、簡潔、靈活，也有危險

從va的實現可以看出，指針的合理運用，把C語言簡潔、靈活的特性表現得淋漓盡致，叫人不得不佩服C的強大和高效。不可否認的是，給編程人員太多自由空間必然使程序的安全性降低。va中，爲了得到所有傳遞給函數的參數，需要用va_arg依次遍歷。其中存在兩個隱患：

1）如何確定參數的類型。 va_arg在類型檢查方面與其說非常靈活，不如說是很不負責，因爲是強制類型轉換，va_arg都把當前指針所指向的內容強制轉換到指定類型；

2）結束標誌。如果沒有結束標誌的判斷，va將按默認類型依次返回內存中的內容，直到訪問到非法內存而出錯退出。例2中SqSum()求的是自然數的平方和，所以我把負數和0作爲它的結束標誌。例如scanf把接收到的回車符作爲結束標誌，大家熟知的printf()對字符串的處理用'\0'作爲結束標誌，無法想象C中的字符串如果沒有'\0'，代碼將會是怎樣一番情景，估計那時最流行的可能是字符數組，或者是malloc/free。

允許對內存的隨意訪問，會留給不懷好意者留下攻擊的可能。當處理cracker精心設計好的一串字符串後，程序將跳轉到一些惡意代碼區域執行，以使cracker達到其攻擊目的。(常見的exploit攻擊)所以，必需禁止對內存的隨意訪問和嚴格控制內存訪問邊界。

五、 Unix System V兼容方式的va聲明

上面介紹可變參數函數的聲明是採用ANSI標準的，Unix System V兼容方式的聲明有一點點區別，它增加了兩個宏：va_alist，va_dcl。而且它們不是定義在stdarg.h中，而是varargs.h中。stdarg.h是ANSI標準的；varargs.h僅僅是爲了能與以前的程序保持兼容而出現的，現在的編程中不推薦使用。

va_alist：函數聲明/定義時出現在函數頭，用以接受參數列表。

va_dcl：對va_alist的聲明，其後無需跟分號"；"

va_start的定義也不相同。因爲System V可變參數函數聲明不區分固定參數和可選參數，直接對參數列表操作。所以va_start()不是va_start(ap,v)，而是簡化爲va_start(ap)。其中，ap是va_list型的參數指針。

Unix System V兼容方式下函數的聲明形式：

type VAFunction(va_alist)
va_dcl // 這裏無需分號
{
// 函數體內同ANSI標準
}// 例3：猜測execl的實現（Unix System V兼容方式），摘自SUS V2

#include <varargs.h>

#define MAXARGS 100
/ * execl(file, arg1, arg2, ..., (char *)0); */

execl(va_alist)
va_dcl
{
        va_list ap;
        char *file;
        char *args[MAXARGS];
        int argno = 0;

        va_start(ap);
        file = va_arg(ap, char *);
        while ((args[argno++] = va_arg(ap, char *)) != (char *)0)
            ;
        va_end(ap);
        return execv(file, args);
}

六、擴展與思考

個數可變參數在聲明時只需"..."即可；但是，我們在接受這些參數時不能"..."。va函數實現的關鍵就是如何得到參數列表中可選參數，包括參數的值和類型。以上的所有實現都是基於來自stdarg.h的va_xxx的宏定義。 <思考>能不能不藉助於va_xxx，自己實現VA呢？，我想到的方法是彙編。在C中，我們當然就用C的嵌入彙編來實現，這應該是可以做得到的。至於能做到什麼程度，穩定性和效率怎麼樣，主要要看你對內存和指針的控制了。

七、寫一個簡單的可變參數的C函數

下面我們來探討如何寫一個簡單的可變參數的C函數.寫可變參數的
C函數要在程序中用到以下這些宏:
void va_start( va_list arg_ptr, prev_param );

type va_arg( va_list arg_ptr, type );

void va_end( va_list arg_ptr );
va在這裏是variable-argument(可變參數)的意思.
這些宏定義在stdarg.h中,所以用到可變參數的程序應該包含這個
頭文件.下面我們寫一個簡單的可變參數的函數,改函數至少有一個整數
參數,第二個參數也是整數,是可選的.函數只是打印這兩個參數的值.
void simple_va_fun(int i, ...)
{
va_list arg_ptr;
int j=0;

va_start(arg_ptr, i);
j=va_arg(arg_ptr, int);
va_end(arg_ptr);
printf("%d %d\n", i, j);
return;
}
我們可以在我們的頭文件中這樣聲明我們的函數:
extern void simple_va_fun(int i, ...);
我們在程序中可以這樣調用:
simple_va_fun(100);
simple_va_fun(100,200);
從這個函數的實現可以看到,我們使用可變參數應該有以下步驟:
1)首先在函數裏定義一個va_list型的變量,這裏是arg_ptr,這個變
量是指向參數的指針.
2)然後用va_start宏初始化變量arg_ptr,這個宏的第二個參數是第
一個可變參數的前一個參數,是一個固定的參數.
3)然後用va_arg返回可變的參數,並賦值給整數j. va_arg的第二個
參數是你要返回的參數的類型,這裏是int型.
4)最後用va_end宏結束可變參數的獲取.然後你就可以在函數裏使
用第二個參數了.如果函數有多個可變參數的,依次調用va_arg獲
取各個參數.
如果我們用下面三種方法調用的話,都是合法的,但結果卻不一樣:
1)simple_va_fun(100);
結果是:100 -123456789(會變的值)
2)simple_va_fun(100,200);
結果是:100 200
3)simple_va_fun(100,200,300);
結果是:100 200
我們看到第一種調用有錯誤,第二種調用正確,第三種調用盡管結果
正確,但和我們函數最初的設計有衝突.下面一節我們探討出現這些結果
的原因和可變參數在編譯器中是如何處理的.

(二)可變參數在編譯器中的處理

我們知道va_start,va_arg,va_end是在stdarg.h中被定義成宏的,
由於1)硬件平臺的不同 2)編譯器的不同,所以定義的宏也有所不同,下
面以VC++中stdarg.h裏x86平臺的宏定義摘錄如下(’\’號表示折行):

typedef char * va_list;

#define _INTSIZEOF(n) \
((sizeof(n)+sizeof(int)-1)&~(sizeof(int) - 1) )

#define va_start(ap,v) ( ap = (va_list)&v + _INTSIZEOF(v) )

#define va_arg(ap,t) \
( *(t *)((ap += _INTSIZEOF(t)) - _INTSIZEOF(t)) )

#define va_end(ap) ( ap = (va_list)0 )

定義_INTSIZEOF(n)主要是爲了某些需要內存的對齊的系統.C語言的函
數是從右向左壓入堆棧的,圖(1)是函數的參數在堆棧中的分佈位置.我
們看到va_list被定義成char*,有一些平臺或操作系統定義爲void*.再
看va_start的定義,定義爲&v+_INTSIZEOF(v),而&v是固定參數在堆棧的
地址,所以我們運行va_start(ap, v)以後,ap指向第一個可變參數在堆
棧的地址,如圖:

高地址|-----------------------------|
|函數返回地址 |
|-----------------------------|
|....... |
|-----------------------------|
|第n個參數(第一個可變參數) |
|-----------------------------|<--va_start後ap指向
|第n-1個參數(最後一個固定參數)|
低地址|-----------------------------|<-- &v
圖( 1 )

然後,我們用va_arg()取得類型t的可變參數值,以上例爲int型爲例,我
們看一下va_arg取int型的返回值:
j= ( *(int*)((ap += _INTSIZEOF(int))-_INTSIZEOF(int)) );
首先ap+=sizeof(int),已經指向下一個參數的地址了.然後返回
ap-sizeof(int)的int*指針,這正是第一個可變參數在堆棧裏的地址
(圖2).然後用*取得這個地址的內容(參數值)賦給j.

高地址|-----------------------------|
|函數返回地址 |
|-----------------------------|
|....... |
|-----------------------------|<--va_arg後ap指向
|第n個參數(第一個可變參數) |
|-----------------------------|<--va_start後ap指向
|第n-1個參數(最後一個固定參數)|
低地址|-----------------------------|<-- &v
圖( 2 )

最後要說的是va_end宏的意思,x86平臺定義爲ap=(char*)0;使ap不再
指向堆棧,而是跟NULL一樣.有些直接定義爲((void*)0),這樣編譯器不
會爲va_end產生代碼,例如gcc在Linux的x86平臺就是這樣定義的.
在這裏大家要注意一個問題:由於參數的地址用於va_start宏,所
以參數不能聲明爲寄存器變量或作爲函數或數組類型.
關於va_start, va_arg, va_end的描述就是這些了,我們要注意的
是不同的操作系統和硬件平臺的定義有些不同,但原理卻是相似的.

(三)可變參數在編程中要注意的問題

因爲va_start, va_arg, va_end等定義成宏,所以它顯得很愚蠢,
可變參數的類型和個數完全在該函數中由程序代碼控制,它並不能智能
地識別不同參數的個數和類型.
有人會問:那麼printf中不是實現了智能識別參數嗎?那是因爲函數
printf是從固定參數format字符串來分析出參數的類型,再調用va_arg
的來獲取可變參數的.也就是說,你想實現智能識別可變參數的話是要通
過在自己的程序裏作判斷來實現的.
另外有一個問題,因爲編譯器對可變參數的函數的原型檢查不夠嚴
格,對編程查錯不利.如果simple_va_fun()改爲:
void simple_va_fun(int i, ...)
{
va_list arg_ptr;
char *s=NULL;

va_start(arg_ptr, i);
s=va_arg(arg_ptr, char*);
va_end(arg_ptr);
printf("%d %s\n", i, s);
return;
}
可變參數爲char*型,當我們忘記用兩個參數來調用該函數時,就會出現
core dump(Unix) 或者頁面非法的錯誤(window平臺).但也有可能不出
錯,但錯誤卻是難以發現,不利於我們寫出高質量的程序.
以下提一下va系列宏的兼容性.
System V Unix把va_start定義爲只有一個參數的宏:
va_start(va_list arg_ptr);
而ANSI C則定義爲:
va_start(va_list arg_ptr, prev_param);
如果我們要用system V的定義,應該用vararg.h頭文件中所定義的
宏,ANSI C的宏跟system V的宏是不兼容的,我們一般都用ANSI C,所以
用ANSI C的定義就夠了,也便於程序的移植.

八、頭文件

va_list structure
Used to hold information needed by va_arg and va_end macros. Called function declares variable of type va_list that can be passed as argument to another function.
---STDARG.H

#ifndef _VA_LIST_DEFINED

#ifdef _M_ALPHA
typedef struct {
char *a0; /* pointer to first homed integer argument */
int offset; /* byte offset of next parameter */
} va_list;
#else
typedef char *va_list;
#endif

#define _VA_LIST_DEFINED
#endif

#if defined(_M_IX86)

/*
* define a macro to compute the size of a type, variable or expression,
* rounded up to the nearest multiple of sizeof(int). This number is its
* size as function argument (Intel architecture). Note that the macro
* depends on sizeof(int) being a power of 2!
*/
#define _INTSIZEOF(n) ( (sizeof(n) + sizeof(int) - 1) & ~(sizeof(int) - 1) )

#define va_dcl va_list va_alist;
#define va_start(ap) ap = (va_list)&va_alist
#define va_arg(ap,t) ( *(t *)((ap += _INTSIZEOF(t)) - _INTSIZEOF(t)) )
#define va_end(ap) ap = (va_list)0

#elif defined(_M_MRX000) /* _MIPS_ */

#define va_dcl int va_alist;
#define va_start(list) list = (char *) &va_alist
#define va_end(list)
#define va_arg(list, mode) ((mode *)(list =\
(char *) ((((int)list + (__builtin_alignof(mode)<=4?3:7)) &\
(__builtin_alignof(mode)<=4?-4:-8))+sizeof(mode))))[-1]
/* +++++++++++++++++++++++++++++++++++++++++++
Because of parameter passing conventions in C:
use mode=int for char, and short types
use mode=double for float types
use a pointer for array types
+++++++++++++++++++++++++++++++++++++++++++ */

#elif defined(_M_ALPHA)

/*
* The Alpha compiler supports two builtin functions that are used to
* implement stdarg/varargs. The __builtin_va_start function is used
* by va_start to initialize the data structure that locates the next
* argument. The __builtin_isfloat function is used by va_arg to pick
* which part of the home area a given register argument is stored in.
* The home area is where up to six integer and/or six floating point
* register arguments are stored down (so they can also be referenced
* by a pointer like any arguments passed on the stack).
*/
extern void * __builtin_va_start(va_list, ...);

#define va_dcl long va_alist;
#define va_start(list) __builtin_va_start(list, va_alist, 0)
#define va_end(list)
#define va_arg(list, mode) \
( *( ((list).offset += ((int)sizeof(mode) + 7) & -8) , \
(mode *)((list).a0 + (list).offset - \
((__builtin_isfloat(mode) && (list).offset <= (6 * 8)) ? \
(6 * 8) + 8 : ((int)sizeof(mode) + 7) & -8) \
) \
) \
)

#elif defined(_M_PPC)

/*
* define a macro to compute the size of a type, variable or expression,
* rounded up to the nearest multiple of sizeof(int). This number is its
* size as function argument (PPC architecture). Note that the macro
* depends on sizeof(int) being a power of 2!
*/
/* this is for LITTLE-ENDIAN PowerPC */

/* bytes that a type occupies in the argument list */
#define _INTSIZEOF(n) ( (sizeof(n) + sizeof(int) - 1) & ~(sizeof(int) - 1) )
/* return 'ap' adjusted for type 't' in arglist */
#define _ALIGNIT(ap,t) \
((((int)(ap))+(sizeof(t)<8?3:7)) & (sizeof(t)<8?~3:~7))

#define va_dcl va_list va_alist;
#define va_start(ap) ap = (va_list)&va_alist
#define va_arg(ap,t) ( *(t *)((ap = (char *) (_ALIGNIT(ap, t) + _INTSIZEOF(t))) - _INTSIZEOF(t)) )
#define va_end(ap) ap = (va_list)0

#else

/* A guess at the proper definitions for other platforms */

#define _INTSIZEOF(n) ( (sizeof(n) + sizeof(int) - 1) & ~(sizeof(int) - 1) )

#define va_dcl va_list va_alist;
#define va_start(ap) ap = (va_list)&va_alist
#define va_arg(ap,t) ( *(t *)((ap += _INTSIZEOF(t)) - _INTSIZEOF(t)) )
#define va_end(ap) ap = (va_list)0

#endif

#ifdef __cplusplus
}
#endif

#ifdef _MSC_VER
#pragma pack(pop)
#endif /* _MSC_VER */

#endif /* _INC_VARARGS */

[轉】HTTP請求流程（二）----Telnet模擬HTTP請求

HTTP請求過程詳解

u-boot啓動過程

Http的請求的全過程

Web Service 的工作原理

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結