VA函數(variable argument function),參數個數可變函數,又稱可變參數函數。C/C++編程中,系統提供給編程人員的va函數很少。*printf()/*scanf()系列函數,用於輸入輸出時格式化字符串;exec*()系列函數,用於在程序中執行外部文件(main(int argc, char* argv[]算不算呢,與其說main()也是一個可變參數函數,倒不如說它是exec*()經過封裝後的具備特殊功能和意義的函數,至少在原理這一級上有很多相似之處)。由於參數個數的不確定,使va函數具有很大的靈活性,易用性,對沒有使用過可變參數函數的編程人員很有誘惑力;那麼,該如何編寫自己的va函數,va函數的運用時機、編譯實現又是如何。作者借本文談談自己關於va函數的一些淺見。
一、 從printf()開始
從大家都很熟悉的格式化字符串函數開始介紹可變參數函數。
原型:int printf(const char * format, ...);
參數format表示如何來格式字符串的指令,…
表示可選參數,調用時傳遞給"..."的參數可有可無,根據實際情況而定。
系統提供了vprintf系列格式化字符串的函數,用於編程人員封裝自己的I/O函數。
int vprintf / vscanf(const char * format, va_list ap); // 從標準輸入/輸出格式化字符串
int vfprintf / vfsacanf(FILE * stream, const char * format, va_list ap); // 從文件流
int vsprintf / vsscanf(char * s, const char * format, va_list ap); // 從字符串
// 例1:格式化到一個文件流,可用於日誌文件
FILE *logfile;
int WriteLog(const char * format, ...)
{
va_list arg_ptr;
va_start(arg_ptr, format);
int nWrittenBytes = vfprintf(logfile, format, arg_ptr);
va_end(arg_ptr);
return nWrittenBytes;
}
…
// 調用時,與使用printf()沒有區別。
WriteLog("%04d-%02d-%02d %02d:%02d:%02d %s/%04d logged out.",
nYear, nMonth, nDay, nHour, nMinute, szUserName, nUserID);
同理,也可以從文件中執行格式化輸入;或者對標準輸入輸出,字符串執行格式化。
在上面的例1中,WriteLog()函數可以接受參數個數可變的輸入,本質上,它的實現需要vprintf()的支持。如何真正實現屬於自己的可變參數函數,包括控制每一個傳入的可選參數。
二、 va函數的定義和va宏
C語言支持va函數,作爲C語言的擴展--C++同樣支持va函數,但在C++中並不推薦使用,C++引入的多態性同樣可以實現參數個數可變的函數。不過,C++的重載功能畢竟只能是有限多個可以預見的參數個數。比較而言,C中的va函數則可以定義無窮多個相當於C++的重載函數,這方面C++是無能爲力的。va函數的優勢表現在使用的方便性和易用性上,可以使代碼更簡潔。C編譯器爲了統一在不同的硬件架構、硬件平臺上的實現,和增加代碼的可移植性,提供了一系列宏來屏蔽硬件環境不同帶來的差異。
ANSI C標準下,va的宏定義在stdarg.h中,它們有:va_list,va_start(),va_arg(),va_end()。
// 例2:求任意個自然數的平方和:
int SqSum(int n1, ...)
{
va_list arg_ptr;
int nSqSum = 0, n = n1;
va_start(arg_ptr, n1);
while (n > 0)
{
nSqSum += (n * n);
n = va_arg(arg_ptr, int);
}
va_end(arg_ptr);
return nSqSum;
}
// 調用時
int nSqSum = SqSum(7, 2, 7, 11, -1);
可變參數函數的原型聲明格式爲:
type VAFunction(type arg1, type arg2, … );
參數可以分爲兩部分:個數確定的固定參數和個數可變的可選參數。函數至少需要一個固定參數,固定參數的聲明和普通函數一樣;可選參數由於個數不確定,聲明時用"…"表示。固定參數和可選參數公同構成一個函數的參數列表。
藉助上面這個簡單的例2,來看看各個va_xxx的作用。
va_list arg_ptr:定義一個指向個數可變的參數列表指針;
va_start(arg_ptr, argN):使參數列表指針arg_ptr指向函數參數列表中的第一個可選參數,說明:argN是位於第一個可選參數之前的固定參數,(或者說,最後一個固定參數;…之前的一個參數),函數參數列表中參數在內存中的順序與函數聲明時的順序是一致的。如果有一va函數的聲明是void va_test(char a, char b, char c, …),則它的固定參數依次是a,b,c,最後一個固定參數argN爲c,因此就是va_start(arg_ptr, c)。
va_arg(arg_ptr, type):返回參數列表中指針arg_ptr所指的參數,返回類型爲type,並使指針arg_ptr指向參數列表中下一個參數。
va_copy(dest, src):dest,src的類型都是va_list,va_copy()用於複製參數列表指針,將dest初始化爲src。
va_end(arg_ptr):清空參數列表,並置參數指針arg_ptr無效。說明:指針arg_ptr被置無效後,可以通過調用va_start()、va_copy()恢復arg_ptr。每次調用va_start() / va_copy()後,必須得有相應的va_end()與之匹配。參數指針可以在參數列表中隨意地來回移動,但必須在va_start() … va_end()之內。
三、 編譯器如何實現va
例2中調用SqSum(7, 2, 7, 11, -1)來求7, 2, 7, 11的平方和,-1是結束標誌。
簡單地說,va函數的實現就是對參數指針的使用和控制。
typedef char * va_list; // x86平臺下va_list的定義
函數的固定參數部分,可以直接從函數定義時的參數名獲得;對於可選參數部分,先將指針指向第一個可選參數,然後依次後移指針,根據與結束標誌的比較來判斷是否已經獲得全部參數。因此,va函數中結束標誌必須事先約定好,否則,指針會指向無效的內存地址,導致出錯。
這裏,移動指針使其指向下一個參數,那麼移動指針時的偏移量是多少呢,沒有具體答案,因爲這裏涉及到內存對齊(alignment)問題,內存對齊跟具體使用的硬件平臺有密切關係,比如大家熟知的32位x86平臺規定所有的變量地址必須是4的倍數(sizeof(int) = 4)。va機制中用宏_INTSIZEOF(n)來解決這個問題,沒有這些宏,va的可移植性無從談起。
首先介紹宏_INTSIZEOF(n),它求出變量佔用內存空間的大小,是va的實現的基礎。
#define _INTSIZEOF(n) ((sizeof(n)+sizeof(int)-1)&~(sizeof(int) - 1) )
#define va_start(ap,v) ( ap = (va_list)&v + _INTSIZEOF(v) ) //第一個可選參數地址
#define va_arg(ap,t) ( *(t *)((ap += _INTSIZEOF(t)) - _INTSIZEOF(t)) ) //下一個參數地址
#define va_end(ap) ( ap = (va_list)0 ) // 將指針置爲無效
下表是針對函數int TestFunc(int n1, int n2, int n3, …) 參數傳遞時的內存堆棧情況。(C編譯器默認的參數傳遞方式是__cdecl。)
對該函數的調用爲int result = TestFunc(a, b, c, d. e); 其中e爲結束標誌。
va_xxx宏如此編寫的原因。
1. va_start。爲了得到第一個可選參數的地址,我們有三種辦法可以做到:
A) = &n3 + _INTSIZEOF(n3)
// 最後一個固定參數的地址 + 該參數佔用內存的大小
B) = &n2 + _INTSIZEOF(n3) + _INTSIZEOF(n2)
// 中間某個固定參數的地址 + 該參數之後所有固定參數佔用的內存大小之和
C) = &n1 + _INTSIZEOF(n3) + _INTSIZEOF(n2) + _INTSIZEOF(n1)
// 第一個固定參數的地址 + 所有固定參數佔用的內存大小之和
從編譯器實現角度來看,方法B),方法C)爲了求出地址,編譯器還需知道有多少個固定參數,以及它們的大小,沒有把問題分解到最簡單,所以不是很聰明的途徑,不予採納;相對來說,方法A)中運算的兩個值則完全可以確定。va_start()正是採用A)方法,接受最後一個固定參數。調用va_start()的結果總是使指針指向下一個參數的地址,並把它作爲第一個可選參數。在含多個固定參數的函數中,調用va_start()時,如果不是用最後一個固定參數,對於編譯器來說,可選參數的個數已經增加,將給程序帶來一些意想不到的錯誤。(當然如果你認爲自己對指針已經知根知底,遊刃有餘,那麼,怎麼用就隨你,你甚至可以用它完成一些很優秀(高效)的代碼,但是,這樣會大大降低代碼的可讀性。)
注意:宏va_start是對參數的地址進行操作的,要求參數地址必須是有效的。一些地址無效的類型不能當作固定參數類型。比如:寄存器類型,它的地址不是有效的內存地址值;數組和函數也不允許,他們的長度是個問題。因此,這些類型時不能作爲va函數的參數的。
2. va_arg身兼二職:返回當前參數,並使參數指針指向下一個參數。
初看va_arg宏定義很彆扭,如果把它拆成兩個語句,可以很清楚地看出它完成的兩個職責。
#define va_arg(ap,t) ( *(t *)((ap += _INTSIZEOF(t)) - _INTSIZEOF(t)) ) //下一個參數地址
// 將( *(t *)((ap += _INTSIZEOF(t)) - _INTSIZEOF(t)) )拆成:
/* 指針ap指向下一個參數的地址 */
1. ap += _INTSIZEOF(t); // 當前,ap已經指向下一個參數了
/* ap減去當前參數的大小得到當前參數的地址,再強制類型轉換後返回它的值 */
2. return *(t *)( ap - _INTSIZEOF(t))
回想到printf/scanf系列函數的%d %s之類的格式化指令,我們不難理解這些它們的用途了- 明示參數強制轉換的類型。
(注:printf/scanf沒有使用va_xxx來實現,但原理是一致的。)
3.va_end很簡單,僅僅是把指針作廢而已。
#define va_end(ap) (ap = (va_list)0) // x86平臺
四、 簡潔、靈活,也有危險
從va的實現可以看出,指針的合理運用,把C語言簡潔、靈活的特性表現得淋漓盡致,叫人不得不佩服C的強大和高效。不可否認的是,給編程人員太多自由空間必然使程序的安全性降低。va中,爲了得到所有傳遞給函數的參數,需要用va_arg依次遍歷。其中存在兩個隱患:
1)如何確定參數的類型。 va_arg在類型檢查方面與其說非常靈活,不如說是很不負責,因爲是強制類型轉換,va_arg都把當前指針所指向的內容強制轉換到指定類型;
2)結束標誌。如果沒有結束標誌的判斷,va將按默認類型依次返回內存中的內容,直到訪問到非法內存而出錯退出。例2中SqSum()求的是自然數的平方和,所以我把負數和0作爲它的結束標誌。例如scanf把接收到的回車符作爲結束標誌,大家熟知的printf()對字符串的處理用'\0'作爲結束標誌,無法想象C中的字符串如果沒有'\0', 代碼將會是怎樣一番情景,估計那時最流行的可能是字符數組,或者是malloc/free。
允許對內存的隨意訪問,會留給不懷好意者留下攻擊的可能。當處理cracker精心設計好的一串字符串後,程序將跳轉到一些惡意代碼區域執行,以使cracker達到其攻擊目的。(常見的exploit攻擊)所以,必需禁止對內存的隨意訪問和嚴格控制內存訪問邊界。
五、 Unix System V兼容方式的va聲明
上面介紹可變參數函數的聲明是採用ANSI標準的,Unix System V兼容方式的聲明有一點點區別,它增加了兩個宏:va_alist,va_dcl。而且它們不是定義在stdarg.h中,而是varargs.h中。stdarg.h是ANSI標準的;varargs.h僅僅是爲了能與以前的程序保持兼容而出現的,現在的編程中不推薦使用。
va_alist:函數聲明/定義時出現在函數頭,用以接受參數列表。
va_dcl:對va_alist的聲明,其後無需跟分號";"
va_start的定義也不相同。因爲System V可變參數函數聲明不區分固定參數和可選參數,直接對參數列表操作。所以va_start()不是va_start(ap,v),而是簡化爲va_start(ap)。其中,ap是va_list型的參數指針。
Unix System V兼容方式下函數的聲明形式:
type VAFunction(va_alist)
va_dcl // 這裏無需分號
{
// 函數體內同ANSI標準
}// 例3:猜測execl的實現(Unix System V兼容方式),摘自SUS V2
#include <varargs.h>
#define MAXARGS 100
/ * execl(file, arg1, arg2, ..., (char *)0); */
execl(va_alist)
va_dcl
{
va_list ap;
char *file;
char *args[MAXARGS];
int argno = 0;
va_start(ap);
file = va_arg(ap, char *);
while ((args[argno++] = va_arg(ap, char *)) != (char *)0)
;
va_end(ap);
return execv(file, args);
}
六、 擴展與思考
個數可變參數在聲明時只需"..."即可;但是,我們在接受這些參數時不能"..."。va函數實現的關鍵就是如何得到參數列表中可選參數,包括參數的值和類型。以上的所有實現都是基於來自stdarg.h的va_xxx的宏定義。 <思考>能不能不藉助於va_xxx,自己實現VA呢?,我想到的方法是彙編。在C中,我們當然就用C的嵌入彙編來實現,這應該是可以做得到的。至於能做到什麼程度,穩定性和效率怎麼樣,主要要看你對內存和指針的控制了。
七、寫一個簡單的可變參數的C函數
下面我們來探討如何寫一個簡單的可變參數的C函數.寫可變參數的
C函數要在程序中用到以下這些宏:
void va_start( va_list arg_ptr, prev_param );
type va_arg( va_list arg_ptr, type );
void va_end( va_list arg_ptr );
va在這裏是variable-argument(可變參數)的意思.
這些宏定義在stdarg.h中,所以用到可變參數的程序應該包含這個
頭文件.下面我們寫一個簡單的可變參數的函數,改函數至少有一個整數
參數,第二個參數也是整數,是可選的.函數只是打印這兩個參數的值.
void simple_va_fun(int i, ...)
{
va_list arg_ptr;
int j=0;
va_start(arg_ptr, i);
j=va_arg(arg_ptr, int);
va_end(arg_ptr);
printf("%d %d\n", i, j);
return;
}
我們可以在我們的頭文件中這樣聲明我們的函數:
extern void simple_va_fun(int i, ...);
我們在程序中可以這樣調用:
simple_va_fun(100);
simple_va_fun(100,200);
從這個函數的實現可以看到,我們使用可變參數應該有以下步驟:
1)首先在函數裏定義一個va_list型的變量,這裏是arg_ptr,這個變
量是指向參數的指針.
2)然後用va_start宏初始化變量arg_ptr,這個宏的第二個參數是第
一個可變參數的前一個參數,是一個固定的參數.
3)然後用va_arg返回可變的參數,並賦值給整數j. va_arg的第二個
參數是你要返回的參數的類型,這裏是int型.
4)最後用va_end宏結束可變參數的獲取.然後你就可以在函數裏使
用第二個參數了.如果函數有多個可變參數的,依次調用va_arg獲
取各個參數.
如果我們用下面三種方法調用的話,都是合法的,但結果卻不一樣:
1)simple_va_fun(100);
結果是:100 -123456789(會變的值)
2)simple_va_fun(100,200);
結果是:100 200
3)simple_va_fun(100,200,300);
結果是:100 200
我們看到第一種調用有錯誤,第二種調用正確,第三種調用盡管結果
正確,但和我們函數最初的設計有衝突.下面一節我們探討出現這些結果
的原因和可變參數在編譯器中是如何處理的.
(二)可變參數在編譯器中的處理
我們知道va_start,va_arg,va_end是在stdarg.h中被定義成宏的,
由於1)硬件平臺的不同 2)編譯器的不同,所以定義的宏也有所不同,下
面以VC++中stdarg.h裏x86平臺的宏定義摘錄如下(’\’號表示折行):
typedef char * va_list;
#define _INTSIZEOF(n) \
((sizeof(n)+sizeof(int)-1)&~(sizeof(int) - 1) )
#define va_start(ap,v) ( ap = (va_list)&v + _INTSIZEOF(v) )
#define va_arg(ap,t) \
( *(t *)((ap += _INTSIZEOF(t)) - _INTSIZEOF(t)) )
#define va_end(ap) ( ap = (va_list)0 )
定義_INTSIZEOF(n)主要是爲了某些需要內存的對齊的系統.C語言的函
數是從右向左壓入堆棧的,圖(1)是函數的參數在堆棧中的分佈位置.我
們看到va_list被定義成char*,有一些平臺或操作系統定義爲void*.再
看va_start的定義,定義爲&v+_INTSIZEOF(v),而&v是固定參數在堆棧的
地址,所以我們運行va_start(ap, v)以後,ap指向第一個可變參數在堆
棧的地址,如圖:
高地址|-----------------------------|
|函數返回地址 |
|-----------------------------|
|....... |
|-----------------------------|
|第n個參數(第一個可變參數) |
|-----------------------------|<--va_start後ap指向
|第n-1個參數(最後一個固定參數)|
低地址|-----------------------------|<-- &v
圖( 1 )
然後,我們用va_arg()取得類型t的可變參數值,以上例爲int型爲例,我
們看一下va_arg取int型的返回值:
j= ( *(int*)((ap += _INTSIZEOF(int))-_INTSIZEOF(int)) );
首先ap+=sizeof(int),已經指向下一個參數的地址了.然後返回
ap-sizeof(int)的int*指針,這正是第一個可變參數在堆棧裏的地址
(圖2).然後用*取得這個地址的內容(參數值)賦給j.
高地址|-----------------------------|
|函數返回地址 |
|-----------------------------|
|....... |
|-----------------------------|<--va_arg後ap指向
|第n個參數(第一個可變參數) |
|-----------------------------|<--va_start後ap指向
|第n-1個參數(最後一個固定參數)|
低地址|-----------------------------|<-- &v
圖( 2 )
最後要說的是va_end宏的意思,x86平臺定義爲ap=(char*)0;使ap不再
指向堆棧,而是跟NULL一樣.有些直接定義爲((void*)0),這樣編譯器不
會爲va_end產生代碼,例如gcc在Linux的x86平臺就是這樣定義的.
在這裏大家要注意一個問題:由於參數的地址用於va_start宏,所
以參數不能聲明爲寄存器變量或作爲函數或數組類型.
關於va_start, va_arg, va_end的描述就是這些了,我們要注意的
是不同的操作系統和硬件平臺的定義有些不同,但原理卻是相似的.
(三)可變參數在編程中要注意的問題
因爲va_start, va_arg, va_end等定義成宏,所以它顯得很愚蠢,
可變參數的類型和個數完全在該函數中由程序代碼控制,它並不能智能
地識別不同參數的個數和類型.
有人會問:那麼printf中不是實現了智能識別參數嗎?那是因爲函數
printf是從固定參數format字符串來分析出參數的類型,再調用va_arg
的來獲取可變參數的.也就是說,你想實現智能識別可變參數的話是要通
過在自己的程序裏作判斷來實現的.
另外有一個問題,因爲編譯器對可變參數的函數的原型檢查不夠嚴
格,對編程查錯不利.如果simple_va_fun()改爲:
void simple_va_fun(int i, ...)
{
va_list arg_ptr;
char *s=NULL;
va_start(arg_ptr, i);
s=va_arg(arg_ptr, char*);
va_end(arg_ptr);
printf("%d %s\n", i, s);
return;
}
可變參數爲char*型,當我們忘記用兩個參數來調用該函數時,就會出現
core dump(Unix) 或者頁面非法的錯誤(window平臺).但也有可能不出
錯,但錯誤卻是難以發現,不利於我們寫出高質量的程序.
以下提一下va系列宏的兼容性.
System V Unix把va_start定義爲只有一個參數的宏:
va_start(va_list arg_ptr);
而ANSI C則定義爲:
va_start(va_list arg_ptr, prev_param);
如果我們要用system V的定義,應該用vararg.h頭文件中所定義的
宏,ANSI C的宏跟system V的宏是不兼容的,我們一般都用ANSI C,所以
用ANSI C的定義就夠了,也便於程序的移植.
八、頭文件
va_list structure
Used to hold information needed by va_arg and va_end macros. Called function declares variable of type va_list that can be passed as argument to another function.
---STDARG.H
#ifndef _VA_LIST_DEFINED
#ifdef _M_ALPHA
typedef struct {
char *a0; /* pointer to first homed integer argument */
int offset; /* byte offset of next parameter */
} va_list;
#else
typedef char *va_list;
#endif
#define _VA_LIST_DEFINED
#endif
#if defined(_M_IX86)
/*
* define a macro to compute the size of a type, variable or expression,
* rounded up to the nearest multiple of sizeof(int). This number is its
* size as function argument (Intel architecture). Note that the macro
* depends on sizeof(int) being a power of 2!
*/
#define _INTSIZEOF(n) ( (sizeof(n) + sizeof(int) - 1) & ~(sizeof(int) - 1) )
#define va_dcl va_list va_alist;
#define va_start(ap) ap = (va_list)&va_alist
#define va_arg(ap,t) ( *(t *)((ap += _INTSIZEOF(t)) - _INTSIZEOF(t)) )
#define va_end(ap) ap = (va_list)0
#elif defined(_M_MRX000) /* _MIPS_ */
#define va_dcl int va_alist;
#define va_start(list) list = (char *) &va_alist
#define va_end(list)
#define va_arg(list, mode) ((mode *)(list =\
(char *) ((((int)list + (__builtin_alignof(mode)<=4?3:7)) &\
(__builtin_alignof(mode)<=4?-4:-8))+sizeof(mode))))[-1]
/* +++++++++++++++++++++++++++++++++++++++++++
Because of parameter passing conventions in C:
use mode=int for char, and short types
use mode=double for float types
use a pointer for array types
+++++++++++++++++++++++++++++++++++++++++++ */
#elif defined(_M_ALPHA)
/*
* The Alpha compiler supports two builtin functions that are used to
* implement stdarg/varargs. The __builtin_va_start function is used
* by va_start to initialize the data structure that locates the next
* argument. The __builtin_isfloat function is used by va_arg to pick
* which part of the home area a given register argument is stored in.
* The home area is where up to six integer and/or six floating point
* register arguments are stored down (so they can also be referenced
* by a pointer like any arguments passed on the stack).
*/
extern void * __builtin_va_start(va_list, ...);
#define va_dcl long va_alist;
#define va_start(list) __builtin_va_start(list, va_alist, 0)
#define va_end(list)
#define va_arg(list, mode) \
( *( ((list).offset += ((int)sizeof(mode) + 7) & -8) , \
(mode *)((list).a0 + (list).offset - \
((__builtin_isfloat(mode) && (list).offset <= (6 * 8)) ? \
(6 * 8) + 8 : ((int)sizeof(mode) + 7) & -8) \
) \
) \
)
#elif defined(_M_PPC)
/*
* define a macro to compute the size of a type, variable or expression,
* rounded up to the nearest multiple of sizeof(int). This number is its
* size as function argument (PPC architecture). Note that the macro
* depends on sizeof(int) being a power of 2!
*/
/* this is for LITTLE-ENDIAN PowerPC */
/* bytes that a type occupies in the argument list */
#define _INTSIZEOF(n) ( (sizeof(n) + sizeof(int) - 1) & ~(sizeof(int) - 1) )
/* return 'ap' adjusted for type 't' in arglist */
#define _ALIGNIT(ap,t) \
((((int)(ap))+(sizeof(t)<8?3:7)) & (sizeof(t)<8?~3:~7))
#define va_dcl va_list va_alist;
#define va_start(ap) ap = (va_list)&va_alist
#define va_arg(ap,t) ( *(t *)((ap = (char *) (_ALIGNIT(ap, t) + _INTSIZEOF(t))) - _INTSIZEOF(t)) )
#define va_end(ap) ap = (va_list)0
#else
/* A guess at the proper definitions for other platforms */
#define _INTSIZEOF(n) ( (sizeof(n) + sizeof(int) - 1) & ~(sizeof(int) - 1) )
#define va_dcl va_list va_alist;
#define va_start(ap) ap = (va_list)&va_alist
#define va_arg(ap,t) ( *(t *)((ap += _INTSIZEOF(t)) - _INTSIZEOF(t)) )
#define va_end(ap) ap = (va_list)0
#endif
#ifdef __cplusplus
}
#endif
#ifdef _MSC_VER
#pragma pack(pop)
#endif /* _MSC_VER */
#endif /* _INC_VARARGS */