其實輸入與輸出對於不管什麼系統的設計都是異常重要的,比如設計 C 接口函數,首先要設計好輸入參數、輸出參數和返回值,接下來才能開始設計具體的實現過程。C 語言標準庫提供的接口功能很有限,不像 Python 庫。不過想把它用好也不容易,本文總結 C 標準庫基礎 IO 的常見操作和一些特別需要注意的問題,如果你覺着自己還不是大神,那麼請相信我,讀完全文後你肯定會有不少收穫。
一、操作句柄
打開文件其實就是在操作系統中分配一些資源用於保存該文件的狀態信息及文件的標識,以後用戶程序可以用這個標識做各種讀寫操作,關閉文件則釋放佔用的資源。
打開文件的函數:
#include <stdio.h>
FILE *fopen(const char *path, const char *mode);
FILE 是 C 標準庫定義的結構體類型,其包含文件在內核中的標識(文件描述符)、I/O 緩衝區和當前讀寫位置信息,調用者不需知道 FILE 的具體成員,由庫函數內部維護,調用者不應該直接訪問這些成員。像 FILE* 這樣的文件指針稱爲句柄(Handle)。
打開文件操作是對文件資源進行操作的,所以有可能打開文件失敗,所以在打開函數時一定要判斷返回值,如果失敗則返回錯誤信息,以方便快速定位錯誤。
打開文件應該與關閉文件成對存在,雖然程序在退出時會釋放相應的資源,但是對於一個長時間運行服務程序來說,經常打開而不關閉文件是會造成進程資源耗盡的,因爲進程的文件描述符個數是有限的,及時關閉文件是個好習慣。
關閉文件的函數:
#include <stdio.h>
int fclose(FILE *fp);
fopen 函數參數 mode 總結:
- "r":只讀,文件必須存在。
- "w":只寫,如果不存在則創建,存在則覆蓋。
- "a":追加,如果不存在則創建。
- "r+":允許讀和寫,文件必須存在。
- "w+":允許讀和寫,文件不存在則創建,存在則覆蓋。
- "a+":允許讀和追加,文件不存在則創建。
二、關於stdin/stdout/stderr
在用戶程序啓動時,main 函數還沒開始執行之前,會自動打開三個 FILE* 指針分別是:stdin、stdout、stderr,這三個文件指針是 libc 中定義的全局變量,在 stdio.h 中聲明,printf 向 stdout 寫,而 scanf 從 stdin 讀,用戶程序也可以直接使用這三個文件指針。
- stdin 只用於讀操作,稱爲標準輸入
- stdout 只用於寫操作,稱爲標準輸出
- stderr 也用於寫操作,稱爲標準錯誤輸出
通常程序的運行結果打印到標準輸出,而錯誤提示打印到標準錯誤輸出,一般標準輸出和標準錯誤都是屏幕。通常可以標準輸出重定向到一個常規文件,而標準錯誤輸出仍然對應終端設備,這樣就可以將運行結果與錯誤信息分開。
三、以字節爲單位的IO函數
fgetc 函數從指定的文件中讀一個字節,getchar從標準輸入讀一個字節,調用 getchar() 相當於 fgetc(stdin)
#include <stdio.h>
int fgetc(FILE *stream);
int getchar(void);
fputc 函數向指定的文件寫入一個字節,putchar 向標準輸出寫一個字節,調用 putchar() 相當於調用 fputc(c, stdout)。
#include <stdio.h>
int fputc(int c, FILE *stream);
int putchar(int c);
參數和返回值類型爲什麼使用 int 類型?可以看到這幾個函數的參數和返回值類型都是 int,而非 unsigned char 型。因爲錯誤或讀到文件末尾時將返回 EOF,即 -1,如果返回值是 unsigned char(0xff),與實際讀到字節 0xff 無法區分,如果使用 int 就可以避免這個問題。
四、操作讀寫位置函數
當我們在操作文件時,有一個叫「文件指針」的傢伙來記錄當前操作的文件位置,比如剛打開文件,調用了 1 次 fgetc 後,此時文件指針指向了第 1 個字節後邊,注意是以字節爲單位記錄的。
改變文件指針位置的函數:
#include <stdio.h>
int fseek(FILE *stream, long offset, int whence);
whence:從何處開始移動,取值:SEEK_SET | SEEK_CUR | SEEK_END
offset:移動偏移量,取值:可取正 | 負
void rewind(FILE *stream);
舉幾個簡單例子:
fseek(fp, 5, SEEK_SET); // 從文件頭向後移動5個字節
fseek(fp, 6, SEEK_CUR); // 從當前位置向後移動6個字節
fseek(fp, -3, SEEK_END); // 從文件尾向前移動3個字節
offset 可正可負,負值表示向文件開頭的方向移動,正值表示向文件尾方向移動,如果向前移動的字節數超過文件開頭則出錯返回,如果向後移動的字節數超過了文件末尾,再次寫入會增加文件尺寸,文件空洞字節都是 0
$ echo "5678" > file.txt
fp = fopen("file.txt", "r+");
fseek(fp, 10, SEEK_SET);
fputc('K', fp)
fclose(fp)
// 通過結果可以看出字母K是從第10個位置開始寫的
liwei:/tmp$ od -tx1 -tc -Ax file.txt
0000000 35 36 37 38 0a 00 00 00 00 00 4b
5 6 7 8 \n \0 \0 \0 \0 \0 K
rewind(fp) 等價於 fseek(fp, 0, SEEK_SET)
ftell(fp) 函數比較簡單,直接返回當前文件指針在文件中的位置
// 實現計算文件字節數的功能
fseek(fp, 0, SEEK_END);
ftell(fp);
五、以字符串爲單位的IO函數
fgets 從指定的文件中讀一行字符到調用者提供的緩衝區,讀入內容不超過 size 。
char *fgets(char *s, int size, FILE *stream);
char *gets(char *s);
首先要說明 gets() 函數強烈不推薦使用,類似 strcpy 函數,用戶不可以指定緩衝區大小,很容易造成緩衝區溢出錯誤。不過 strcpy 程序員還是可以避免,而 gets 的輸入用戶可以提供任意長的字符串,唯一避免方法就是不使用 gets,而使用 fgets(buf, size, stdin)
fgets 函數從 stream 所指文件讀取以 '\n' 結尾的一行,包括 '\n' 在內,存到緩衝區中,並在該行結尾添加一個 '\0' 組成完整的字符串。如果文件一行太長,fgets 從文件中讀了 size-1 個字符還沒有讀到 '\n',就把已經讀到的 size-1 個字符和一個 '\0' 字符存入緩衝區,文件行剩餘的內容可以在下次調用 fgets 時繼續讀。
若一次 fgets 調用在讀入若干字符後到達文件末尾,則將已讀到的字符加上 '\0' 存入緩衝區並返回,如果再次調用則返回 NULL,可以據此判斷是否讀到文件末尾。
fputs 向指定文件寫入一個字符串,緩衝區保存的是以 '\0' 結尾的字符串,與 fgets 不同的是,fputs 不關心字符串中的 '\n' 字符。
int fputs(const char *s, FILE *stream);
int puts(const char *s);
六、以記錄爲單位的IO函數
size_t fread(void *ptr, size_t size, size_t nmemb, FILE *stream);
size_t fwrite(const void *ptr, size_t size, size_t nmemb, FILE *stream);
fread 和 fwrite 用於讀寫記錄,這裏的記錄是指一串固定長度的字節,比如一個 int、一個結構體貨或一個定長數組。
參數 size 指出一條記錄的長度,nmemb 指出要讀或寫多少條記錄,這些記錄在 ptr 所指內存空間連續存放,共佔 size * nmemb 個字節。
fread 和 fwrite 返回的記錄數有可能小於 nmemb 指定的記錄數。例如當讀寫位置距文件末尾只有一條記錄長度,調用 fread 指定 nmemb 爲 2,則返回值爲 1。如果寫文件時出錯,則 fwrite 的返回值小於 nmemb 指定的值。
struct t{
int a;
short b;
};
struct t val = {1, 2};
FILE *fp = fopen("file.txt", "w");
fwrite(&val, sizeof(val), 1, fp);
fclose(fp);
liwei:/tmp$ od -tx1 -tc -Ax file.txt
0000000 01 00 00 00 02 00 00 00
001 \0 \0 \0 002 \0 \0 \0
從結果可以看出,寫入的是 8 個字節,有興趣的同學可以就此分析下系統的「大小端」和結構體的「對齊補齊」問題。
七、格式化IO函數
(1). printf / scanf
int printf(const char *format, ...);
int scanf(const char *format, ...);
這兩個函數是我們學習 C 語言最早接觸,可能也是接觸比較多的了,沒什麼特別要說的。printf 就是格式化打印到標準輸出。下面總結下 printf 常用的方式。
printf("%d\n", 5); // 打印整數 5
printf("-%10s-\n", "hello") // 設置顯示寬度並左對齊:- hello-
printf("-%-10s-\n", "hello") // 設置顯示寬度並右對齊:- hello-
printf("%#x\n", 0xff); // 0xff 不加#則顯示ff
printf("%p\n", main); // 打印 main 函數首地址
printf("%%\n"); // 打印一個 %
scanf 就是從標準輸入中讀取格式化數據,簡單舉個例子:
int year, month, day;
scanf("%d/%d/%d", &year, &month, &day);
printf("year = %d, month = %d, day = %d\n", year, month, day);
(2). sprintf / sscanf / snprintf
sprintf 並不打印到文件,而是打印到用戶提供的緩衝區中並在末尾加 '\0',由於格式化後的字符串長度很難預計,所以很可能造成緩衝區溢出,強烈推薦 snprintf 更好一些,參數 size 指定了緩衝區長度,如果格式化後的字符串超過緩衝區長度,snprintf 就把字符串截斷到 size - 1 字節,再加上一個 '\0',保證字符串以 '\0' 結尾。如果發生截斷,返回值是截斷之前的長度,通過對比返回值與緩衝區實際長度對比就知道是否發生截斷。
int sscanf(const char *str, const char *format, ...);
int sprintf(char *str, const char *format, ...);
int snprintf(char *str, size_t size, const char *format, ...);
sscanf 是從輸入字符串中按照指定的格式去讀取相應的數據,函數功能非常的強大,支持類似正則表達式匹配的功能。具體的使用格式請自行查詢官方手冊,這裏總結出最常用、最重要的幾種使用場景和方式。
- 最基本的用法
char buf[1024] = 0;
sscanf("123456", "%s", buf);
printf("%s\n", buf);
// 結果爲:123456
- 取指定長度的字符串
sscanf("123456", "%4s", buf);
printf("%s\n", buf);
// 結果爲:1234
- 取第1個字符串
sscanf("hello world", "%s", buf);
printf("%s\n", buf);
// 結果爲:hello 因爲默認是以空格來分割字符串的,%s讀取第一個字符串hello
- 讀取到指定字符爲止的字符串
sscanf("123456#abcdef", "%[^#]", buf);
// 結果爲:123456
// %[^#]表示讀取到#符號停止,不包括#
- 讀取僅包含指定字符集的字符串
sscanf("123456abcdefBCDEF", "%[1-9a-z]", buf);
// 結果爲:123456abcdef
// 表達式是要匹配數字和小寫字母,匹配到大寫字母就停止匹配了。
- 讀取指定字符集爲止的字符串
sscanf("123456abcdefBCDEF", "%[^A-Z]", buf);
// 結果爲:123456abcdef
- 讀取兩個符號之間的內容(@和.之間的內容)
sscanf("[email protected]", "%*[^@]@%[^.]", buf);
// 結果爲:linuxblogs
// 先讀取@符號前邊內容並丟棄,然後讀@,接着讀取.符號之前的內容linuxblogs,不包含字符.
- 給一個字符串
sscanf("hello, world", "%*s%s", buf);
// 結果爲:world
// 先忽略一個字符串"hello,",遇到空格直接跳過,匹配%s,保存 world 到 buf
// %*s 表示第 1 個匹配到的被過濾掉,即跳過"hello,",如果沒有空格,則結果爲 NULL
- 稍微複雜點的
sscanf("ABCabcAB=", "%*[A-Z]%*[a-z]%[^a-z=]", buf);
// 結果爲:AB 自己嘗試分析哈
- 包含特殊字符處理
sscanf("201*1b_-cdZA&", "%[0-9|_|--|a-z|A-Z|&|*]", buf);
// 結果爲:201*1b_-cdZA&
如果能將上述幾個例子搞明白,相信基本上已經掌握了 sscanf 的用法,實踐纔是檢驗真理的唯一標準,只有多使用,多思考才能真正理解它的用法。
(3). fprintf / fscanf
fprintf 打印到指定的文件 stream 中,fscanf 從文件中格式化讀取數據,類似 scanf 函數。相關函數的聲明如下:
int fprintf(FILE *stream, const char *format, ...);
int fscanf(FILE *stream, const char *format, ...);
還是通過簡單實例來說明基本用法。
FILE *fp = fopen("file.txt", "w");
fprintf(fp, "%d-%s-%f\n", 32, "hello", 0.12);
fclose(fp);
liwei:/tmp$ cat file.txt
32-hello-0.120000
而 fscanf 函數的使用基本上與 sscanf 函數使用方式相同。
八、IO緩衝區
還有個關於 IO 非常重要的概念,就是 IO 緩衝區。
C 標準庫爲每個打開的文件分配一個 I/O 緩衝區,用戶調用讀寫函數大多數都在 I/O 緩衝區中讀寫,只有少數請求傳遞給內核。
以 fgetc/fputc 爲例,當第一次調用 fgetc 讀一個字節時,fgetc 函數可能通過系統調用進入內核讀 1k 字節到緩衝區,然後返回緩衝區中第一個字節給用戶,以後用戶再調用 fgetc,就直接從緩衝區讀取。
另一方面,fputc 通常只是寫到緩衝區中,如果緩衝區滿了,fputc 就通過系統調用把緩衝區數據傳遞給內核,內核將數據寫回磁盤。如果希望把緩衝區數據立即寫入磁盤,可以調用 fflush 函數。
C 標準庫 IO 緩衝區有三種類型:全緩衝、行緩衝和無緩衝區,不同類型的緩衝區具有不同的特性。
全緩衝
:如果緩衝區寫滿了就寫回內核。常規文件通常是全緩衝的。行緩衝
:如果程序寫的數據中有換行符就把這一行寫回內核,或者緩衝區滿就寫回內核。標準輸入和標準輸出對應終端設備時通常是行緩衝的。無緩衝
:用戶程序每次調用庫函數做寫操作都要通過系統調用寫回內核。標準錯誤輸出通常是無緩衝的,用戶程序的錯誤信息可以儘快輸出到設備。
printf("hello world");
while(1);
// 運行程序會發現屏幕並沒有打印hello world
// 因爲緩衝區沒滿,且沒有\n符號
除了寫滿緩衝區、寫入換行符之外,行緩衝還有一種情況會自動做 flush 操作,如果:
- 用戶程序調用庫函數從無緩衝的文件中讀取
- 或從行緩衝的文件中讀取,且這次讀操作會引發系統調用從內核讀取數據,那麼會讀之前自動 flush 所有行緩衝
- 程序退出時通常也會自動 flush 緩衝區
如果不想完全依賴自動的 flush 操作,可以調用 fflush 函數手動操作。若調用 fflush(NULL) 可以對所有打開文件的 IO 緩衝區做 flush 操作。緩衝區大小也可以自定義設置,一般情況無需設置,默認即可。