文件結束符EOF

轉至：http://www.cnitblog.com/guopingleee/archive/2009/01/29/54047.aspx

>> 關於文件結束符EOF
EOF 是 End Of File 的縮寫。

在C語言中，它是在標準庫中定義的一個宏。

人們經常誤認爲 EOF 是從文件中讀取的一個字符(牢記)。其實，EOF 不是一個字符，它被定義爲是 int 類型的一個負數（比如 -1）。EOF 也不是文件中實際存在的內容。EOF 也不是隻表示讀文件到了結尾這一狀態（這種狀態可以用 feof() 來檢測），它還能表示 I/O 操作中的讀、寫錯誤（通常可以用 ferror() 來檢測）以及其它一些關聯操作的錯誤狀態。

一、getchar的兩點總結：
1.getchar是以行爲單位進行存取的。
當用getchar進行輸入時，如果輸入的第一個字符爲有效字符(即輸入不是文件結束符EOF，Windows下爲組合鍵Ctrl+Z，Unix/Linux下爲組合鍵Ctrl+D)，那麼只有當最後一個輸入字符爲換行符'/n'(也可以是文件結束符EOF，EOF將在後面討論)時，getchar纔會停止執行，整個程序將會往下執行。譬如下面程序段：

while((c =getchar())!=EOF){
putchar(c);
}

執行程序，輸入：abc，然後回車。則程序就會去執行puchar(c)，然後輸出abc，這個地方不要忘了，系統輸出的還有一個回車。然後可以繼續輸入，再次遇到換行符的時候，程序又會把那一行的輸入的字符輸出在終端上。

對於getchar，肯定很多初學的朋友會問，getchar不是以字符爲單位讀取的嗎？那麼，既然我輸入了第一個字符a，肯定滿足while循環(c = getchar()) != EOF的條件阿，那麼應該執行putchar(c)在終端輸出一個字符a。不錯，我在用getchar的時候也是一直這麼想的，但是程序就偏偏不着樣執行，而是必需讀到一個換行符或者文件結束符EOF才進行一次輸出。對這個問題的一個解釋是，在大師編寫C的時候，當時並沒有所謂終端輸入的概念，所有的輸入實際上都是按照文件進行讀取的，文件中一般都是以行爲單位的。因此，只有遇到換行符，那麼程序會認爲輸入結束，然後採取執行程序的其他部分。同時，輸入是按照文件的方式存取的，那麼要結束一個文件的輸入就需用到EOF(Enf Of File). 這也就是爲什麼getchar結束輸入退出時要用EOF的原因。
2.getchar()的返回值一般情況下是字符，但也可能是負值，即返回EOF。

這裏要強調的一點就是，getchar函數通常返回終端所輸入的字符，這些字符系統中對應的ASCII值都是非負的。因此，很多時候，我們會寫這樣的兩行代碼：

char c;
c =getchar();

這樣就很有可能出現問題。因爲getchar函數除了返回終端輸入的字符外，在遇到Ctrl+D(Linux下)即文件結束符EOF時，getchar()的返回EOF，這個EOF在函數庫裏一般定義爲-1。因此，在這種情況下，getchar函數返回一個負值，把一個負值賦給一個char型的變量是不正確的。爲了能夠讓所定義的變量能夠包含getchar函數返回的所有可能的值，正確的定義方法如下(K&R C中特別提到了這個問題)：

int c;
c =getchar();

二、EOF的兩點總結(主要指普通終端中的EOF)
1.EOF作爲文件結束符時的情況：

EOF雖然是文件結束符，但並不是在任何情況下輸入Ctrl+D(Windows下Ctrl+Z)都能夠實現文件結束的功能，只有在下列的條件下，才作爲文件結束符。
(1)遇到getcahr函數執行時，要輸入第一個字符時就直接輸入Ctrl+D，就可以跳出getchar(),去執行程序的其他部分；
(2)在前面輸入的字符爲換行符時，接着輸入Ctrl+D；
(3)在前面有字符輸入且不爲換行符時，要連着輸入兩次Ctrl+D，這時第二次輸入的Ctrl+D起到文件結束符的功能，至於第一次的Ctrl+D的作用將在下面介紹。
其實，這三種情況都可以總結爲只有在getchar()提示新的一次輸入時，直接輸入Ctrl+D才相當於文件結束符。

2.EOF作爲行結束符時的情況，這時候輸入Ctrl+D並不能結束getchar(),而只能引發getchar()提示下一輪的輸入。

這種情況主要是在進行getchar()新的一行輸入時，當輸入了若干字符(不能包含換行符)之後，直接輸入Ctrl+D，此時的Ctrl+D並不是文件結束符，而只是相當於換行符的功能，即結束當前的輸入。以上面的代碼段爲例，如果執行時輸入abc，然後Ctrl+D，程序輸出結果爲：
abcabc

注意:第一組abc爲從終端輸入的，然後輸入Ctrl+D，就輸出第二組abc，同時光標停在第二組字符的c後面,然後可以進行新一次的輸入。這時如果再次輸入Ctrl+D，則起到了文件結束符的作用，結束getchar（）。
如果輸入abc之後，然後回車，輸入換行符的話，則終端顯示爲：
abc       //第一行，帶回車
abc       //第二行
            //第三行

其中第一行爲終端輸入，第二行爲終端輸出，光標停在了第三行處，等待新一次的終端輸入。
從這裏也可以看出Ctrl+D和換行符分別作爲行結束符時，輸出的不同結果。
EOF的作用也可以總結爲：當終端有字符輸入時，Ctrl+D產生的EOF相當於結束本行的輸入，將引起getchar()新一輪的輸入；當終端沒有字符輸入或者可以說當getchar()讀取新的一次輸入時，輸入Ctrl+D，此時產生的EOF相當於文件結束符，程序將結束getchar()的執行。

【補充】本文第二部分中關於EOF的總結部分，適用於終端驅動處於一次一行的模式下。也就是雖然getchar()和putchar()確實是按照每次一個字符進行的。但是終端驅動處於一次一行的模式，它的輸入只有到“/n”或者EOF時才結束，因此，終端上得到的輸出也都是按行的。
如果要實現終端在讀一個字符就結束輸入的話，下面的程序是一種實現的方法(參考《C專家編程》,略有改動)

/*Edit by Godbach
CU Blog: http://blog.chinaunix.net/u/33048/
*/
#include<stdio.h>
#include<stdlib.h>

int
main(void)
{
int c;
/* 終端驅動處於普通的一次一行模式 */
system("stty raw");

/* 現在的終端驅動處於一次一個字符模式 */
c =getchar();
putchar();

/* 終端驅動處又回到一次一行模式 */
system("stty cooked");

return 0;
}

編譯運行該程序，則當如入一個字符時，直接出處一個字符，然後程序結束。
由此可見，由於終端驅動的模式不同，造成了getchar()輸入結束的條件不一樣。普通模式下需要回車或者EOF，而在一次一個字符的模式下，則輸入一個字符之後就結束了。

(1) 字節的讀取
在正常的情況下, getc 以 unsigned char 的方式讀取文件流, 擴張爲一個整數,並返
回. 換言之, getc 從文件流中取一個字節, 並加上24個零,成爲一個小於256的整數,
然後返回.

int c;
while ((c = fgetc (rfp))!= -1) // -1就是 EOF
fputc (c, wfp);

上面 fputc 中的 c 雖然是整數, 但在 fputc 將其寫入文件流之前, 又把整數的高24位
去掉了, 因此 fgetc, putc 配合能夠實現文件複製. 到目前爲止, 把 c 定義爲
char仍然是可行的, 但下面我們將看到,把 c 定義爲 int 是爲正確判段文件是否結束.

(2) 判斷文件結束.

多數人認爲文件中有一個EOF,用於表示文件的結尾. 但這個觀點實際上是錯誤的,在文
件所包含的數據中,並沒有什麼文件結束符. 對getc 而言, 如果不能從文件中讀取,
則返回一個整數 -1,這就是所謂的EOF. 返回 EOF 無非是出現了兩種情況,一是文件已
經讀完; 二是文件讀取出錯,反正是讀不下去了.

請注意: 在正常讀取的情況下, 返回的整數均小於256, 即0x0~0xFF. 而讀不出返回的
是 0xFFFFFFFF. 但, 假如你用fputc把 0xFFFFFFFF 往文件裏頭寫, 高24位被屏蔽,寫入的將
是 0xFF. // lixforalpha 請注意這一點

(3) 0xFF 會使我們混淆嗎?

不會, 前提是, 接收返回值的 c 要按原型定義爲 int.

如果下一個讀取的字符將爲 0xFF, 則

int c;
c = fgetc (rfp); // c = 0x000000FF;
if (c != -1) // 當然不等, -1 是 0xFFFFFFFF
fputc (wfp); // 噢, OXFF 複製成功.

字符0xFF, 其本身並不是EOF.

(4) 將 c 定義 char

假定下一個讀取的字符爲 0xFF 則

char c;
c = fgetc (rfp); // fgetc(rfp)的值爲 0x000000FF, 暗中降爲字節, c = 0xFF
if (c != -1) // 字符與整數比較? c 被帶符號(signed)擴展爲0xFFFFFFFF, 喔噢,
條件成立,文件複製提前退出.

while ((c=fgetc(rfp))!=EOF) 中的判別條件成立, 文件複製結束! 意外中止.

(5) 將 c 定義爲 unsigned char;

當讀到文件末尾, 返回 EOF 也就是 -1 時,

unsigned char c;
c = fgetc (rfp); // fgetc (rfp)的值爲EOF,即-1,即0xFFFFFFFF, 降格爲字節, c=0xFF
if ( c!= -1) // c 被擴展爲 0x000000FF, 永遠不回等於 0xFFFFFFFF

所以這次雖然能正確複製 0xFF, 但卻不能判斷文件結束. 事實上,在 c 爲 uchar 時,
c != -1 是永遠成立的, 一個高質量的編譯器, 比如 gcc會在編譯時指出這一點.

(6) 爲何需要feof?
FILE *fp;
fp 指向一個很複雜的數據結構, feof 是通過這個結構中的標誌來判斷文件是否結束的.
如果文件用 fgetc 讀取, 剛好把最後一個字符讀出時, fp 中的EOF標誌不會打開,這時
用feof判斷,將會得到文件尚未結束的結論.

fgetc 返回 -1 時, 我們仍無法確信文件已經結束, 因爲可能是讀取錯誤! 這時我們
需要 feof 和 ferror.

總結：EOF並不是存在於文件中的，而是一種狀態，當讀到文件末尾或者讀取出錯時就會返回這個值來判斷文件結束。（即即使讀取錯誤可能也被認爲文件結束，所以就需要用feof 和 ferror來判斷是不是真的文件結束了）

當用getchar(c)時，即使c定義成字符型，也可以結束，主要是c與-1比較時，c也會從char轉換爲整型值。

寫個小程序驗證了一下

#include <stdio.h> int main() { char c; c = -1; printf("%x",c); return 0; }

得到的結果爲ffffffff,所以c即使定義爲char型，讀取文件等時還是能正常結束。

文件結束符EOF

一個簡單的MD5加鹽

C# 代碼學習

藍橋15屆stema編程題密碼鎖-動態規劃 C++和Python最後一道題

2021看雪SDC議題回顧 | SaTC：一種全新的物聯網設備漏洞自動化挖掘方法

Kafka存儲機制

aws語音呼叫調用，告警電話

【轉】[C#] WebAPI 防止併發調用二（冥等性）

C#/.NET/.NET Core優秀項目和框架2024年4月簡報

HTTP URL 詳解

得物 ZooKeeper SLA 也可以 99.99%

tr命令詳細用法

判斷文件存在與否

暗時間

shell的一些學習筆記

c 函數fopen,fwrite,fread

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結