嵌入式Linux系統:系統編程_socket網絡通信函數介紹

1、socket() 函數:創建套接字

      Linux 中的一切都是文件,每個文件都有一個整數類型的文件描述符;socket 也是一個文件,也有文件描述符。使用 socket() 函數創建套接字以後,返回值就是一個 int 類型的文件描述符。

      在 Linux 下使用 <sys/socket.h> 頭文件中 socket() 函數來創建套接字,原型爲:

int socket(int af, int type, int protocol);

      1) af 爲地址族(Address Family),也就是 IP 地址類型,常用的有 AF_INET 和 AF_INET6。AF 是“Address Family”的簡寫,INET是“Inetnet”的簡寫。AF_INET 表示 IPv4 地址,例如 127.0.0.1;AF_INET6 表示 IPv6 地址,例如 1030::C9B4:FF12:48AA:1A2B。
      大家需要記住127.0.0.1,它是一個特殊IP地址,表示本機地址,後面的教程會經常用到。

      你也可以使用 PF 前綴,PF 是“Protocol Family”的簡寫,它和 AF 是一樣的。例如,PF_INET 等價於 AF_INET,PF_INET6 等價於 AF_INET6。

      2) type 爲數據傳輸方式/套接字類型,常用的有 SOCK_STREAM(流格式套接字/面向連接的套接字) 和 SOCK_DGRAM(數據報套接字/無連接的套接字)。

      3) protocol 表示傳輸協議,常用的有 IPPROTO_TCP 和 IPPTOTO_UDP,分別表示 TCP 傳輸協議和 UDP 傳輸協議。
有了地址類型和數據傳輸方式,還不足以決定採用哪種協議嗎?爲什麼還需要第三個參數呢?
      正如大家所想,一般情況下有了 af 和 type 兩個參數就可以創建套接字了,操作系統會自動推演出協議類型,除非遇到這樣的情況:有兩種不同的協議支持同一種地址類型和數據傳輸類型。如果我們不指明使用哪種協議,操作系統是沒辦法自動推演的。
      本教程使用 IPv4 地址,參數 af 的值爲 PF_INET。如果使用 SOCK_STREAM 傳輸數據,那麼滿足這兩個條件的協議只有 TCP,因此可以這樣來調用 socket() 函數:

int tcp_socket = socket(AF_INET, SOCK_STREAM, IPPROTO_TCP);  //IPPROTO_TCP表示TCP協議

      這種套接字稱爲 TCP 套接字。
      如果使用 SOCK_DGRAM 傳輸方式,那麼滿足這兩個條件的協議只有 UDP,因此可以這樣來調用 socket() 函數:

int udp_socket = socket(AF_INET, SOCK_DGRAM, IPPROTO_UDP);  //IPPROTO_UDP表示UDP協議

       這種套接字稱爲 UDP 套接字。
      上面兩種情況都只有一種協議滿足條件,可以將 protocol 的值設爲 0,系統會自動推演出應該使用什麼協議,如下所示:

int tcp_socket = socket(AF_INET, SOCK_STREAM, 0);  //創建TCP套接字
int udp_socket = socket(AF_INET, SOCK_DGRAM, 0);  //創建UDP套接字

      後面的教程中多采用這種簡化寫法。

 

2、bind()和connect()函數:綁定套接字並建立連接

      socket() 函數用來創建套接字,確定套接字的各種屬性,然後服務器端要用 bind() 函數將套接字與特定的 IP 地址和端口綁定起來,只有這樣,流經該 IP 地址和端口的數據才能交給套接字處理。類似地,客戶端也要用 connect() 函數建立連接。

 

2.1 bind() 函數

      bind() 函數的原型爲:

int bind(int sock, struct sockaddr *addr, socklen_t addrlen);  

      sock 爲 socket 文件描述符,addr 爲 sockaddr 結構體變量的指針,addrlen 爲 addr 變量的大小,可由 sizeof() 計算得出。
      下面的代碼,將創建的套接字與IP地址 127.0.0.1、端口 1234 綁定:

//創建套接字
int serv_sock = socket(AF_INET, SOCK_STREAM, IPPROTO_TCP);

//創建sockaddr_in結構體變量
struct sockaddr_in serv_addr;
memset(&serv_addr, 0, sizeof(serv_addr));  //每個字節都用0填充
serv_addr.sin_family = AF_INET;  //使用IPv4地址
serv_addr.sin_addr.s_addr = inet_addr("127.0.0.1");  //具體的IP地址
serv_addr.sin_port = htons(1234);  //端口

//將套接字和IP、端口綁定
bind(serv_sock, (struct sockaddr*)&serv_addr, sizeof(serv_addr));

      這裏我們使用 sockaddr_in 結構體,然後再強制轉換爲 sockaddr 類型,後邊會講解爲什麼這樣做。

      sockaddr_in 結構體

      接下來不妨先看一下 sockaddr_in 結構體,它的成員變量如下:

struct sockaddr_in{
    sa_family_t     sin_family;   //地址族(Address Family),也就是地址類型
    uint16_t        sin_port;     //16位的端口號
    struct in_addr  sin_addr;     //32位IP地址
    char            sin_zero[8];  //不使用,一般用0填充
};

      1) sin_family 和 socket() 的第一個參數的含義相同,取值也要保持一致。
      2) sin_prot 爲端口號。uint16_t 的長度爲兩個字節,理論上端口號的取值範圍爲 0~65536,但 0~1023 的端口一般由系統分配給特定的服務程序,例如 Web 服務的端口號爲 80,FTP 服務的端口號爲 21,所以我們的程序要儘量在 1024~65536 之間分配端口號。
      端口號需要用 htons() 函數轉換,後面會講解爲什麼。
      3) sin_addr 是 struct in_addr 結構體類型的變量,下面會詳細講解。
      4) sin_zero[8] 是多餘的8個字節,沒有用,一般使用 memset() 函數填充爲 0。上面的代碼中,先用 memset() 將結構體的全部字節填充爲 0,再給前3個成員賦值,剩下的 sin_zero 自然就是 0 了。

      in_addr 結構體

      sockaddr_in 的第3個成員是 in_addr 類型的結構體,該結構體只包含一個成員,如下所示:

struct in_addr{
    in_addr_t  s_addr;  //32位的IP地址
};

      in_addr_t 在頭文件 <netinet/in.h> 中定義,等價於 unsigned long,長度爲4個字節。也就是說,s_addr 是一個整數,而IP地址是一個字符串,所以需要 inet_addr() 函數進行轉換,例如:

unsigned long ip = inet_addr("127.0.0.1");
printf("%ld\n", ip);

      運行結果:16777343

      爲什麼要搞這麼複雜,結構體中嵌套結構體,而不用 sockaddr_in 的一個成員變量來指明IP地址呢?socket() 函數的第一個參數已經指明瞭地址類型,爲什麼在 sockaddr_in 結構體中還要再說明一次呢,這不是囉嗦嗎?
      這些繁瑣的細節確實給初學者帶來了一定的障礙,我想,這或許是歷史原因吧,後面的接口總要兼容前面的代碼。各位讀者一定要有耐心,暫時不理解沒有關係,根據教程中的代碼“照貓畫虎”即可,時間久了自然會接受。

      爲什麼使用 sockaddr_in 而不使用 sockaddr

      bind() 第二個參數的類型爲 sockaddr,而代碼中卻使用 sockaddr_in,然後再強制轉換爲 sockaddr,這是爲什麼呢?
      sockaddr 結構體的定義如下:

struct sockaddr{
    sa_family_t  sin_family;   //地址族(Address Family),也就是地址類型
    char         sa_data[14];  //IP地址和端口號
};

      下圖是 sockaddr 與 sockaddr_in 的對比(括號中的數字表示所佔用的字節數):

      sockaddr 和 sockaddr_in 的長度相同,都是16字節,只是將IP地址和端口號合併到一起,用一個成員 sa_data 表示。要想給 sa_data 賦值,必須同時指明IP地址和端口號,例如”127.0.0.1:80“,遺憾的是,沒有相關函數將這個字符串轉換成需要的形式,也就很難給 sockaddr 類型的變量賦值,所以使用 sockaddr_in 來代替。這兩個結構體的長度相同,強制轉換類型時不會丟失字節,也沒有多餘的字節。
      可以認爲,sockaddr 是一種通用的結構體,可以用來保存多種類型的IP地址和端口號,而 sockaddr_in 是專門用來保存 IPv4 地址的結構體。另外還有 sockaddr_in6,用來保存 IPv6 地址,它的定義如下:

struct sockaddr_in6 { 
    sa_family_t sin6_family;  //(2)地址類型,取值爲AF_INET6
    in_port_t sin6_port;  //(2)16位端口號
    uint32_t sin6_flowinfo;  //(4)IPv6流信息
    struct in6_addr sin6_addr;  //(4)具體的IPv6地址
    uint32_t sin6_scope_id;  //(4)接口範圍ID
};

      正是由於通用結構體 sockaddr 使用不便,才針對不同的地址類型定義了不同的結構體。

 

2.2 connect() 函數

      connect() 函數用來建立連接,它的原型爲:

int connect(int sock, struct sockaddr *serv_addr, socklen_t addrlen); 

      各個參數的說明和 bind() 相同,不再贅述。

 

3、listen()和accept()函數:讓套接字進入監聽狀態並響應客戶端請求

      對於服務器端程序,使用 bind() 綁定套接字後,還需要使用 listen() 函數讓套接字進入被動監聽狀態,再調用 accept() 函數,就可以隨時響應客戶端的請求了。

 

3.1 listen() 函數

     通過 listen() 函數可以讓套接字進入被動監聽狀態,它的原型爲:

int listen(int sock, int backlog);

      sock 爲需要進入監聽狀態的套接字,backlog 爲請求隊列的最大長度。
      所謂被動監聽,是指當沒有客戶端請求時,套接字處於“睡眠”狀態,只有當接收到客戶端請求時,套接字纔會被“喚醒”來響應請求。

請求隊列

      當套接字正在處理客戶端請求時,如果有新的請求進來,套接字是沒法處理的,只能把它放進緩衝區,待當前請求處理完畢後,再從緩衝區中讀取出來處理。如果不斷有新的請求進來,它們就按照先後順序在緩衝區中排隊,直到緩衝區滿。這個緩衝區,就稱爲請求隊列(Request Queue)。
      緩衝區的長度(能存放多少個客戶端請求)可以通過 listen() 函數的 backlog 參數指定,但究竟爲多少並沒有什麼標準,可以根據你的需求來定,併發量小的話可以是10或者20。
      如果將 backlog 的值設置爲 SOMAXCONN,就由系統來決定請求隊列長度,這個值一般比較大,可能是幾百,或者更多。
      當請求隊列滿時,就不再接收新的請求,對於 Linux,客戶端會收到 ECONNREFUSED 錯誤,對於 Windows,客戶端會收到 WSAECONNREFUSED 錯誤。
      注意:listen() 只是讓套接字處於監聽狀態,並沒有接收請求。接收請求需要使用 accept() 函數。

 

3.2 accept() 函數

      當套接字處於監聽狀態時,可以通過 accept() 函數來接收客戶端請求。它的原型爲:

int accept(int sock, struct sockaddr *addr, socklen_t *addrlen); 

      它的參數與 listen() 和 connect() 是相同的:sock 爲服務器端套接字,addr 爲 sockaddr_in 結構體變量,addrlen 爲參數 addr 的長度,可由 sizeof() 求得。
      accept() 返回一個新的套接字來和客戶端通信,addr 保存了客戶端的IP地址和端口號,而 sock 是服務器端的套接字,大家注意區分。後面和客戶端通信時,要使用這個新生成的套接字,而不是原來服務器端的套接字。
      最後需要說明的是:listen() 只是讓套接字進入監聽狀態,並沒有真正接收客戶端請求,listen() 後面的代碼會繼續執行,直到遇到 accept()。accept() 會阻塞程序執行(後面代碼不能被執行),直到有新的請求到來。

 

4、write()/read():發送數據和接收數據

      Linux 不區分套接字文件和普通文件,使用 write() 可以向套接字中寫入數據,使用 read() 可以從套接字中讀取數據。
      前面我們說過,兩臺計算機之間的通信相當於兩個套接字之間的通信,在服務器端用 write() 向套接字寫入數據,客戶端就能收到,然後再使用 read() 從套接字中讀取出來,就完成了一次通信。

      write() 的原型爲:

ssize_t write(int fd, const void *buf, size_t nbytes);

      fd 爲要寫入的文件的描述符,buf 爲要寫入的數據的緩衝區地址,nbytes 爲要寫入的數據的字節數。

      size_t 是通過 typedef 聲明的 unsigned int 類型;ssize_t 在 "size_t" 前面加了一個"s",代表 signed,即 ssize_t 是通過 typedef 聲明的 signed int 類型。

      write() 函數會將緩衝區 buf 中的 nbytes 個字節寫入文件 fd,成功則返回寫入的字節數,失敗則返回 -1。

      read() 的原型爲:

ssize_t read(int fd, void *buf, size_t nbytes);

      fd 爲要讀取的文件的描述符,buf 爲要接收數據的緩衝區地址,nbytes 爲要讀取的數據的字節數。
      read() 函數會從 fd 文件中讀取 nbytes 個字節並保存到緩衝區 buf,成功則返回讀取到的字節數(但遇到文件結尾則返回0),失敗則返回 -1。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章