一篇文章爲你圖解kubernetes網絡通信原理

【本文專欄於[頭條號]、[知乎]同步發佈，可關注同名賬號訂閱相關文章，每週固定更新】

【全文6430字，閱讀約需15分鐘，其中涉及概念較多，建議先收藏再看。】

寫在前面

在之前的文章中，我們已經對kubernetes有了一個全方位的瞭解。（詳見我的頭條號文章《一篇文章帶你瞭解Kubernetes》《到底什麼是Kubernetes Pod》），接下來，我將用一個系列的文章對kubernetes中的核心技術進行一一的探祕，話不多說，一起進入今天的內容吧。

名詞解釋

1、網絡的命名空間：Linux在網絡棧中引入網絡命名空間，將獨立的網絡協議棧隔離到不同的命令空間中，彼此間無法通信；docker利用這一特性，實現不容器間的網絡隔離。

2、Veth設備對：也叫虛擬網絡接口對。Veth設備對的引入是爲了實現在不同網絡命名空間的通信。

3、Iptables/Netfilter：Netfilter負責在內核中執行各種掛接的規則(過濾、修改、丟棄等)，運行在內核模式中；Iptables模式是在用戶模式下運行的進程，負責協助維護內核中Netfilter的各種規則表；通過二者的配合來實現整個Linux網絡協議棧中靈活的數據包處理機制。

4、網橋：網橋是一個二層網絡設備,通過網橋可以將linux支持的不同的端口連接起來,並實現類似交換機那樣的多對多的通信。

5、路由：Linux系統包含一個完整的路由功能，當IP層在處理數據發送或轉發的時候，會使用路由表來決定發往哪裏。

令人頭大的網絡模型

Kubernetes對集羣內部的網絡進行了重新抽象，以實現整個集羣網絡扁平化。我們可以理解網絡模型時，可以完全抽離物理節點去理解，我們用圖說話，先有基本印象。

其中，重點講解以下幾個關鍵抽象概念。

一個Service

Service是Kubernetes爲爲屏蔽這些後端實例（Pod）的動態變化和對多實例的負載均衡而引入的資源對象。Service通常與deployment綁定，定義了服務的訪問入口地址，應用(Pod)可以通過這個入口地址訪問其背後的一組由Pod副本組成的集羣實例。Service與其後端Pod副本集羣之間則是通過Label Selector來實現映射。

Service的類型(Type)決定了Service如何對外提供服務，根據類型不同，服務可以只在Kubernetes cluster中可見，也可以暴露到集羣外部。Service有三種類型，ClusterIP，NodePort和LoadBalancer。具體的使用場景會在下文中進行闡述。

在測試環境查看：

$ kubectl get svc --selector app=nginx
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
nginx ClusterIP 172.19.0.166 <none> 80/TCP 1m
$ kubectl describe svc nginx
Name: nginx
Namespace: default
Labels: app=nginx
Annotations: <none>
Selector: app=nginx
Type: ClusterIP
IP: 172.19.0.166
Port: <unset> 80/TCP
TargetPort: 80/TCP
Endpoints: 172.16.2.125:80,172.16.2.229:80
Session Affinity: None
Events: <none>

上述信息中該svc後端代理了2個Pod實例:172.16.2.125:80,172.16.2.229:80

二個IP

Kubernetes爲描述其網絡模型的IP對象，抽象出Cluster IP和Pod IP的概念。

PodIP是Kubernetes集羣中每個Pod的IP地址。它是Docker Engine 根據docker0網橋的IP地址段進行分配的，是一個虛擬的二層網絡。Kubernetes中Pod間能夠彼此直接通訊，Pod裏的容器訪問另外一個Pod裏的容器，是通過Pod IP所在進行通信。

Cluster IP僅作用於Service，其沒有實體對象所對應，因此Cluster IP無法被ping通。它的作用是爲Service後端的實例提供統一的訪問入口。當訪問ClusterIP時，請求將被轉發到後端的實例上，默認是輪詢方式。Cluster IP和Service一樣由kube-proxy組件維護，其實現方式主要有兩種，iptables和IPVS。在1.8版本後kubeproxy開始支持IPVS方式。在上例中，SVC的信息中包含了Cluster IP。

這裏未列出nodeip概念，由於其本身是物理機的網卡IP。因此可理解爲nodeip就是物理機IP。

三個Port

在Kubernetes中，涉及容器，Pod，Service，集羣各等多個層級的對象間的通信，爲在網絡模型中區分各層級的通信端口，這裏對Port進行了抽象。

Port

該Port非一般意義上的TCP/IP中的Port概念，它是特指Kubernetes中Service的port，是Service間的訪問端口，例如Mysql的Service默認3306端口。它僅對進羣內容器提供訪問權限，而無法從集羣外部通過該端口訪問服務。

nodePort

nodePort爲外部機器提供了訪問集羣內服務的方式。比如一個Web應用需要被其他用戶訪問，那麼需要配置type=NodePort，而且配置nodePort=30001，那麼其他機器就可以通過瀏覽器訪問scheme://node:30001訪問到該服務，例如http://node:30001。

targetPort

targetPort是容器的端口（最根本的端口入口），與製作容器時暴露的端口一致（DockerFile中EXPOSE），例如http://docker.io官方的nginx暴露的是80端口。

舉一個例子來看如何配置Service的port：

kind: Service
apiVersion: v1
metadata:
 name: mallh5-service
 namespace: abcdocker
spec:
 selector:
 app: mallh5web
 type: NodePort
 ports:
 - protocol: TCP
 port: 3017
 targetPort: 5003
 nodePort: 31122

這裏舉出了一個service的yaml，其部署在abcdocker的namespace中。這裏配置了nodePort，因此其類型Type就是NodePort，注意大小寫。若沒有配置nodePort，那這裏需要填寫ClusterIP，即表示只支持集羣內部服務訪問。

集羣內部通信

單節點通信

集羣單節點內的通信，主要包括兩種情況，同一個pod內的多容器間通信以及同一節點不同pod間的通信。由於不涉及跨節點訪問，因此流量不會經過物理網卡進行轉發。

通過查看路由表，也能窺見一二：

root@node-1:/opt/bin# route -n
Kernel IP routing table
Destination Gateway Genmask Flags Metric Ref Use Iface
0.0.0.0 172.23.100.1 0.0.0.0 UG 0 0 0 eth0
10.1.0.0 0.0.0.0 255.255.0.0 U 0 0 0 flannel.1 #flannel 網絡內跨節點的通信會交給 flannel.1 處理
10.1.1.0 0.0.0.0 255.255.255.0 U 0 0 0 docker0 #flannel 網絡內節點內的通信會走 docker0

1 Pod內通信

如下圖所示：

這種情況下，同一個pod內共享網絡命名空間，容器之間通過訪問127.0.0.1:（端口）即可。圖中的veth*即指veth對的一端（另一端未標註，但實際上是成對出現），該veth對是由Docker Daemon掛載在docker0網橋上，另一端添加到容器所屬的網絡命名空間，圖上顯示是容器中的eth0。

圖中演示了bridge模式下的容器間通信。docker1向docker2發送請求，docker1，docker2均與docker0建立了veth對進行通訊。

當請求經過docker0時，由於容器和docker0同屬於一個子網，因此請求經過docker2與docker0的veth*對，轉發到docker2，該過程並未跨節點，因此不經過eth0。

2 Pod間通信

同節點pod間通信

由於Pod內共享網絡命名空間（由pause容器創建），所以本質上也是同節點容器間的通信。同時，同一Node中Pod的默認路由都是docker0的地址，由於它們關聯在同一個docker0網橋上，地址網段相同，所有它們之間應當是能直接通信的。來看看實際上這一過程如何實現。如上圖，Pod1中容器1和容器2共享網絡命名空間，因此對pod外的請求通過pod1和Docker0網橋的veth對（圖中掛在eth0和ethx上）實現。

訪問另一個pod內的容器，其請求的地址是PodIP而非容器的ip，實際上也是同一個子網間通信，直接經過veth對轉發即可。

跨節點通信

CNI：容器網絡接口

CNI 是一種標準，它旨在爲容器平臺提供網絡的標準化。不同的容器平臺（比如目前的 kubernetes、mesos 和 rkt）能夠通過相同的接口調用不同的網絡組件。

目前kubernetes支持的CNI組件種類很多，例如：bridge calico calico-ipam dhcp flannel host-local ipvlan loopback macvlan portmap ptp sample tuning vlan。在docker中，主流的跨主機通信方案主要有一下幾種：

1）基於隧道的overlay網絡：按隧道類型來說，不同的公司或者組織有不同的實現方案。docker原生的overlay網絡就是基於vxlan隧道實現的。ovn則需要通過geneve或者stt隧道來實現的。flannel最新版本也開始默認基於vxlan實現overlay網絡。

2）基於包封裝的overlay網絡：基於UDP封裝等數據包包裝方式，在docker集羣上實現跨主機網絡。典型實現方案有weave、flannel的早期版本。

3）基於三層實現SDN網絡：基於三層協議和路由，直接在三層上實現跨主機網絡，並且通過iptables實現網絡的安全隔離。典型的方案爲Project Calico。同時對不支持三層路由的環境，Project Calico還提供了基於IPIP封裝的跨主機網絡實現

通信方式

集羣內跨節點通信涉及到不同的子網間通信，僅靠docker0無法實現，這裏需要藉助CNI網絡插件來實現。圖中展示了使用flannel實現跨節點通信的方式。

簡單說來，flannel的用戶態進程flanneld會爲每個node節點創建一個flannel.1的網橋，根據etcd或apiserver的全局統一的集羣信息爲每個node分配全局唯一的網段，避免地址衝突。同時會爲docker0和flannel.1創建veth對，docker0將報文丟給flannel.1,。

Flanneld維護了一份全局node的網絡表，通過flannel.1接收到請求後，根據node表，將請求二次封裝爲UDP包，扔給eth0，由eth0出口進入物理網路發送給目的node。

在另一端以相反的流程。Flanneld解包併發往docker0，進而發往目的Pod中的容器。

外部訪問集羣

從集羣外訪問集羣有多種方式，比如loadbalancer，Ingress，nodeport，nodeport和loadbalancer是service的兩個基本類型，是將service直接對外暴露的方式，ingress則是提供了七層負載均衡，其基本原理將外部流量轉發到內部的service，再轉發到後端endpoints，在平時的使用中，我們可以依據具體的業務需求選用不同的方式。這裏主要介紹nodeport和ingress方式。

Nodeport

通過將Service的類型設置爲NodePort，就可以在Cluster中的主機上通過一個指定端口暴露服務。注意通過Cluster中每臺主機上的該指定端口都可以訪問到該服務，發送到該主機端口的請求會被kubernetes路由到提供服務的Pod上。採用這種服務類型，可以在kubernetes cluster網絡外通過主機IP：端口的方式訪問到服務。

這裏給出一個influxdb的例子，我們也可以針對這個模板去修改成其他的類型：

kind: Service
apiVersion: v1
metadata:
 name: influxdb
spec:
 type: NodePort
 ports:
 - port: 8086
 nodePort: 31112
 selector:
 name: influxdb

Ingress

Ingress是推薦在生產環境使用的方式，它起到了七層負載均衡器和Http方向代理的作用，可以根據不同的url把入口流量分發到不同的後端Service。外部客戶端只看到http://foo.bar.com這個服務器，屏蔽了內部多個Service的實現方式。採用這種方式，簡化了客戶端的訪問，並增加了後端實現和部署的靈活性，可以在不影響客戶端的情況下對後端的服務部署進行調整。

其部署的yaml可以參考如下模板：

apiVersion: extensions/v1beta1
kind: Ingress
metadata:
 name: test
 annotations:
 ingress.kubernetes.io/rewrite-target: /
spec:
 rules:
 - host: test.name.com
 http:
 paths:
 - path: /test
 backend:
 serviceName: service-1
 servicePort: 8118
 - path: /name
 backend:
 serviceName: service-2
 servicePort: 8228

這裏我們定義了一個ingress模板，定義通過http://test.name.com來訪問服務，在虛擬主機http://test.name.com下面定義了兩個Path，其中/test被分發到後端服務s1，/name被分發到後端服務s2。

集羣中可以定義多個ingress，來完成不同服務的轉發，這裏需要一個ingress controller來管理集羣中的Ingress規則。Ingress Contronler 通過與 Kubernetes API 交互，動態的去感知集羣中 Ingress 規則變化，然後讀取它，按照自定義的規則，規則就是寫明瞭哪個域名對應哪個service，生成一段 Nginx 配置，再寫到 Nginx-ingress-control的 Pod 裏，這個 Ingress Contronler 的pod裏面運行着一個nginx服務，控制器會把生成的nginx配置寫入/etc/nginx.conf文件中，然後 reload使用配置生效。

Kubernetes提供的Ingress Controller模板如下：

apiVersion: extensions/v1beta1
kind: Ingress
metadata:
 name: test
 annotations:
 ingress.kubernetes.io/rewrite-target: /
spec:
 rules:
 - host: foo.bar.com
 http:
 paths:
 - path: /foo
 backend:
 serviceName: s1
 servicePort: 80
 - path: /bar
 backend:
 serviceName: s2
 servicePort: 80

總結及展望

本文針對kubernetes的網絡模型，從一個service，二個IP，三個port出發進行圖解。詳解kubernetes集羣內及集羣外部訪問方式。後續還將針對各網絡細節進行深入分析，敬請關注。

一篇文章爲你圖解kubernetes網絡通信原理

寫在前面

名詞解釋

令人頭大的網絡模型

集羣內部通信

外部訪問集羣

總結及展望

QT 函數（全）

ubuntu上的wife設置

QT 線程間QThread的信號和槽

將QT程序設爲ARM板開機自行啓動的方法

解決windows安裝程序無法將windows配置爲在此計算機的硬件上運行

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結