一篇文章爲你圖解kubernetes網絡通信原理

                                                            

【本文專欄於[頭條號]、[知乎]同步發佈,可關注同名賬號訂閱相關文章,每週固定更新】

【全文6430字,閱讀約需15分鐘,其中涉及概念較多,建議先收藏再看。】

 

寫在前面

在之前的文章中,我們已經對kubernetes有了一個全方位的瞭解。(詳見我的頭條號文章《一篇文章帶你瞭解Kubernetes》《到底什麼是Kubernetes Pod》),接下來,我將用一個系列的文章對kubernetes中的核心技術進行一一的探祕,話不多說,一起進入今天的內容吧。


 

名詞解釋

1、網絡的命名空間:Linux在網絡棧中引入網絡命名空間,將獨立的網絡協議棧隔離到不同的命令空間中,彼此間無法通信;docker利用這一特性,實現不容器間的網絡隔離。

2、Veth設備對:也叫虛擬網絡接口對。Veth設備對的引入是爲了實現在不同網絡命名空間的通信。

3、Iptables/Netfilter:Netfilter負責在內核中執行各種掛接的規則(過濾、修改、丟棄等),運行在內核 模式中;Iptables模式是在用戶模式下運行的進程,負責協助維護內核中Netfilter的各種規則表;通過二者的配合來實現整個Linux網絡協議棧中靈活的數據包處理機制。

4、網橋:網橋是一個二層網絡設備,通過網橋可以將linux支持的不同的端口連接起來,並實現類似交換機那樣的多對多的通信。

5、路由:Linux系統包含一個完整的路由功能,當IP層在處理數據發送或轉發的時候,會使用路由表來決定發往哪裏。

 


令人頭大的網絡模型

Kubernetes對集羣內部的網絡進行了重新抽象,以實現整個集羣網絡扁平化。我們可以理解網絡模型時,可以完全抽離物理節點去理解,我們用圖說話,先有基本印象。

 

 

其中,重點講解以下幾個關鍵抽象概念。

一個Service

Service是Kubernetes爲爲屏蔽這些後端實例(Pod)的動態變化和對多實例的負載均衡而引入的資源對象。Service通常與deployment綁定,定義了服務的訪問入口地址,應用(Pod)可以通過這個入口地址訪問其背後的一組由Pod副本組成的集羣實例。Service與其後端Pod副本集羣之間則是通過Label Selector來實現映射。

Service的類型(Type)決定了Service如何對外提供服務,根據類型不同,服務可以只在Kubernetes cluster中可見,也可以暴露到集羣外部。Service有三種類型,ClusterIP,NodePort和LoadBalancer。具體的使用場景會在下文中進行闡述。

在測試環境查看:

$ kubectl get svc --selector app=nginx
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
nginx ClusterIP 172.19.0.166 <none> 80/TCP 1m
$ kubectl describe svc nginx
Name: nginx
Namespace: default
Labels: app=nginx
Annotations: <none>
Selector: app=nginx
Type: ClusterIP
IP: 172.19.0.166
Port: <unset> 80/TCP
TargetPort: 80/TCP
Endpoints: 172.16.2.125:80,172.16.2.229:80
Session Affinity: None
Events: <none>

上述信息中該svc後端代理了2個Pod實例:172.16.2.125:80,172.16.2.229:80

二個IP

Kubernetes爲描述其網絡模型的IP對象,抽象出Cluster IP和Pod IP的概念。

PodIP是Kubernetes集羣中每個Pod的IP地址。它是Docker Engine 根據docker0網橋的IP地址段進行分配的,是一個虛擬的二層網絡。Kubernetes中Pod間能夠彼此直接通訊,Pod裏的容器訪問另外一個Pod裏的容器,是通過Pod IP所在進行通信。

Cluster IP僅作用於Service,其沒有實體對象所對應,因此Cluster IP無法被ping通。它的作用是爲Service後端的實例提供統一的訪問入口。當訪問ClusterIP時,請求將被轉發到後端的實例上,默認是輪詢方式。Cluster IP和Service一樣由kube-proxy組件維護,其實現方式主要有兩種,iptables和IPVS。在1.8版本後kubeproxy開始支持IPVS方式。在上例中,SVC的信息中包含了Cluster IP。

這裏未列出nodeip概念,由於其本身是物理機的網卡IP。因此可理解爲nodeip就是物理機IP。

三個Port

在Kubernetes中,涉及容器,Pod,Service,集羣各等多個層級的對象間的通信,爲在網絡模型中區分各層級的通信端口,這裏對Port進行了抽象。

Port

該Port非一般意義上的TCP/IP中的Port概念,它是特指Kubernetes中Service的port,是Service間的訪問端口,例如Mysql的Service默認3306端口。它僅對進羣內容器提供訪問權限,而無法從集羣外部通過該端口訪問服務。

nodePort

nodePort爲外部機器提供了訪問集羣內服務的方式。比如一個Web應用需要被其他用戶訪問,那麼需要配置type=NodePort,而且配置nodePort=30001,那麼其他機器就可以通過瀏覽器訪問scheme://node:30001訪問到該服務,例如http://node:30001

targetPort

targetPort是容器的端口(最根本的端口入口),與製作容器時暴露的端口一致(DockerFile中EXPOSE),例如http://docker.io官方的nginx暴露的是80端口。

舉一個例子來看如何配置Service的port:

kind: Service
apiVersion: v1
metadata:
 name: mallh5-service
 namespace: abcdocker
spec:
 selector:
 app: mallh5web
 type: NodePort
 ports:
 - protocol: TCP
 port: 3017
 targetPort: 5003
 nodePort: 31122

這裏舉出了一個service的yaml,其部署在abcdocker的namespace中。這裏配置了nodePort,因此其類型Type就是NodePort,注意大小寫。若沒有配置nodePort,那這裏需要填寫ClusterIP,即表示只支持集羣內部服務訪問。

集羣內部通信

單節點通信

集羣單節點內的通信,主要包括兩種情況,同一個pod內的多容器間通信以及同一節點不同pod間的通信。由於不涉及跨節點訪問,因此流量不會經過物理網卡進行轉發。

通過查看路由表,也能窺見一二:

root@node-1:/opt/bin# route -n
Kernel IP routing table
Destination Gateway Genmask Flags Metric Ref Use Iface
0.0.0.0 172.23.100.1 0.0.0.0 UG 0 0 0 eth0
10.1.0.0 0.0.0.0 255.255.0.0 U 0 0 0 flannel.1 #flannel 網絡內跨節點的通信會交給 flannel.1 處理
10.1.1.0 0.0.0.0 255.255.255.0 U 0 0 0 docker0 #flannel 網絡內節點內的通信會走 docker0

1 Pod內通信

如下圖所示:

 

 

這種情況下,同一個pod內共享網絡命名空間,容器之間通過訪問127.0.0.1:(端口)即可。圖中的veth*即指veth對的一端(另一端未標註,但實際上是成對出現),該veth對是由Docker Daemon掛載在docker0網橋上,另一端添加到容器所屬的網絡命名空間,圖上顯示是容器中的eth0。

圖中演示了bridge模式下的容器間通信。docker1向docker2發送請求,docker1,docker2均與docker0建立了veth對進行通訊。

當請求經過docker0時,由於容器和docker0同屬於一個子網,因此請求經過docker2與docker0的veth*對,轉發到docker2,該過程並未跨節點,因此不經過eth0。

2 Pod間通信

同節點pod間通信

由於Pod內共享網絡命名空間(由pause容器創建),所以本質上也是同節點容器間的通信。同時,同一Node中Pod的默認路由都是docker0的地址,由於它們關聯在同一個docker0網橋上,地址網段相同,所有它們之間應當是能直接通信的。來看看實際上這一過程如何實現。如上圖,Pod1中容器1和容器2共享網絡命名空間,因此對pod外的請求通過pod1和Docker0網橋的veth對(圖中掛在eth0和ethx上)實現。

 

 

訪問另一個pod內的容器,其請求的地址是PodIP而非容器的ip,實際上也是同一個子網間通信,直接經過veth對轉發即可。

跨節點通信

CNI:容器網絡接口

CNI 是一種標準,它旨在爲容器平臺提供網絡的標準化。不同的容器平臺(比如目前的 kubernetes、mesos 和 rkt)能夠通過相同的接口調用不同的網絡組件。

目前kubernetes支持的CNI組件種類很多,例如:bridge calico calico-ipam dhcp flannel host-local ipvlan loopback macvlan portmap ptp sample tuning vlan。在docker中,主流的跨主機通信方案主要有一下幾種:

1)基於隧道的overlay網絡:按隧道類型來說,不同的公司或者組織有不同的實現方案。docker原生的overlay網絡就是基於vxlan隧道實現的。ovn則需要通過geneve或者stt隧道來實現的。flannel最新版本也開始默認基於vxlan實現overlay網絡。

2)基於包封裝的overlay網絡:基於UDP封裝等數據包包裝方式,在docker集羣上實現跨主機網絡。典型實現方案有weave、flannel的早期版本。

3)基於三層實現SDN網絡:基於三層協議和路由,直接在三層上實現跨主機網絡,並且通過iptables實現網絡的安全隔離。典型的方案爲Project Calico。同時對不支持三層路由的環境,Project Calico還提供了基於IPIP封裝的跨主機網絡實現

通信方式

 

 

集羣內跨節點通信涉及到不同的子網間通信,僅靠docker0無法實現,這裏需要藉助CNI網絡插件來實現。圖中展示了使用flannel實現跨節點通信的方式。

簡單說來,flannel的用戶態進程flanneld會爲每個node節點創建一個flannel.1的網橋,根據etcd或apiserver的全局統一的集羣信息爲每個node分配全局唯一的網段,避免地址衝突。同時會爲docker0和flannel.1創建veth對,docker0將報文丟給flannel.1,。

Flanneld維護了一份全局node的網絡表,通過flannel.1接收到請求後,根據node表,將請求二次封裝爲UDP包,扔給eth0,由eth0出口進入物理網路發送給目的node。

在另一端以相反的流程。Flanneld解包併發往docker0,進而發往目的Pod中的容器。


 

外部訪問集羣

從集羣外訪問集羣有多種方式,比如loadbalancer,Ingress,nodeport,nodeport和loadbalancer是service的兩個基本類型,是將service直接對外暴露的方式,ingress則是提供了七層負載均衡,其基本原理將外部流量轉發到內部的service,再轉發到後端endpoints,在平時的使用中,我們可以依據具體的業務需求選用不同的方式。這裏主要介紹nodeport和ingress方式。

Nodeport

通過將Service的類型設置爲NodePort,就可以在Cluster中的主機上通過一個指定端口暴露服務。注意通過Cluster中每臺主機上的該指定端口都可以訪問到該服務,發送到該主機端口的請求會被kubernetes路由到提供服務的Pod上。採用這種服務類型,可以在kubernetes cluster網絡外通過主機IP:端口的方式訪問到服務。

 

 

這裏給出一個influxdb的例子,我們也可以針對這個模板去修改成其他的類型:

kind: Service
apiVersion: v1
metadata:
 name: influxdb
spec:
 type: NodePort
 ports:
 - port: 8086
 nodePort: 31112
 selector:
 name: influxdb

Ingress

 

 

Ingress是推薦在生產環境使用的方式,它起到了七層負載均衡器和Http方向代理的作用,可以根據不同的url把入口流量分發到不同的後端Service。外部客戶端只看到http://foo.bar.com這個服務器,屏蔽了內部多個Service的實現方式。採用這種方式,簡化了客戶端的訪問,並增加了後端實現和部署的靈活性,可以在不影響客戶端的情況下對後端的服務部署進行調整。

其部署的yaml可以參考如下模板:

apiVersion: extensions/v1beta1
kind: Ingress
metadata:
 name: test
 annotations:
 ingress.kubernetes.io/rewrite-target: /
spec:
 rules:
 - host: test.name.com
 http:
 paths:
 - path: /test
 backend:
 serviceName: service-1
 servicePort: 8118
 - path: /name
 backend:
 serviceName: service-2
 servicePort: 8228

這裏我們定義了一個ingress模板,定義通過http://test.name.com來訪問服務,在虛擬主機http://test.name.com下面定義了兩個Path,其中/test被分發到後端服務s1,/name被分發到後端服務s2。

集羣中可以定義多個ingress,來完成不同服務的轉發,這裏需要一個ingress controller來管理集羣中的Ingress規則。Ingress Contronler 通過與 Kubernetes API 交互,動態的去感知集羣中 Ingress 規則變化,然後讀取它,按照自定義的規則,規則就是寫明瞭哪個域名對應哪個service,生成一段 Nginx 配置,再寫到 Nginx-ingress-control的 Pod 裏,這個 Ingress Contronler 的pod裏面運行着一個nginx服務,控制器會把生成的nginx配置寫入/etc/nginx.conf文件中,然後 reload使用配置生效。

Kubernetes提供的Ingress Controller模板如下:

apiVersion: extensions/v1beta1
kind: Ingress
metadata:
 name: test
 annotations:
 ingress.kubernetes.io/rewrite-target: /
spec:
 rules:
 - host: foo.bar.com
 http:
 paths:
 - path: /foo
 backend:
 serviceName: s1
 servicePort: 80
 - path: /bar
 backend:
 serviceName: s2
 servicePort: 80

 


 

總結及展望

本文針對kubernetes的網絡模型,從一個service,二個IP,三個port出發進行圖解。詳解kubernetes集羣內及集羣外部訪問方式。後續還將針對各網絡細節進行深入分析,敬請關注。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章