Kubernetes容器雲平臺實踐

Kubernetes是Google開源的一個容器編排引擎，它支持自動化部署、大規模可伸縮、應用容器化管理。伴隨着雲原生技術的迅速崛起，如今Kubernetes 事實上已經成爲應用容器化平臺的標準，越來越受到企業的青睞，在生產中也應用的也越來越廣泛。
我們的容器平臺建設從2016年開始，大致經歷了探索預研、體系建設和平臺落地這樣三個階段。

下面就從Kubernetes的網絡、存儲、集羣管理和監控與運維幾個方面來分享下我們容器雲平臺建設走過的歷程，希望給大家一些思考和啓發。
一、 kubernetes網絡
容器網絡發展到現在，已經是雙雄會的格局。雙雄會其實指的就是Docker的CNM和Google、CoreOS、Kuberenetes主導的CNI。首先明確一點，CNM和CNI並不是網絡實現，他們是網絡規範和網絡體系，從研發的角度他們就是一堆接口，你底層是用Flannel也好、用Calico也好，他們並不關心，CNM和CNI關心的是網絡管理的問題。
網絡需求調研發現，業務部門主要關注以下幾點：1、容器網絡與物理網絡打通2、速度越快越好3、改動越少越好4、儘可能少的風險點。
容器的網絡方案大體可分爲協議棧層級、穿越形態、隔離方式這三種形式

協議棧層級：二層比較好理解，在以前傳統的機房或虛擬化場景中比較常見，就是基於橋接的 ARP+MAC 學習，它最大的缺陷是廣播。因爲二層的廣播，會限制節點的量級；三層（純路由轉發），協議棧三層一般基於 BGP，自主學習整個機房的路由狀態。它最大的優點是它的 IP 穿透性，也就是說只要是基於這個 IP 的網絡，那此網絡就可以去穿越。顯而易見，它的規模是非常有優勢，且具有良好的量級擴展性。但在實際部署過程中，因爲企業的網絡大多受控。比如，有的企業網絡的 BGP 是基於安全考慮不給開發者用或者說企業網絡本身不是 BGP，那這種情況下你就受限了；協議棧二層加三層，它的優點是能夠解決純二層的規模性擴展問題，又能解決純三層的各種限制問題，特別是在雲化 VPC 場景下，可以利用 VPC 的跨節點三層轉發能力。
穿越形態：
這個與實際部署環境十分相關。穿越形態分爲兩種：Underlay、Overlay。
Underlay：在一個較好的可控的網絡場景下，我們一般利用 Underlay。可以這樣通俗的理解，無論下面是裸機還是虛擬機，只要整個網絡可控，容器的網絡便可直接穿過去，這就是 Underlay。
Overlay：Overlay 在雲化場景比較常見。Overlay 下面是受控的 VPC 網絡，當出現不屬於 VPC 管轄範圍中的 IP 或者 MAC，VPC 將不允許此 IP/MAC 穿越。出現這種情況時，我們可利用 Overlay 方式來做。
Overlay網絡使物理網絡虛擬化、資源池化，是實現雲網融合的關鍵。把Overlay網絡和SDN技術結合使用，把SDN控制器作爲Overlay網絡控制平面的控制器，這種方式更容易使網絡與計算組件整合，是網絡向雲平臺服務轉變的理想選擇。
隔離方式：
隔離方式通常分爲VLAN和VXLAN 兩種：
VLAN：VLAN 機房中使用偏多，但實際上存在一個問題。就是它總的租戶數量受限。衆所周知，VLAN 具有數量限制。
VXLAN：VXLAN 是現今較爲主流的一種隔離方式。因爲它的規模性較好較大，且它基於 IP 穿越方式較好。
我們從協議層級、穿越形態和隔離方式對kubernetes幾個常見的網絡組件（calico、contiv、flannel、Openshift SDN、自定義路由）在傳統機房網絡以及雲化VPC網絡應用場景下做一個分析，用連線圖來表述它們之前的關係。

首先無論是傳統機房網絡還是雲化 VPC 網絡，我們可以看到 Overlay 方案是通用的，它在雲化場景裏可能用的更多一些，因爲它有很好的穿越性。
在上圖中，紅線實線指向傳統機房網絡，這裏重點說明下。Underlay + 三層的方案，是傳統機房網絡非常流行的方案，同時它的性能非常可觀，場景應用比較偏多。
綠色虛線指向雲化VPC網絡， Underlay+三層網絡在雲化 VPC 場景下，也是可以受限使用。受限使用顧名思義，可以使用但不是每個供應商都讓你用，因爲每一個雲廠商對他自己網絡保護的定義不一樣。比如像 Calico 方案，它的 BGP 在 AWS 中就容易做，但在 Azure 中就不允許，因爲 Azure 的 VPC 本身是不允許不受它管控範圍的 IP 通過。
黃顏色的實線指向雲化VPC網絡，Overlay+二層或三層在雲化場景中比較常見。Overlay 下面是受控的 VPC 網絡，管控會比較方便。
當然雲化VPC場景下也存在一些問題，如下圖所示。

接下來說一下多租戶之間的網絡隔離問題

K8s從1.3版引入網絡策略機制，通過網絡策略可實現POD之間的入站和出站訪問策略。
網絡策略可應用於通過常用標籤標識的pod組，然後使用標籤來模擬傳統的分段網絡，可以通過特定的“段”標籤來標識前端和後端pod。策略控制這些段之間的流量，甚至控制來自外部源的流量。但並非所有的網絡後端都支持策略，比如 flannel。現在很多廠商在這方面加強了研究，也有很多新的解決方案，就不一一列舉了。
還有就是集羣邊界Ingress的管理

Ingress 是在kubernetes 1.2版本纔出現的，容器應用默認以Service的形式提供服務，但Service僅作用於集羣內部，通過Ingress將Service暴露出去才能爲集羣外的客戶端提供服務。
下面對常見的Ingress Controller做一個對比，見下表

我們看到Nginx在性能和功能適用面上，還有社區活躍度上都較好，實用中也較多。
二、 kubernetes的存儲
k8s最初用於管理無狀態的服務，但隨着越來越多的應用遷移到k8s平臺，管理存儲資源成爲一個非常重要的功能。
Kubernetes中對於存儲的使用主要集中在以下幾個方面：
服務的基本配置文件讀取、密碼密鑰管理等；服務的存儲狀態、數據存取等；不同服務或應用程序間共享數據。大致有以下幾個場景，如圖：

Kubernete存儲在設計的時候遵循着Kubernetes的一貫哲學，即聲明式（Declarative）架構。同時爲了儘可能多地兼容各種存儲平臺，Kubernetes以in-tree plugin的形式來對接不同的存儲系統，滿足用戶可以根據自己業務的需要使用這些插件給容器提供存儲服務。同時兼容用戶使用FlexVolume和CSI定製化插件。相比較於Docker Volume，支持的存儲功能更加豐富和多樣。
Kubernete存儲插件解析：
1、in-tree plugin：存儲代碼與K8S緊密集成，耦合性太強
2、FlexVolume：存儲插件安裝在宿主機上，需要宿主機的root權限
3、CSI規範：將存儲代碼與K8S完全解耦（1.10版本及以上，使用CSI attacher使用0.2.0版本）

csi規範極大地方便了插件的開發、維護和集成，具有很好的發展前景。
Kubernetes使用兩種資源管理存儲：
PersistentVolume（簡稱PV）：由管理員添加的的一個存儲的描述，是一個全局資源，包含存儲的類型，存儲的大小和訪問模式等。它的生命週期獨立於Pod，例如當使用它的Pod銷燬時對PV沒有影響。
PersistentVolumeClaim（簡稱PVC）：是Namespace裏的資源，描述對PV的一個請求。請求信息包含存儲大小，訪問模式等。
PV可以看作可用的存儲資源，PVC則是對存儲資源的需求，PVC會根據Pod的要求去自動綁定合適的PV給Pod使用。PV和PVC的相互關係遵循下圖所示的生命週期。

PV模式有靜態和動態，靜態PV模式管理NFS、FC、ISCSI，動態PV模式管理glusterfs、Cinder、Ceph RBD、Vsphere、ScaleIO、AWS、Azure等。靜態的需要管理員創建和管理PV，而動態的則由系統自動生成PV並綁定PVC.
下面再簡單補充下kubernetes中的鏡像管理，生產中都會有很多不同版本不同應用的鏡像，對鏡像的管理也是比較重要的環節。

鏡像的多租戶權限管理：
1、不同租戶的鏡像應相互隔離
2、不同的租戶對鏡像擁有不同的權限，例如讀寫、只讀、上傳、下載權限
3、鏡像庫提供鏡像的查詢、更新和刪除等功能

對於跨地域多數據中心的鏡像管理，鏡像庫的遠程複製管理需要注意：
1、在多數據中心或跨地域多站點的環境下，爲了提高多地區鏡像的下載效率，至少需要兩級鏡像庫的設置：總鏡像庫和子鏡像庫
2、鏡像庫之間的準實時增量同步

三、 Kubernetes集羣管理
在生產系統中，kubernetes多集羣的管理主要涉及：
1、服務運維
2、集中配置
3、擴容升級
4、資源配額
首先說說多集羣的調度管理
1、Kubernetes中的調度策略可以大致分爲兩種，一種是全局的調度策略，另一種是運行時調度策略
2、NODE的隔離與恢復；NODE的擴容；Pod動態擴容和縮放
3、親和性可以實現就近部署，增強網絡能力實現通信上的就近路由，減少網絡的損耗。反親和性主要是出於高可靠性考慮，儘量分散實例。
4、微服務依賴，定義啓動順序
5、跨部門應用不混部
6、api網關以及GPU節點應用獨佔

多集羣管理中的應用彈性伸縮管理：
1、手工擴縮容：預先知道業務量的變化情況
2、基於CPU使用率的自動擴縮容：v1.1版引入控制器HPA，POD必須設置CPU資源使用率請求
3、基於自定義業務指標的自動擴縮容：v1.7版對HPA重新設計，增加了組件，被稱爲HPA v2
在實際應用中，HPA還有很多不完善的地方，很多廠商都用自己的監控體系來實現對業務指標的監控並實現自動擴容
Kubernetes多集羣的調優：
主要有三個難點：
第一是如何分配資源，當用戶選擇多集羣部署後，系統根據每個集羣的資源用量，決定每個集羣分配的容器數量，並且保證每個集羣至少有一個容器。集羣自動伸縮時，也會按照此比例創建和回收容器。
第二是故障遷移，集羣控制器主要是爲了解決多集羣的自動伸縮和集羣故障時的容器遷移，控制器定時檢測集羣的多個節點，如果多次失敗後將觸發集羣容器遷移的操作，保障服務可靠運行。
第三是網絡和存儲的互連，由於跨機房的網絡需要互連，我們採用vxlan的網絡方案實現，存儲也是通過專線互連。容器的鏡像倉庫採用Harbor，多集羣之間設置同步策略，並且在每個集羣都設置各自的域名解析，分別解析到不同的鏡像倉庫。

接下來說說K8S集羣的Master節點高可用實現，我們知道Kubernetes集羣的核心是其master node，但目前默認情況下master node只有一個，一旦master node出現問題，Kubernetes集羣將陷入“癱瘓”，對集羣的管理、Pod的調度等均將無法實施。所以後面出現了一主多從的架構，包括master node、etcd等都可設計高可用的架構。

還有了解下Federation 集羣聯邦架構
在雲計算環境中，服務的作用距離範圍從近到遠一般可以有：同主機（Host，Node）、跨主機同可用區（Available Zone）、跨可用區同地區（Region）、跨地區同服務商（Cloud Service Provider）、跨雲平臺。K8s的設計定位是單一集羣在同一個地域內，因爲同一個地區的網絡性能才能滿足K8s的調度和計算存儲連接要求。而集羣聯邦（Federation）就是爲提供跨Region跨服務商K8s集羣服務而設計的，實現業務高可用。
Federation 在1.3版引入，集羣聯邦federation/v1beta1 API擴展基於DNS服務發現的功能。利用DNS，讓POD可以跨集羣、透明的解析服務。
1.6版支持級聯刪除聯邦資源,1.8版宣稱支持5000節點集羣，集羣聯邦V2

目前存在的問題：
1、網絡帶寬和成本的增加
2、削弱了多集羣之間的隔離性
3、成熟度不足，在生產中還沒有正式的應用
四、kubernetes的監控與運維
對於一個監控系統而言，常見的監控維度包括：資源監控和應用監控。資源監控是指節點、應用的資源使用情況，在容器場景中就延伸爲節點的資源利用率、集羣的資源利用率、Pod的資源利用率等。應用監控指的是應用內部指標的監控，例如我們會將應用在線人數進行實時統計，並通過端口進行暴露來實現應用業務級別的監控與告警。那麼在Kubernetes中，監控對象會細化爲哪些實體呢？
系統組件
kubernetes集羣中內置的組件，包括apiserver、controller-manager、etcd等等。
靜態資源實體
主要指節點的資源狀態、內核事件等等
動態資源實體
主要指Kubernetes中抽象工作負載的實體，例如Deployment、DaemonSet、Pod等等。
自定義應用
主要指需要應用內部需要定製化的監控數據以及監控指標。
不同容器雲監控方案的對比：

關於Prometheus監控：
主要注意兩點：
 查詢api的封裝
 配置文件的下發
有了prometheus這個強大的監控開源系統之後，我們所需要投入的工作就是查詢api的封裝和配置文件的下發。查詢api的封裝沒什麼好說的，無非就是前端調用我們自己的server，我們的server呢通過http協議去調用prometheus的api接口查詢到原始數據，然後進行組裝，最後返回給前端。配置文件的話包含三部分吧，警報的定義，alertmanager的配置，以及prometheus的配置，這裏也不好展開講，有興趣的可以去官網看看。當然也可以使用Prometheus+Grafana來搭建監控系統，這樣可視化會更豐富些，展現也比較快。
運維的思考---開發與運維的一體化

運維的思考---高可用問題
• Ocp平臺:
1、負載均衡Router高可用集羣: 2個節點
2、EFK高可用集羣: 3個ES節點+n個F節點
3、鏡像倉庫高可用集羣: 2個鏡像倉庫
• 微服務架構:
1、註冊中心高可用集羣(Eureka): 3個
2、配置中心高可用集羣: 3個
3、網關高可用集羣: 2個
4、關鍵微服務均是高可用集羣
運維的思考---高併發問題
• Ocp平臺:
1、對後端微服務(Pod)配置彈性擴容, K8的彈性伸縮擴容以及Docker容器的秒級啓動可以支撐用戶量的持續增長;
2、提前預留20%的資源, 當高併發情況發生時, 可以緊急擴充資源。
• 微服務架構:

調大關鍵鏈路微服務的熔斷線程數: 提升主要業務的併發響應能力。
對非關鍵鏈路微服務通過熔斷限流進行降級處理甚至關閉非關鍵鏈路的微服務。
熔斷機制：提升容器雲高併發場景下的容錯能力，防止故障級聯以及微服務的雪崩效應，提升系統的可用性。
• 中間件:
1、除了正在使用的集羣外, 提前增加冷備的集羣。
2、當高併發場景即將發生時, 可以緊急水平擴展。
還有就是性能壓測與優化問題，限於時間關係，這裏就不展開講了。
最後，容器雲之路總結
1.業務層面：因大型企業對業務的穩定性和連續性有比較高的要求，故容器化的演進路徑必然是從邊緣業務到核心業務，從簡單應用到複雜應用，具體到業務，首先可以考慮在Web前端進行容器化遷移，最後動後端業務。 
2.技術層面：目前原生Docker在服務發現、負載均衡、容器生命週期管理、容器間網絡、存儲等方面還存在諸多的不足，許多第三方廠家提供的開源解決方案和商業化版本，各具特色，難分高下。用戶無論選擇何種產品，可靠性、靈活性是需要慎重考慮的2個重要因素。
3.兼顧成本效益：綜合考慮容器化付出的成本代價與未來收益之間的平衡。
4.考慮現有硬件的負載能力，容器化並非包治百病的良藥，某些對併發吞吐量要求更高的業務，直接運行在裸機上，通過系統調優提高性能，容器化未必是最好的選擇。
5、持續更新，時刻提醒自己持續學習，擁抱變化，這樣才能看到平臺的不足，不斷迭代出更好的產品。
在生產實踐中，只有夯實基礎不斷去完善基於容器雲平臺的產品和建設生態體系，才能掌控未來決勝千里！

Kubernetes容器雲平臺實踐

創新：數字平臺將成爲企業數字化服務的中樞

關於開源的7大理念

數字化轉型之如何做好企業中臺的架構設計

Kubernetes容器雲平臺實踐

suse11重置密碼

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結