本文由 dbaplus 社羣授權轉載。
今天分享的主題是OPPO雲存儲的上雲之路。
分佈式存儲介紹
存儲相比於其他組件,更底層,所以有必要做一個簡單的科普。
1、對象存儲
主要是對整個文件進行操作,提供了對整個文件進行增刪查改的能力。不支持對對象內容進行增量修改,如七牛的對象存儲,AWS S3,阿里OSS,呈現給我們調用方式是http api。
2、分佈式文件系統
文件存儲實現了文件的POSIX接口,由於整個文件系統不依賴操作系統,常用於實現共享文件系統,常見的比如說ceph fs,gluster fs呈現給我們的使用方式是文件系統。
3、分佈式塊存儲
提供裸塊的能力交由物理機使用,協議是SCSI,iSCSI,文件系統層由操作系統提供。呈現給我們的使用方式是裸盤,不帶任何文件系統,需要格式化後使用,或者使用塊API。
雲平臺存儲基本架構
目前塊存儲主要是三個組件,gateway、storage、 cluster manager。
- gateway主要是解析iscsi協議,把塊請求解析發送到storage進行處理;
- storage則是對塊的讀寫操作進行處理,管理磁盤數據
- cluster manager爲元數據中心,保存節點的狀態,對整個集羣的健康狀態做仲裁
雲原生存儲
現在Kubernetes 的趨勢愈演愈烈,Kubernetes 逐漸成爲雲原生時代的基礎設施,爲了給上雲的程序提供服務,雲原生也隨之出現,目前世面上已經有OpenEBS Portworx 和Rook等產品。
雲原生存儲不僅要爲上雲的服務提供服務,自身也利用雲的特性增強自身的功能,依賴Kubernetes的特性,我們可以輕運維,輕部署,利用容器隔離的能力,減少異常進程之前的相互影響,提高整體資源的利用率。
Kubernetes與CSI
Kubernetes作爲未來雲上的操作系統,把存儲整個生命週期和管理抽象成三種資源。
1、StorageClass
抽象了管理存儲相關的配置,主要是provisioner、parameters、reclaimPolicy這三個配置。
- provisioner: 表示某一種存儲資源
- parameters: 相當於自定義配置,自定義一些存儲屬性
- reclaimPolicy:設置volume釋放後,pv的動作,Delete or Retain
通過聲明不同stroageclass可以管理多種類型的存儲比如說ceph,glusterfs等等。
2、PersistentVolume
表示一段已分配的存儲,可以是文件系統,也可以是裸塊,雲存儲的雲盤或者文件系統映射到Kubernetes 就是一個PersistentVolume。
3、PersistentVolumeClaim
用戶存儲的請求,可以請求特定的容量大小和訪問模式(例如,可以以讀/寫一次或指向多次模式掛載)。
抽象出PersistentVolumeClaim把存儲和管理分離,通過PersistentVolumeClaim我們可以控制訪問存儲的權限,存儲的容量和類型。
下圖是Kubernetes使用存儲的一個方式:
這裏衍生下Kubernetes 的一些設計理念,Kubernetes 使用聲明式的API,通過YAML聲明請求,並保存到etcd,這樣做的好處是把整個請求記錄下來,對於問題的回溯也比較方便,不用自己去記錄日誌提煉請求。
另外Kubernetes 還提供了對於各種資源的watch Api,各種資源的crud都可以通過watch api實時的拿到對應的YAML,這樣的設計的好處是讓Kubernetes 擁有非常好的擴展性,通過實現controller 去watch各種資源的變化情況,定義該資源的crud行爲。
4、Container Storage Interface
提供一個將任意塊或者文件存儲系統對接到給容器編排系統(COs)上的接口標準,如Kubernetes。
把存儲從創建到銷燬整個生命週期抽象成一組標準接口,Kubernetes通過對接CSI,實現對存儲整個生命週期的管理。
下圖就是CSI定義的存儲卷的生命週期:
5、Kubernetes中對接CSI
上文說道Kubernetes 對存儲的抽象是StorageClass,PersistentVolume ,PersistentVolumeClaim等資源CSI 則是提供一組標準接口。所以需要引入一層把Kubernetes 中的資源行爲轉爲CSI接口的程序,Kubernetes 提供了多個sidecar屏蔽這個過程。
這裏簡單科普下sidecar,一般來說,引入sdk實現某些功能,在編譯的時候把sdk代碼編譯進去,更新sdk要重新發布,和工程耦合的比較緊密,sidecar則是把sdk實現的功能通過在pod運行一個獨立的容器實現,通過sidecar們提供rpc接口進行交互,可以作爲被調用方,也可以是把服務包裝起來增強服務功能,增加這樣子的好處是解耦,讓更新sidecar容器的版本更簡單。
通過引入以下sidecar,我們可以只專注於實現CSI定義的接口。
- external-attacher:輔助觸發ControllerPublishVolume
- external-provisioner:輔助觸發Controller相關接口
- node-driver-registar:輔助註冊csi插件到kubelet
- external-resizer:輔助實現volume擴容
- external-snappshotter:輔助實現volume快照
- livenessprobe:轉換csi prob到k8s的liveness
6、Kubernetes和CSI的架構
從官網給的圖我們就可以直白的看到粉紅色框的sidecar們相當於一層膠水,把Kubernetes和csi鏈接起來。
1)PV與調度
至此我們已經講完了Kubernetes和CSI與K8S怎麼交互的,接下來講下PV與調度的關係。
在調度階段,PV的affinity 會影響Pod的調度,所以有調度需求的可以通過PV的affinity控制。
2)NodeStatgeVolume與NodePublishVolume
之前查閱資料的時候發現這兩個接口的說明講的比較少。
NodeStatgeVolume的接口是把遠端的雲盤掛到物理機上面。NodePublishVolume的接口是把NodeStatgeVolume之後的盤掛進容器裏面。Kubernetes 在NodeStatgeVolume階段會給每個PV生成一個全局掛載點,如下圖:
通過判斷這個掛載點是否掛載可以方式PV重複掛載導致出錯。接下來NodePublishVolume把NodeStatgeVolume的的掛載點掛載的自己Pod文件夾下,最終這個Pod的掛載點會被掛載進容器裏面。
存儲容器化
存儲作爲基礎組件,直接和本地盤打交道,所以我們一個要解決的事情就是如果Kubernetes 管理本地盤。
kubernetes管理本地盤
通過官方提供的local-static-provisioner自動生成LocalPersistentVolume管理磁盤。
LocalPersistentVolume是Kubernetes提供的一種管理本地盤的資源。
1、使用Statefulset管理存儲容器
通過statefulset 管理有狀態的存儲服務, 爲每個pod分配一個單獨的磁盤可以使用volumeClaimTemplates給每個pod生成唯一的pvc,具體規則${claimNmae}-${podName},事先準備好PVC 和 PV,通過Statefulset 我們就可以把我們的存儲託管到雲上了。另外借助daemonset,可以把我們gateway模塊部署到每一個node上面。處理雲存儲的請求。
2、存儲容器化的收益
1)降低運維成本
基於Kubernetes和statfulset獲得了滾動更新,灰度更新,健康檢查,快速擴容等功能,只需要一組yaml文件就可以快速搭建一個集羣,相比於傳統寫ansible腳本部署的方式複雜度大大降低。
2)降低開發運維成本
由於Kubernetes把存儲抽象成StorageClass PersistentVolume PersistentVolumeClaim。我們可以通過他們管理我們的存儲資源,基於Kubernetes lable的過濾功能,可以實現簡單的關係查詢,通過PVC與PV管理存儲資源,減少管理端的開發。定位問題也能通過POD信息快速定位到問題機器和問題雲盤。而且接入Kubernetes生態上的prometheus後,監控告警也能快速開發。
3)隔離性增強
docker限制cpu memory使用,減少進程之間資源互相干擾,進一步提升資源利用率。
作者介紹:
蔡逸煌,OPPO雲平臺高級後端工程師
主要從事雲平臺開發工作,擅長K8S、容器網絡、存儲等領域
原文鏈接: