SRE Google運維解密
Goolgle的生成環境介紹
1、硬件:物理服務器和軟件服務器, 物理服務器和已運行任何類型的軟件服務器,
物理服務器對資源管理採用集羣管理系統分配資源,成爲Brog。
每個物理服務器互相進行網絡通信,採用虛擬網絡交換機(Jupiter)這個交換機有幾萬個虛擬端口,Jupiter可以提供1.3Pb/s的交叉寬帶。
Google的數據中心由一套全球覆蓋的骨幹網B4連接起來的。
B4是指基於SDN網絡技術(使用OpenFlow標準協議)構建的,可以給中規模的骨幹網絡提供海量帶寬,同時可以利用動態帶寬管理優化網絡連接。
物理服務器的管理軟件 :Borg 是一個分佈式集羣操作系統。
(1)Borg負責運行用戶提交的任務。該任務可以是無限運行的軟件服務器,或者是批量任務,每個任務可以由一個或多個實例組成的。
由於實例和機器並沒有一對一的固定對應關係,不能用IP和端口指代某一具體任務的實例。故新增加一層抽象層BNS(Borg名稱解析系統),BNS負責將這個名稱轉換爲具體的IP和端口進行連接
BNS地址可能是一個字符串:/bns/<集羣名>/<用戶名>/<任務名>/<實例名> 解析爲 IP地址:端口
(2)Borg還負責資源分配給每個任務,每個任務都需要在配置文件中聲明它需要的具體資源。Borg可以將所有的任務合理地分配到不同物理服務器上,以提高每個物理服務器的利用率,同時Borg還關注物理服務器的故障域屬性。
2、存儲
集羣存儲系統有開源的Lustre Hadoop文件系統(HDFS)此處有圖,暫時省去
3、網絡
使用一個基於OpenFlow協議的軟件定義網絡(SDN),網絡交換機控制器負責計算網絡中的最佳路徑。
帶寬控制器(BwE)負責管理所有可用帶寬。優化帶寬的使用目的不僅降低成本,利用中心化的路由計算,可以解決以前在分佈式路由模式下難以解決的流量遷移問題。
爲了降低分佈式集羣的服務延遲,採用全球負載均衡(GSLB)
(1)利用地理位置進行負載均衡DNS請求
(2)在用戶服務層面進行負載均衡
(3)在遠程調用(RPC)層面進行負載均衡