系統化的瞭解一下微服務

系統的學習一下微服務,微服務的一些概念,並且在使用微服務的時候注意事項。

什麼是微服務?

在介紹微服務時,首先得先理解什麼是微服務,顧名思義,微服務得從兩個方面去理解,什麼是"微"、什麼是"服務", 微,狹義來講就是體積小、著名的"2 pizza 團隊"很好的詮釋了這一解釋(2 pizza 團隊最早是亞馬遜 CEO Bezos提出來的,意思是說單個服務的設計,所有參與人從設計、開發、測試、運維所有人加起來只需要2個披薩就夠了 )。 而所謂服務,一定要區別於系統,服務一個或者一組相對較小且獨立的功能單元,是用戶可以感知最小功能集。

微服務由來

微服務最早由Martin Fowler與James Lewis於2014年共同提出,微服務架構風格是一種使用一套小服務來開發單個應用的方式途徑,每個服務運行在自己的進程中,並使用輕量級機制通信,通常是HTTP API,這些服務基於業務能力構建,並能夠通過自動化部署機制來獨立部署,這些服務使用不同的編程語言實現,以及不同數據存儲技術,並保持最低限度的集中式管理。

爲什麼需要微服務?

在傳統的IT行業軟件大多都是各種獨立系統的堆砌,這些系統的問題總結來說就是擴展性差,可靠性不高,維護成本高。到後面引入了SOA服務化,但是,由於SOA早期均使用了總線模式,這種總線模式是與某種技術棧強綁定的,比如:J2EE。這導致很多企業的遺留系統很難對接,切換時間太長,成本太高,新系統穩定性的收斂也需要一些時間。最終SOA看起來很美,但卻成爲了企業級奢侈品,中小公司都望而生畏。

最期的單體架構帶來的問題

單體架構在規模比較小的情況下工作情況良好,但是隨着系統規模的擴大,它暴露出來的問題也越來越多,主要有以下幾點:

  1. 複雜性逐漸變高,比如有的項目有幾十萬行代碼,各個模塊之間區別比較模糊,邏輯比較混亂,代碼越多複雜性越高,越難解決遇到的問題。
  2. 技術債務逐漸上升,公司的人員流動是再正常不過的事情,有的員工在離職之前,疏於代碼質量的自我管束,導致留下來很多坑,由於單體項目代碼量龐大的驚人,留下的坑很難被發覺,這就給新來的員工帶來很大的煩惱,人員流動越大所留下的坑越多,也就是所謂的技術債務越來越多。
  3. 部署速度逐漸變慢,這個就很好理解了,單體架構模塊非常多,代碼量非常龐大,導致部署項目所花費的時間越來越多,曾經有的項目啓動就要一二十分鐘,這是多麼恐怖的事情啊,啓動幾次項目一天的時間就過去了,留給開發者開發的時間就非常少了。
  4. 阻礙技術創新,比如以前的某個項目使用struts2寫的,由於各個模塊之間有着千絲萬縷的聯繫,代碼量大,邏輯不夠清楚,如果現在想用Spring MVC來重構這個項目將是非常困難的,付出的成本將非常大,所以更多的時候公司不得不硬着頭皮繼續使用老的struts架構,這就阻礙了技術的創新。
  5. 無法按需伸縮,比如說電影模塊是CPU密集型的模塊,而訂單模塊是IO密集型的模塊,假如我們要提升訂單模塊的性能,比如加大內存、增加硬盤,但是由於所有的模塊都在一個架構下,因此我們在擴展訂單模塊的性能時不得不考慮其它模塊的因素,因爲我們不能因爲擴展某個模塊的性能而損害其它模塊的性能,從而無法按需進行伸縮。


微服務與單體架構區別

單體架構所有的模塊全都耦合在一塊,代碼量大,維護困難,微服務每個模塊就相當於一個單獨的項目,代碼量明顯減少,遇到問題也相對來說比較好解決。

單體架構所有的模塊都共用一個數據庫,存儲方式比較單一,微服務每個模塊都可以使用不同的存儲方式(比如有的用redis,有的用mysql等),數據庫也是單個模塊對應自己的數據庫。

單體架構所有的模塊開發所使用的技術一樣,微服務每個模塊都可以使用不同的開發技術,開發模式更靈活。

01.jpg


微服務與SOA區別

微服務,從本質意義上看,還是SOA架構。但內涵有所不同,微服務並不綁定某種特殊的技術,在一個微服務的系統中,可以有Java編寫的服務,也可以有 Python編寫的服務,他們是靠Restful架構風格統一成一個系統的。所以微服務本身與具體技術實現無關,擴展性強。

微服務本質

  • 微服務,關鍵其實不僅僅是微服務本身,而是系統要提供一套基礎的架構,這種架構使得微服務可以獨立的部署、運行、升級,不僅如此,這個系統架構還讓微服務與微服務之間在結構上“鬆耦合”,而在功能上則表現爲一個統一的整體。這種所謂的“統一的整體”表現出來的是統一風格的界面,統一的權限管理,統一的安全策略,統一的上線過程,統一的日誌和審計方法,統一的調度方式,統一的訪問入口等等。
  • 微服務的目的是有效的拆分應用,實現敏捷開發和部署 。
  • 微服務提倡的理念團隊間應該是inter-operate, not integrate。inter-operate是定義好系統的邊界和接口,在一個團隊內全棧,讓團隊自治,原因就是因爲如果團隊按照這樣的方式組建,將溝通的成本維持在系統內部,每個子系統就會更加內聚,彼此的依賴耦合能變弱,跨系統的溝通成本也就能降低。

 

什麼樣的項目適合微服務

微服務可以按照業務功能本身的獨立性來劃分,如果系統提供的業務是非常底層的,如:操作系統內核、存儲系統、網絡系統、數據庫系統等等,這類系統都偏底層,功能和功能之間有着緊密的配合關係,如果強制拆分爲較小的服務單元,會讓集成工作量急劇上升,並且這種人爲的切割無法帶來業務上的真正的隔離,所以無法做到獨立部署和運行,也就不適合做成微服務了。

能不能做成微服務,取決於四個要素:

  • 小:微服務體積小,2 pizza團隊。
  • 獨:能夠獨立的部署和運行。
  • 輕:使用輕量級的通信機制和架構。
  • 鬆:爲服務之間是鬆耦合的。

 

微服務折分與設計

從單體式結構轉向微服務架構中會持續碰到服務邊界劃分的問題:比如,我們有user服務來提供用戶的基礎信息,那麼用戶的頭像和圖片等是應該單獨劃分爲一個新的service更好還是應該合併到user服務裏呢?如果服務的粒度劃分的過粗,那就回到了單體式的老路;如果過細,那服務間調用的開銷就變得不可忽視了,管理難度也會指數級增加。目前爲止還沒有一個可以稱之爲服務邊界劃分的標準,只能根據不同的業務系統加以調節。

拆分的大原則是當一塊業務不依賴或極少依賴其它服務,有獨立的業務語義,爲超過2個的其他服務或客戶端提供數據,那麼它就應該被拆分成一個獨立的服務模塊。

微服務設計原則

  • 單一職責原則,意思是每個微服務只需要實現自己的業務邏輯就可以了,比如訂單管理模塊,它只需要處理訂單的業務邏輯就可以了,其它的不必考慮。
  • 服務自治原則,意思是每個微服務從開發、測試、運維等都是獨立的,包括存儲的數據庫也都是獨立的,自己就有一套完整的流程,我們完全可以把它當成一個項目來對待。不必依賴於其它模塊。
  • 輕量級通信原則,首先是通信的語言非常的輕量,第二,該通信方式需要是跨語言、跨平臺的,之所以要跨平臺、跨語言就是爲了讓每個微服務都有足夠的獨立性,可以不受技術的鉗制。
  • 接口明確原則,由於微服務之間可能存在着調用關係,爲了儘量避免以後由於某個微服務的接口變化而導致其它微服務都做調整,在設計之初就要考慮到所有情況,讓接口儘量做的更通用,更靈活,從而儘量避免其它模塊也做調整。

 

微服務優勢與缺點

特性

  1. 每個微服務可獨立運行在自己的進程裏;
  2. 一系列獨立運行的微服務共同構建起了整個系統;
  3. 每個服務爲獨立的業務開發,一個微服務一般完成某個特定的功能,比如:訂單管理,用戶管理等;
  4. 微服務之間通過一些輕量級的通信機制進行通信,例如通過REST API或者RPC的方式進行調用。


特點

  • 易於開發和維護,由於微服務單個模塊就相當於一個項目,開發這個模塊我們就只需關心這個模塊的邏輯即可,代碼量和邏輯複雜度都會降低,從而易於開發和維護。
  • 啓動較快,這是相對單個微服務來講的,相比於啓動單體架構的整個項目,啓動某個模塊的服務速度明顯是要快很多的。
  • 局部修改容易部署,在開發中發現了一個問題,如果是單體架構的話,我們就需要重新發布並啓動整個項目,非常耗時間,但是微服務則不同,哪個模塊出現了bug我們只需要解決那個模塊的bug就可以了,解決完bug之後,我們只需要重啓這個模塊的服務即可,部署相對簡單,不必重啓整個項目從而大大節約時間。
  • 技術棧不受限,比如訂單微服務和電影微服務原來都是用Java寫的,現在我們想把電影微服務改成Node.Js技術,這是完全可以的,而且由於所關注的只是電影的邏輯而已,因此技術更換的成本也就會少很多。
  • 按需伸縮,我們上面說了單體架構在想擴展某個模塊的性能時不得不考慮到其它模塊的性能會不會受影響,對於我們微服務來講,完全不是問題,電影模塊通過什麼方式來提升性能不必考慮其它模塊的情況。


缺點

  • 運維要求較高,對於單體架構來講,我們只需要維護好這一個項目就可以了,但是對於微服務架構來講,由於項目是由多個微服務構成的,每個模塊出現問題都會造成整個項目運行出現異常,想要知道是哪個模塊造成的問題往往是不容易的,因爲我們無法一步一步通過debug的方式來跟蹤,這就對運維人員提出了很高的要求。
  • 分佈式的複雜性,對於單體架構來講,我們可以不使用分佈式,但是對於微服務架構來說,分佈式幾乎是必會用的技術,由於分佈式本身的複雜性,導致微服務架構也變得複雜起來。
  • 接口調整成本高,比如,用戶微服務是要被訂單微服務和電影微服務所調用的,一旦用戶微服務的接口發生大的變動,那麼所有依賴它的微服務都要做相應的調整,由於微服務可能非常多,那麼調整接口所造成的成本將會明顯提高。
  • 重複勞動,對於單體架構來講,如果某段業務被多個模塊所共同使用,我們便可以抽象成一個工具類,被所有模塊直接調用,但是微服務卻無法這樣做,因爲這個微服務的工具類是不能被其它微服務所直接調用的,從而我們便不得不在每個微服務上都建這麼一個工具類,從而導致代碼的重複。

微服務開發框架

目前微服務的開發框架,最常用的有以下四個:

 

Sprint Cloud和Sprint Boot區別

Spring Boot:旨在簡化創建產品級的Spring應用和服務,簡化了配置文件,使用嵌入式Web服務器,含有諸多開箱即用微服務功能,可以和Spring Cloud聯合部署。

Spring Cloud:微服務工具包,爲開發者提供了在分佈式系統的配置管理、服務發現、斷路器、智能路由、微代理、控制總線等開發工具包。

微服務實踐先知

客戶端如何訪問這些服務?(API Gateway)

傳統的開發方式,所有的服務都是本地的,UI可以直接調用,現在按功能拆分成獨立的服務,跑在獨立的一般都在獨立的虛擬機上的Java進程了。客戶端UI如何訪問他的?後臺有N個服務,前臺就需要記住管理N個服務,一個服務下線/更新/升級,前臺就要重新部署,這明顯不服務我們 拆分的理念,特別當前臺是移動應用的時候,通常業務變化的節奏更快。另外,N個小服務的調用也是一個不小的網絡開銷。還有一般微服務在系統內部,通常是無狀態的,用戶登錄信息和權限管理最好有一個統一的地方維護管理(OAuth)。

所以,一般在後臺N個服務和UI之間一般會一個代理或者叫API Gateway,他的作用包括:

  • 提供統一服務入口,讓微服務對前臺透明
  • 聚合後臺的服務,節省流量,提升性能
  • 提供安全,過濾,流控等API管理功能
  • 我的理解其實這個API Gateway可以有很多廣義的實現辦法,可以是一個軟硬一體的盒子,也可以是一個簡單的MVC框架,甚至是一個Node.js的服務端。他們最重要的作用是爲前臺(通常是移動應用)提供後臺服務的聚合,提供一個統一的服務出口,解除他們之間的耦合,不過API Gateway也有可能成爲單點故障點或者性能的瓶頸。

 

02.jpeg

 

服務之間如何通信?(服務調用)

因爲所有的微服務都是獨立的Java進程跑在獨立的虛擬機上,所以服務間的通行就是IPC(inter process communication),已經有很多成熟的方案。現在基本最通用的有兩種方式。這幾種方式,展開來講都可以寫本書,而且大家一般都比較熟悉細節了, 就不展開講了。

  • REST(JAX-RS,Spring Boot)
  • RPC(Thrift,Dubbo)
  • 異步消息調用(Kafka,Notify)

 

03.jpg


一般同步調用比較簡單,一致性強,但是容易出調用問題,性能體驗上也會差些,特別是調用層次多的時候。RESTful和RPC的比較也是一個很有意 思的話題。一般REST基於HTTP,更容易實現,更容易被接受,服務端實現技術也更靈活些,各個語言都能支持,同時能跨客戶端,對客戶端沒有特殊的要 求,只要封裝了HTTP的SDK就能調用,所以相對使用的廣一些。RPC也有自己的優點,傳輸協議更高效,安全更可控,特別在一個公司內部,如果有統一個的開發規範和統一的服務框架時,他的開發效率優勢更明顯些。就看各自的技術積累實際條件,自己的選擇了。

而異步消息的方式在分佈式系統中有特別廣泛的應用,他既能減低調用服務之間的耦合,又能成爲調用之間的緩衝,確保消息積壓不會沖垮被調用方,同時能 保證調用方的服務體驗,繼續幹自己該乾的活,不至於被後臺性能拖慢。不過需要付出的代價是一致性的減弱,需要接受數據最終一致性;還有就是後臺服務一般要 實現冪等性,因爲消息發送出於性能的考慮一般會有重複(保證消息的被收到且僅收到一次對性能是很大的考驗);最後就是必須引入一個獨立的broker,如 果公司內部沒有技術積累,對broker分佈式管理也是一個很大的挑戰。

這麼多服務怎麼查找?(服務發現)

在微服務架構中,一般每一個服務都是有多個拷貝,來做負載均衡。一個服務隨時可能下線,也可能應對臨時訪問壓力增加新的服務節點。服務之間如何相互感知?服務如何管理?這就是服務發現的問題了。一般有兩類做法,也各有優缺點。基本都是通過ZooKeeper等類似技術做服務註冊信息的分佈式管理。當 服務上線時,服務提供者將自己的服務信息註冊到ZK(或類似框架),並通過心跳維持長鏈接,實時更新鏈接信息。服務調用者通過ZK尋址,根據可定製算法,找到一個服務,還可以將服務信息緩存在本地以提高性能。當服務下線時,ZK會發通知給服務客戶端。

客戶端做:優點是架構簡單,擴展靈活,只對服務註冊器依賴。缺點是客戶端要維護所有調用服務的地址,有技術難度,一般大公司都有成熟的內部框架支持,比如Dubbo。 

服務端做:優點是簡單,所有服務對於前臺調用方透明,一般在小公司在雲服務上部署的應用採用的比較多。
 

04.png

 

服務掛了怎麼辦?

分佈式最大的特性就是網絡是不可靠 的。通過微服務拆分能降低這個風險,不過如果沒有特別的保障,結局肯定是噩夢。我們剛遇到一個線上故障就是一個很不起眼的SQL計數功能,在訪問量上升 時,導致數據庫load彪高,影響了所在應用的性能,從而影響所有調用這個應用服務的前臺應用。所以當我們的系統是由一系列的服務調用鏈組成的時候,我們必須確保任一環節出問題都不至於影響整體鏈路。相應的手段有很多:

  • 重試機制
  • 限流
  • 熔斷機制
  • 負載均衡
  • 降級(本地緩存) 這些方法基本上都很明確通用,就不詳細說明了。比如Netflix的Hystrix:https://github.com/Netflix/Hystrix

 

05.jpg

 

微服務需要考慮的問題

這裏有一個圖非常好的總結微服務架構需要考慮的問題,包括

  • API Gateway
  • 服務間調用
  • 服務發現
  • 服務容錯
  • 服務部署
  • 數據調用

 

微服務重要部件

微服務基本能力

06.png

 

服務註冊中心

服務之間需要創建一種服務發現機制,用於幫助服務之間互相感知彼此的存在。服務啓動時會將自身的服務信息註冊到註冊中心,並訂閱自己需要消費的服務。

服務註冊中心是服務發現的核心。它保存了各個可用服務實例的網絡地址(IPAddress和Port)。服務註冊中心必須要有高可用性和實時更新功能。上面提到的 Netflix Eureka 就是一個服務註冊中心。它提供了服務註冊和查詢服務信息的REST API。服務通過使用POST請求註冊自己的IPAddress和Port。每30秒發送一個PUT請求刷新註冊信息。通過DELETE請求註銷服務。客戶端通過GET請求獲取可用的服務實例信息。 Netflix的高可用(Netflix achieves high availability )是通過在Amazon EC2運行多個實例來實現的,每一個Eureka服務都有一個彈性IP Address。當Eureka服務啓動時,有DNS服務器動態的分配。Eureka客戶端通過查詢 DNS來獲取Eureka的網絡地址(IP Address和Port)。一般情況下,都是返回和客戶端在同一個可用區Eureka服務器地址。 其他能夠作爲服務註冊中心的有:

  • etcd —– 高可用,分佈式,強一致性的,key-value,Kubernetes和Cloud Foundry都是使用了etcd。
  • Consul —–一個用於Discovering和Configuring的工具。它提供了允許客戶端註冊和發現服務的API。Consul可以進行服務健康檢查,以確定服務的可用性。
  • ZooKeeper —— 在分佈式應用中被廣泛使用,高性能的協調服務。Apache ZooKeeper最初爲Hadoop的一個子項目,但現在是一個頂級項目。


ZooKeeper服務註冊和發現

簡單來講,ZooKeeper可以充當一個服務註冊表(Service Registry),讓多個服務提供者形成一個集羣,讓服務消費者通過服務註冊表獲取具體的服務訪問地址(IP + 端口)去訪問具體的服務提供者。如下圖所示: 

07.png


具體來說,ZooKeeper就是個分佈式文件系統,每當一個服務提供者部署後都要將自己的服務註冊到zookeeper的某一路徑上:/{service}/{version}/{ip:port}, 比如我們的HelloWorldService部署到兩臺機器,那麼zookeeper上就會創建兩條目錄:分別爲/HelloWorldService/1.0.0/100.19.20.01:16888 /HelloWorldService/1.0.0/100.19.20.02:16888。

ZooKeeper提供了“心跳檢測”功能,它會定時向各個服務提供者發送一個請求(實際上建立的是一個socket長連接),如果長期沒有響應,服務中心就認爲該服務提供者已經“掛了”,並將其剔除,比如100.19.20.02這臺機器如果宕機了,那麼ZooKeeper上的路徑就會只剩/HelloWorldService/1.0.0/100.19.20.01:16888。

服務消費者會去監聽相應路徑(/HelloWorldService/1.0.0),一旦路徑上的數據有任務變化(增加或減少),ZooKeeper都會通知服務消費方服務提供者地址列表已經發生改變,從而進行更新。

更爲重要的是ZooKeeper與生俱來的容錯容災能力(比如leader選舉),可以確保服務註冊表的高可用性。

負載均衡

服務高可用的保證手段,爲了保證高可用,每一個微服務都需要部署多個服務實例來提供服務。此時客戶端進行服務的負載均衡。

負載均衡的常見策略

  • 隨機,把來自網絡的請求隨機分配給內部中的多個服務器。
  • 輪詢,每一個來自網絡中的請求,輪流分配給內部的服務器,從1到N然後重新開始。此種負載均衡算法適合服務器組內部的服務器都具有相同的配置並且平均服務請求相對均衡的情況。
  • 加權輪詢,根據服務器的不同處理能力,給每個服務器分配不同的權值,使其能夠接受相應權值數的服務請求。例如:服務器A的權值被設計成1,B的權值是3,C的權值是6,則服務器A、B、C將分別接受到10%、30%、60%的服務請求。此種均衡算法能確保高性能的服務器得到更多的使用率,避免低性能的服務器負載過重。
  • IP Hash,這種方式通過生成請求源IP的哈希值,並通過這個哈希值來找到正確的真實服務器。這意味着對於同一主機來說他對應的服務器總是相同。使用這種方式,你不需要保存任何源IP。但是需要注意,這種方式可能導致服務器負載不平衡。
  • 最少連接數,客戶端的每一次請求服務在服務器停留的時間可能會有較大的差異,隨着工作時間加長,如果採用簡單的輪循或隨機均衡算法,每一臺服務器上的連接進程可能會產生極大的不同,並沒有達到真正的負載均衡。最少連接數均衡算法對內部中需負載的每一臺服務器都有一個數據記錄,記錄當前該服務器正在處理的連接數量,當有新的服務連接請求時,將把當前請求分配給連接數最少的服務器,使均衡更加符合實際情況,負載更加均衡。此種均衡算法適合長時處理的請求服務,如FTP。

 

容錯

容錯,這個詞的理解,直面意思就是可以容下錯誤,不讓錯誤再次擴張,讓這個錯誤產生的影響在一個固定的邊界之內,“千里之堤毀於蟻穴”我們用容錯的方式就是讓這種蟻穴不要變大。那麼我們常見的降級,限流,熔斷器,超時重試等等都是容錯的方法。

在調用服務集羣時,如果一個微服務調用異常,如超時,連接異常,網絡異常等,則根據容錯策略進行服務容錯。目前支持的服務容錯策略有快速失敗,失效切換。如果連續失敗多次則直接熔斷,不再發起調用。這樣可以避免一個服務異常拖垮所有依賴於他的服務。

容錯策略

  • 快速失敗,服務只發起一次待用,失敗立即報錯。通常用於非冪等下性的寫操作。
  • 失效切換,服務發起調用,當出現失敗後,重試其他服務器。通常用於讀操作,但重試會帶來更長時間的延遲。重試的次數通常是可以設置的。
  • 失敗安全,失敗安全, 當服務調用出現異常時,直接忽略。通常用於寫入日誌等操作。
  • 失敗自動恢復,當服務調用出現異常時,記錄失敗請求,定時重發。通常用於消息通知。
  • forking Cluster,並行調用多個服務器,只要有一個成功,即返回。通常用於實時性較高的讀操作。可以通過forks=n來設置最大並行數。
  • 廣播調用,廣播調用所有提供者,逐個調用,任何一臺失敗則失敗。通常用於通知所有提供者更新緩存或日誌等本地資源信息。

 

熔斷

熔斷技術可以說是一種“智能化的容錯”,當調用滿足失敗次數,失敗比例就會觸發熔斷器打開,有程序自動切斷當前的RPC調用,來防止錯誤進一步擴大。實現一個熔斷器主要是考慮三種模式,關閉,打開,半開。各個狀態的轉換如下圖。

08.png


我們在處理異常的時候,要根據具體的業務情況來決定處理方式,比如我們調用商品接口,對方只是臨時做了降級處理,那麼作爲網關調用就要切到可替換的服務上來執行或者獲取託底數據,給用戶友好提示。還有要區分異常的類型,比如依賴的服務崩潰了,這個可能需要花費比較久的時間來解決。也可能是由於服務器負載臨時過高導致超時。作爲熔斷器應該能夠甄別這種異常類型,從而根據具體的錯誤類型調整熔斷策略。增加手動設置,在失敗的服務恢復時間不確定的情況下,管理員可以手動強制切換熔斷狀態。最後,熔斷器的使用場景是調用可能失敗的遠程服務程序或者共享資源。如果是本地緩存本地私有資源,使用熔斷器則會增加系統的額外開銷。還要注意,熔斷器不能作爲應用程序中業務邏輯的異常處理替代品。

有一些異常比較頑固,突然發生,無法預測,而且很難恢復,並且還會導致級聯失敗(舉個例子,假設一個服務集羣的負載非常高,如果這時候集羣的一部分掛掉了,還佔了很大一部分資源,整個集羣都有可能遭殃)。如果我們這時還是不斷進行重試的話,結果大多都是失敗的。因此,此時我們的應用需要立即進入失敗狀態(fast-fail),並採取合適的方法進行恢復。

我們可以用狀態機來實現CircuitBreaker,它有以下三種狀態:

  • 關閉(Closed):默認情況下Circuit Breaker是關閉的,此時允許操作執行。CircuitBreaker內部記錄着最近失敗的次數,如果對應的操作執行失敗,次數就會續一次。如果在某個時間段內,失敗次數(或者失敗比率)達到閾值,CircuitBreaker會轉換到開啓(Open)狀態。在開啓狀態中,Circuit Breaker會啓用一個超時計時器,設這個計時器的目的是給集羣相應的時間來恢復故障。當計時器時間到的時候,CircuitBreaker會轉換到半開啓(Half-Open)狀態。
  • 開啓(Open):在此狀態下,執行對應的操作將會立即失敗並且立即拋出異常。
  • 半開啓(Half-Open):在此狀態下,Circuit Breaker會允許執行一定數量的操作。如果所有操作全部成功,CircuitBreaker就會假定故障已經恢復,它就會轉換到關閉狀態,並且重置失敗次數。如果其中 任意一次 操作失敗了,Circuit Breaker就會認爲故障仍然存在,所以它會轉換到開啓狀態並再次開啓計時器(再給系統一些時間使其從失敗中恢復)

限流和降級

保證核心服務的穩定性。爲了保證核心服務的穩定性,隨着訪問量的不斷增加,需要爲系統能夠處理的服務數量設置一個極限閥值,超過這個閥值的請求則直接拒絕。同時,爲了保證核心服務的可用,可以對否些非核心服務進行降級,通過限制服務的最大訪問量進行限流,通過管理控制檯對單個微服務進行人工降級。

SLA

SLA:Service-LevelAgreement的縮寫,意思是服務等級協議。 是關於網絡服務供應商和客戶間的一份合同,其中定義了服務類型、服務質量和客戶付款等術語。 典型的SLA包括以下項目:

  • 分配給客戶的最小帶寬;
  • 客戶帶寬極限;
  • 能同時服務的客戶數目;
  • 在可能影響用戶行爲的網絡變化之前的通知安排;
  • 撥入訪問可用性;
  • 運用統計學;
  • 服務供應商支持的最小網絡利用性能,如99.9%有效工作時間或每天最多爲1分鐘的停機時間;
  • 各類客戶的流量優先權;
  • 客戶技術支持和服務;
  • 懲罰規定,爲服務供應商不能滿足 SLA需求所指定。

API網關

這裏說的網關是指API網關,直面意思是將所有API調用統一接入到API網關層,有網關層統一接入和輸出。一個網關的基本功能有:統一接入、安全防護、協議適配、流量管控、長短鏈接支持、容錯能力。有了網關之後,各個API服務提供團隊可以專注於自己的的業務邏輯處理,而API網關更專注於安全、流量、路由等問題。

多級緩存

最簡單的緩存就是查一次數據庫然後將數據寫入緩存比如Redis中並設置過期時間。因爲有過期失效因此我們要關注下緩存的穿透率,這個穿透率的計算公式,比如查詢方法queryOrder(調用次數1000/1s)裏面嵌套查詢DB方法queryProductFromDb(調用次數300/s),那麼Redis的穿透率就是300/1000,在這種使用緩存的方式下,是要重視穿透率的,穿透率大了說明緩存的效果不好。還有一種使用緩存的方式就是將緩存持久化,也就是不設置過期時間,這個就會面臨一個數據更新的問題。一般有兩種辦法,一個是利用時間戳,查詢默認以Redis爲主,每次設置數據的時候放入一個時間戳,每次讀取數據的時候用系統當前時間和上次設置的這個時間戳做對比,比如超過5分鐘,那麼就再查一次數據庫。這樣可以保證Redis裏面永遠有數據,一般是對DB的一種容錯方法。還有一個就是真正的讓Redis做爲DB使用。就是圖裏面畫的通過訂閱數據庫的binlog通過數據異構系統將數據推送給緩存,同時將將緩存設置爲多級。可以通過使用JvmCache作爲應用內的一級緩存,一般是體積小,訪問頻率大的更適合這種JvmCache方式,將一套Redis作爲二級remote緩存,另外最外層三級Redis作爲持久化緩存。

超時和重試

超時與重試機制也是容錯的一種方法,凡是發生RPC調用的地方,比如讀取Redis,DB,MQ等,因爲網絡故障或者是所依賴的服務故障,長時間不能返回結果,就會導致線程增加,加大CPU負載,甚至導致雪崩。所以對每一個RPC調用都要設置超時時間。對於強依賴RPC調用資源的情況,還要有重試機制,但是重試的次數建議1-2次,另外如果有重試,那麼超時時間就要相應的調小,比如重試1次,那麼一共是發生2次調用。如果超時時間配置的是2s,那麼客戶端就要等待4s才能返回。因此重試+超時的方式,超時時間要調小。這裏也再談一下一次PRC調用的時間都消耗在哪些環節,一次正常的調用統計的耗時主要包括: ①調用端RPC框架執行時間 + ②網絡發送時間 + ③服務端RPC框架執行時間 + ④服務端業務代碼時間。調用方和服務方都有各自的性能監控,比如調用方tp99是500ms,服務方tp99是100ms,找了網絡組的同事確認網絡沒有問題。那麼時間都花在什麼地方了呢,兩種原因,客戶端調用方,還有一個原因是網絡發生TCP重傳。所以要注意這兩點。

 

線程池隔離

在抗量這個環節,Servlet3異步的時候,有提到過線程隔離。線程隔離的之間優勢就是防止級聯故障,甚至是雪崩。當網關調用N多個接口服務的時候,我們要對每個接口進行線程隔離。比如,我們有調用訂單、商品、用戶。那麼訂單的業務不能夠影響到商品和用戶的請求處理。如果不做線程隔離,當訪問訂單服務出現網絡故障導致延時,線程積壓最終導致整個服務CPU負載滿。就是我們說的服務全部不可用了,有多少機器都會被此刻的請求塞滿。那麼有了線程隔離就會使得我們的網關能保證局部問題不會影響全局。
 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章