Sentinel 對比 Hystrix

先來看一下 Hystrix 的官方介紹:

Hystrix is a library that helps you control the interactions between these distributed services by adding latency tolerance and fault tolerance logic. Hystrix does this by isolating points of access between the services, stopping cascading failures across them, and providing fallback options, all of which improve your system’s overall resiliency.
翻譯
Hystrix是一個庫,可通過添加延遲容錯和容錯邏輯來幫助您控制這些分佈式服務之間的交互。 Hystrix通過隔離服務之間的訪問點,阻止它們之間的級聯故障以及提供後備選項來實現這一目標,所有這些都可以提高系統的整體彈性。

可以看到 Hystrix 的關注點在於以隔離和熔斷爲主的容錯機制,超時或被熔斷的調用將會快速失敗,並可以提供 fallback 機制。

而 Sentinel 的側重點在於:

  • 多樣化的流量控制
  • 熔斷降級
  • 系統負載保護
  • 實時監控和控制檯

兩者解決的問題還是有比較大的不同的,下面我們來具體對比一下。

共同特性

1. 資源模型和執行模型上的對比

Hystrix 的資源模型設計上採用了命令模式,將對外部資源的調用和 fallback 邏輯封裝成一個命令對象 HystrixCommandHystrixObservableCommand,其底層的執行是基於 RxJava 實現的。每個 Command 創建時都要指定 commandKeygroupKey(用於區分資源)以及對應的隔離策略(線程池隔離 or 信號量隔離)。線程池隔離模式下需要配置線程池對應的參數(線程池名稱、容量、排隊超時等),然後 Command 就會在指定的線程池按照指定的容錯策略執行;信號量隔離模式下需要配置最大併發數,執行 Command 時 Hystrix 就會限制其併發調用。

Sentinel 的設計則更爲簡單。相比 Hystrix Command 強依賴隔離規則,Sentinel 的資源定義與規則配置的耦合度更低。Hystrix 的 Command 強依賴於隔離規則配置的原因是隔離規則會直接影響 Command 的執行。在執行的時候 Hystrix 會解析 Command 的隔離規則來創建 RxJava Scheduler 並在其上調度執行,若是線程池模式則 Scheduler 底層的線程池爲配置的線程池,若是信號量模式則簡單包裝成當前線程執行的 Scheduler。

而 Sentinel 則不一樣,開發的時候只需要考慮這個方法/代碼是否需要保護,置於用什麼來保護,可以任何時候動態實時的區修改。

0.1.1 版本開始,Sentinel 還支持基於註解的資源定義方式,可以通過註解參數指定異常處理函數和 fallback 函數。Sentinel 提供多樣化的規則配置方式。除了直接通過 loadRules API 將規則註冊到內存態之外,用戶還可以註冊各種外部數據源來提供動態的規則。用戶可以根據系統當前的實時情況去動態地變更規則配置,數據源會將變更推送至 Sentinel 並即時生效。

2. 隔離設計上的對比

隔離是 Hystrix 的核心功能之一。Hystrix 提供兩種隔離策略:線程池隔離 Bulkhead Pattern 和信號量隔離,其中最推薦也是最常用的是線程池隔離。Hystrix 的線程池隔離針對不同的資源分別創建不同的線程池,不同服務調用都發生在不同的線程池中,在線程池排隊、超時等阻塞情況時可以快速失敗,並可以提供 fallback 機制。線程池隔離的好處是隔離度比較高,可以針對某個資源的線程池去進行處理而不影響其它資源,但是代價就是線程上下文切換的 overhead 比較大,特別是對低延時的調用有比較大的影響。

但是,實際情況下,線程池隔離並沒有帶來非常多的好處。最直接的影響,就是會讓機器資源碎片化。考慮這樣一個常見的場景,在 Tomcat 之類的 Servlet 容器使用 Hystrix,本身 Tomcat 自身的線程數目就非常多了(可能到幾十或一百多),如果加上 Hystrix 爲各個資源創建的線程池,總共線程數目會非常多(幾百個線程),這樣上下文切換會有非常大的損耗。另外,線程池模式比較徹底的隔離性使得 Hystrix 可以針對不同資源線程池的排隊、超時情況分別進行處理,但這其實是超時熔斷和流量控制要解決的問題,如果組件具備了超時熔斷和流量控制的能力,線程池隔離就顯得沒有那麼必要了。

Hystrix 的信號量隔離限制對某個資源調用的併發數。這樣的隔離非常輕量級,僅限制對某個資源調用的併發數,而不是顯式地去創建線程池,所以 overhead 比較小,但是效果不錯。但缺點是無法對慢調用自動進行降級,只能等待客戶端自己超時,因此仍然可能會出現級聯阻塞的情況。

Sentinel 可以通過併發線程數模式的流量控制來提供信號量隔離的功能。並且結合基於響應時間的熔斷降級模式,可以在不穩定資源的平均響應時間比較高的時候自動降級,防止過多的慢調用佔滿併發數,影響整個系統。

3. 熔斷降級的對比

Sentinel 和 Hystrix 的熔斷降級功能本質上都是基於熔斷器模式 Circuit Breaker Pattern。Sentinel 與 Hystrix 都支持基於失敗比率(異常比率)的熔斷降級,在調用達到一定量級並且失敗比率達到設定的閾值時自動進行熔斷,此時所有對該資源的調用都會被 block,直到過了指定的時間窗口後才啓發性地恢復。上面提到過,Sentinel 還支持基於平均響應時間的熔斷降級,可以在服務響應時間持續飆高的時候自動熔斷,拒絕掉更多的請求,直到一段時間後才恢復。這樣可以防止調用非常慢造成級聯阻塞的情況。

4. 實時指標統計實現的對比

Hystrix 和 Sentinel 的實時指標數據統計實現都是基於滑動窗口的。Hystrix 1.5 之前的版本是通過環形數組實現的滑動窗口,通過鎖配合 CAS 的操作對每個桶的統計信息進行更新。Hystrix 1.5 開始對實時指標統計的實現進行了重構,將指標統計數據結構抽象成了響應式流(reactive stream)的形式,方便消費者去利用指標信息。同時底層改造成了基於 RxJava 的事件驅動模式,在服務調用成功/失敗/超時的時候發佈相應的事件,通過一系列的變換和聚合最終得到實時的指標統計數據流,可以被熔斷器或 Dashboard 消費。

Sentinel 目前抽象出了 Metric 指標統計接口,底層可以有不同的實現,目前默認的實現是基於 LeapArray 的滑動窗口,後續根據需要可能會引入 reactive stream 等實現。

Sentinel 特性

除了之前提到的兩者的共同特性之外,Sentinel 還提供以下的特色功能:

1. 輕量級、高性能

Sentinel 作爲一個功能完備的高可用流量管控組件,其核心 sentinel-core 沒有任何多餘依賴,打包後只有不到 200KB,非常輕量級。開發者可以放心地引入 sentinel-core 而不需擔心依賴問題。同時,Sentinel 提供了多種擴展點,用戶可以很方便地根據需求去進行擴展,並且無縫地切合到 Sentinel 中。

引入 Sentinel 帶來的性能損耗非常小。只有在業務單機量級超過 25W QPS 的時候纔會有一些顯著的影響(5% - 10% 左右),單機 QPS 不太大的時候損耗幾乎可以忽略不計。

2. 流量控制

Sentinel 可以針對不同的調用關係,以不同的運行指標(如 QPS、併發調用數、系統負載等)爲基準,對資源調用進行流量控制,將隨機的請求調整成合適的形狀。

Sentinel 支持多樣化的流量整形策略,在 QPS 過高的時候可以自動將流量調整成合適的形狀。常用的有:

  • 直接拒絕模式:即超出的請求直接拒絕。
  • 慢啓動預熱模式:當流量激增的時候,控制流量通過的速率,讓通過的流量緩慢增加,在一定時間內逐漸增加到閾值上限,給冷系統一個預熱的時間,避免冷系統被壓垮。

    image.png

  • 勻速器模式:利用 Leaky Bucket 算法實現的勻速模式,嚴格控制了請求通過的時間間隔,同時堆積的請求將會排隊,超過超時時長的請求直接被拒絕。Sentinel 還支持基於調用關係的限流,包括基於調用方限流、基於調用鏈入口限流、關聯流量限流等,依託於 Sentinel 強大的調用鏈路統計信息,可以提供精準的不同維度的限流。

    image.png

目前 Sentinel 對異步調用鏈路的支持還不是很好,後續版本會着重改善支持異步調用。

3. 系統負載保護

Sentinel 對系統的維度提供保護,負載保護算法借鑑了 TCP BBR 的思想。當系統負載較高的時候,如果仍持續讓請求進入,可能會導致系統崩潰,無法響應。在集羣環境下,網絡負載均衡會把本應這臺機器承載的流量轉發到其它的機器上去。如果這個時候其它的機器也處在一個邊緣狀態的時候,這個增加的流量就會導致這臺機器也崩潰,最後導致整個集羣不可用。針對這個情況,Sentinel 提供了對應的保護機制,讓系統的入口流量和系統的負載達到一個平衡,保證系統在能力範圍之內處理最多的請求。

image.png

4. 實時監控和控制面板

Sentinel 提供 HTTP API 用於獲取實時的監控信息,如調用鏈路統計信息、簇點信息、規則信息等。如果用戶正在使用 Spring Boot/Spring Cloud 並使用了Sentinel Spring Cloud Starter,還可以方便地通過其暴露的 Actuator Endpoint 來獲取運行時的一些信息,如動態規則等。未來 Sentinel 還會支持標準化的指標監控 API,可以方便地整合各種監控系統和可視化系統,如 Prometheus、Grafana 等。

Sentinel 控制檯(Dashboard)提供了機器發現、配置規則、查看實時監控、查看調用鏈路信息等功能,使得用戶可以非常方便地去查看監控和進行配置。

 

image.png

5. 生態

Sentinel 目前已經針對 Servlet、Dubbo、Spring Boot/Spring Cloud、gRPC 等進行了適配,用戶只需引入相應依賴並進行簡單配置即可非常方便地享受 Sentinel 的高可用流量防護能力。未來 Sentinel 還會對更多常用框架進行適配,並且會爲 Service Mesh 提供集羣流量防護的能力。

總結

# Sentinel Hystrix
隔離策略 信號量隔離 線程池隔離/信號量隔離
熔斷降級策略 基於響應時間或失敗比率 基於失敗比率
實時指標實現 滑動窗口 滑動窗口(基於 RxJava)
規則配置 支持多種數據源 支持多種數據源
擴展性 多個擴展點 插件的形式
基於註解的支持 支持 支持
限流 基於 QPS,支持基於調用關係的限流 不支持
流量整形 支持慢啓動、勻速器模式 不支持
系統負載保護 支持 不支持
控制檯 開箱即用,可配置規則、查看秒級監控、機器發現等 不完善
常見框架的適配 Servlet、Spring Cloud、Dubbo、gRPC Servlet、Spring Cloud Netflix

多說一句,對於阿里開源的框架,我一直都是持有保守的態度去看,感覺開源的目的完全是爲了給阿里雲做廣告,而且部分開源代碼的核心邏輯沒有一句註釋,甚至個人感覺一些核心邏輯都做了代碼的混淆,讓人看了一頭霧水。但是不合否認的是Sentinel框架還是比較優秀的,相對於Hystrix 功能更加完善,雖然在部分功能的實現代碼中,不知道是刻意跟Hystrix區分還是有什麼別的原因,Hystrix更優秀,卻沒有任何的借鑑。



 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章