Spring Cloud Eureka 服務實現不停機(Zero-downtime)部署

問題

互聯網產品高速迭代,通常伴隨着高頻次的版本發佈。部署新版上線需要重啓服務,直接 kill 服務進程可能會造成服務短暫不可用,從而影響到正在使用的用戶。

Spring Cloud 項目中一般會用到 Ribbon 作爲負載均衡,那麼是不是隻要保證每個服務部署多臺服務器,發佈時採用 Rolling Update 分批次部署,保證一部分服務器正常提供服務的同時發佈另一部分服務器,Ribbon 就能自動切換,保證服務的不間斷?然而並不是。

產生原因

所有服務的狀態保存在註冊中心,即 Eureka Server。一個服務要想獲取其他服務的實例列表和狀態,需要通過 Eureka Client 定時從 Eureka Server 中獲取並緩存下來,默認時間間隔是30秒。Eureka Client 和 Eureka Server 是通過 HTTP 協議通信,請求由 Eureka Client 發起,而不是基於長連接或者 Eureka Server 主動推送,所以無法立即知道其他服務狀態變更。

即使同一個服務部署多臺機器,每臺機器依次發佈,當其中一個服務實例重啓時,服務調用方是無法第一時間知道的,所以還是會調用到這臺暫時無法提供服務的實例上。這樣會造成短暫的訪問失敗,這段時間也會對正在使用產品的用戶造成一定的影響。

解決方案

基於以上的原因,在部署應用時應該按照以下步驟進行(爲了簡單起見,假設一個應用部署兩個實例):

  1. 將服務的一個實例在註冊中心的狀態設置爲 DOWN
  2. 等待一段時間,直到其他服務緩存刷新,不再調用到這臺服務器上
  3. 停止服務,更新代碼,重新啓動,等待,直到啓動成功

完成後,再重複以上步驟部署另一個實例。

第一步:修改服務實例狀態爲 DOWN

有兩種方案可以修改實例的狀態,選擇其一即可:

  1. 直接調用 Eureka Server API 修改:PUT /eureka/apps/{appID}/{instanceID}/status?value=DOWN
  2. 調用服務實例對應的 actuator endpoint:/service-registry

我更偏向使用方法二,對應的命令:

curl -H "Content-Type:application/json" -X POST http://{host:port}/actuator/service-registry?status=DOWN

如果 actuator endpoint 加了 Spring Security Basic 認證,則還需要加上用戶名和密碼:

curl -H "Content-Type:application/json" -X POST -u {username}:{password} http://{host:port}/actuator/service-registry?status=DOWN

第二步:等待其他服務緩存刷新

具體要等多久,其他調用者的請求才會不再訪問到這臺狀態爲 DOWN 的實例?這裏涉及到三個配置項:

  • eureka.client.registryFetchIntervalSeconds Eureka 客戶端每隔多久去 Eureka 服務器拉取最新的註冊信息,默認值 30(秒)。
  • ribbon.ServerListRefreshInterval Ribbon 的緩存刷新間隔時間,默認 30000(毫秒)。Eureka 客戶端拉取到最新註冊信息後,Ribbon、Feign 等組件不會立即生效,是因爲 Ribbon 還有一層緩存。
  • eureka.server.responseCacheUpdateIntervalMs Eureka Server 返回最新的註冊信息的接口緩存刷新時間間隔,默認 30000(毫秒)。有時候會看到 Eureka 頁面和 /eureka/apps 接口的服務狀態不一致,就是因爲 /eureka/apps 接口默認會有 30 秒緩存。

在默認情況下,當一個服務狀態改爲 DOWN,最長可能需要 30+30+30 秒,所有的緩存纔會刷新,其他調用者纔不會調用到這個狀態爲 DOWN 的實例。這就意味着修改服務實例狀態爲 DOWN 後需要等待 90 秒,才能進行下一步操作。

爲了讓部署時間縮短,可以將以上三個配置項都修改爲5秒:

Eureka Server:

eureka:
  server:
    responseCacheUpdateIntervalMs: 5000

Eureka Client(即各個服務):

ribbon:
  ServerListRefreshInterval: 5000
eureka:
  client:
    registryFetchIntervalSeconds: 5

完成以上配置,部署時將實例狀態設爲 DOWN 後,只需要等待 15 秒即可停止進程:

sleep 15s

第三步:實例部署

這一步主要需要注意

  • 儘量不要使用 kill -9 pid 強制殺掉進程,而應該使用 kill pid 或者 kill -15 pid 關閉進程。使用 kill pid 或者 kill -15 pid 關閉進程之前,Eureka Client 會給 Eureka Server 請求刪除自己,後續服務再次啓動後會重新註冊爲 UP 狀態。如果使用 kill -9 pid 強制殺掉進程,Eureka Client 沒有辦法註銷自己,Eureka Server 就不知道該實例已下線,直到長時間收不到心跳纔會刪除該實例。如果在 Eureka Server 刪除實例之前實例啓動了,那麼它的狀態還是會保持 DOWN 狀態。如果確實需要用到 kill -9 pid 強制殺掉進程,那麼服務重啓後需要再通過第一步的方式將實例狀態設爲 UP。
  • 服務啓動後,需要等待並確認啓動成功後,纔可以開始部署下一臺服務器。這裏我們可以定時去請求 Spring Boot 提供的 actuator endpoint /health 接口,例如每隔 1 秒請求一次,直到接口可以正常訪問,即可認爲服務啓動成功。

本文基於 Spring Boot 2.1.x 及 Spring Cloud Greenwich 版本

掃碼關注

掃碼關注我

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章