全鏈路壓測在大搜車的探索與實踐

原創

杨光跃

2020-04-02 14:04

如果把雙11定義爲電商公司一年一度的大考，那麼全鏈路壓測就是大考之前的一次次模擬考試，幫助要上戰場的系統查缺補漏以及進行容量驗證和規劃。

背景

微服務拆分的背景下，一個簡單地請求可能涉及到十幾個下游服務，從CDN到接入層、前端應用、後端服務、緩存、存儲、中間件，哪怕一個環節出現一點誤差，誤差在上下游經過幾層累積後會造成什麼影響誰都無法確定，也許是調用延遲，也許是請求失敗，用戶的體驗自然就無法保證。

所以我們需要建立起一套驗證機制，來驗證我們各個環節的都是符合我們預期的。驗證的最佳方法就是讓事件提前發生，如果我們的系統能夠提前經歷幾次“雙11”，容量的不確定性問題也就解決了。全鏈路壓測的誕生解決了容量的確定性問題！

核心要素

採集線上的真實流量作爲壓測數據：

省去巨大的人工成本：傳統壓測模式下，壓測數據的準備一直是老大難的問題。雙11可能涉及幾十個系統，每個系統都有幾十上百的接口。如果所有接口都要壓測，準備數據需要巨大的人工成本。如果只壓測核心接口，其它接口的隱患可能就無法發現。
解決數據多樣性不足：準備的壓測數據往往跟線上真實的流量模型存在差異，很可能會過多的命中cache或者數據庫緩存。
數據轉換：敏感數據脫敏，不符合的數據改造
直接在線上的真實環境進行雙11模擬

新搭建可對比線上環境的壓測環境，成本太大；
測試環境或預發環境壓測結果沒有說服力，參考價值不大
識別壓測流量和真實流量，不產生髒數據，並且不需要業務方改造適配（涉及的系統多且風險較大）

壓測流量打上標識，通過trace（鏈路追蹤中間件）向下遊系統傳遞。
壓測流量觸發的數據庫操作都路由到影子庫，不對線上數據庫產生影響
第三方系統的mock
- 有些第三方系統按照調用次數收費
監控
- 系統qps,耗時
- 硬件監控（cpu,內存）等

系統架構

如下圖所示，全鏈路壓測分爲基礎設施和管理端兩大部分。

基礎設施

基礎設施採用了Java動態字節碼技術，運行在jvm層，已經覆蓋了公司90%以上的應用。

TraceAgent負責記錄鏈路調用，打印日誌到磁盤上。每臺機器上都部署了我們的鏈路日誌收集程序，然後把它們存儲到ES等後端存儲中。全鏈路壓測的數據就是通過這些日誌轉換而成，同時，基於日誌的聚合分析，也形成了我們的監控大盤。

PTS-Agent主要負責影子庫，mock等邏輯實現。所有的壓測流量都打上了壓測標識，而且通過trace傳遞，即使跨系統調用壓測標識也不會丟失。PTS-Agent在發現是壓測流量，並且配置了影子庫，就會動態修改數據庫連接，把它們路由到影子庫，而正常流量不會受到任何影響，真正實現了業務無感知。mock等功能也是判斷是否是壓測流量，是否配置了mock，執行流程如下圖：