如何做雲端壓力測試和業務容量的測試與規劃

雲智慧產品總監陸興海

高速增長的互聯網業務要求產品開發、迭代和交付週期越來越短，而IT基礎設施的廣泛雲化和第三方API接口的大量使用，使傳統的基於內部環境搭建的壓力測試方法和測試工具越來越難以滿足應用功能可用和容量規劃預估的需求。

企業該如何爲頻繁的市場活動和產品快速迭代進行有效而準確的壓力測試呢？希望通過雲端壓力測試專家，雲智慧壓測寶產品總監陸興海分享的兩個客戶案例，爲企業的雲端壓力測試和業務容量規劃帶來一些有價值的參考。

壓測寶雲壓測客戶案例1：壓測寶如何做業務容量的測試與規劃？

雲智慧有個做旅遊和攝影服務平臺的客戶要舉辦一次活動，爲本次活動製作了專門的活動頁面，在活動頁面用戶可以報名。那麼在短時間內系統到底能撐得住多大的用戶併發？

這是活動運營和技術部門必須提前考慮的問題，因爲在去年舉辦類似活動時就出現了用戶大量涌入導致服務不可用的狀況，所以首先要幫助用戶整理容量測試和規劃的工作思路。

具體該如何實施壓測呢，這裏劃分了幾個環節：

［1］場景確定與壓測腳本準備

用戶在註冊時需要提交用戶的姓名、手機號和手機驗證碼，之後提交申請即可，所以實際上用戶申請註冊只調用了一個API接口來完成，這是一個比較簡單的場景。

1、因爲涉及到手機驗證場景，在不提供對應API的情況下，建議用戶使用萬能的驗證碼或者暫時取消驗證碼；

2、是否允許多個手機號同時註冊，如果允許我們可用使用固定參數傳遞，如果不允許，我們可準備對應手機號的測試數據來應對；

3、短時間內發起大量併發，用戶本身是否有安全擋板，如果有，需要把施壓節點的IP加入白名單；

［2］施壓模式

既然是容量探測，所以整體的施壓過程是一個梯度漸進的過程，一般不會上來就是一條直線。這是一直和用戶強調的問題，壓測的目的絕對不是把系統壓垮，壓測的目的是通過不斷增加的併發來客觀評估系統在不同的壓力條件下的性能狀況；基於此我們定製了施壓的梯度壓力模式，如圖所示：

［3］壓測點分佈

傳統壓力測試工具主要在內網產生壓力，壓力的規模受限於物理機器及License數量，造成準備週期長及成本高等問題。而云壓測提供可靠的分佈式壓測服務器（壓測點），充分利用雲端的計算資源，從而突破了這個限制。

目前雲智慧的壓測點來自雲服務的雲主機（AWS、Ucloud和阿里雲等）以及雲智慧部署在全國各大IDC核心機房的服務器，目前主要提供的區域如下圖所示：

［4］壓測時間設定

根據系統訪問情況，一般會建議用戶在凌晨進行壓測，此時能夠保證對用戶的影響最小，也能保證正常用戶訪問對壓測結果的干擾最小。但這個壓測時間設定不是絕對的，需要與具體用戶的業務場景結合判斷。

［5］壓測數據分析

在基本的參數確定之後，就可用根據預定的時間來執行壓測任務了，雲壓測能夠進行秒級的數據採集和實時統計分析，能夠隨時調整壓力。隨着壓力的逐步上升，能夠動態呈現系統的性能數據。在逐步加壓的過程中，如果性能急劇下降或大量出錯，就沒有必要繼續執行壓測任務，此時可以終止任務，也可以下調壓力，確保對整個壓測過程的把控。

針對這個用戶，按照上述步驟實施壓力測試之後，通過相關測試結果的數據分析和評估，得到了壓測結論如下：

被壓測的註冊接口在360併發用戶以下時表現相對良好，在併發用戶達到360至500時性能欠佳，說的更直接一點就是：該系統能夠支撐360的併發，具體論證如下：

1、並發達到360之後失敗明顯增多並且持續到任務結束；

2、並發達到420之後，響應時間超出3000ms標準值且持續到最後；

3、每秒鐘事務數（TPS）穩定在130左右，表現比較良好；

本次壓測的概要數據如下圖所示：