Gremlin發佈混沌工程實驗平臺免費版,開放了“故障即服務”功能

Gremlin團隊最近發佈的“Gremlin免費版”,開放了Gremlin“故障即服務”功能,支持在SaaS平臺上的運行部分混沌工程實驗。當前開放的免費版本允許用戶通過Web,API或者CLI命令行的方式,在主機或容器上執行關閉節點和CPU攻擊的實驗。

Gremlin團隊於2017年底發佈了他們的混沌工程實驗SaaS產品的首個版本,支持對主機以及底層基礎設施編排執行多種、多次的攻擊實驗。隨後在2018年發佈的應用級故障注入(ALFI)功能,允許在應用服務或方法級別執行攻擊實驗。關閉運行中實例的能力是Gremlin產品演進過程中最主要的攻擊實驗方法之一,它的部分靈感來源於混沌工程領域中第一個工具——混亂猴子(Chaos Monkey)。

儘管混亂猴子非常實用,Gremlin團隊認爲要想安全可靠地使用它,需要比較長的學習時間。混亂猴子僅僅支持在AWS上運行(不過包含類似功能的工具也逐漸出現在市面上,比如支持在其他平臺,如Azure和Google Cloud Platform上面運行的工具)。“Gremlin免費版”旨在降低開始執行混沌工程實驗的門檻,讓用戶可以用最小的代價快速看到混沌工程實驗的價值。

Tammy Butow(Gremlin首席SRE工程師)給想要嘗試這些新免費功能的工程師們提供了一個工具包。這個工具包包含了5個混沌工程實驗的詳細操作步驟,既有如何在AWS,Azure和Google Cloud Platform上執行關閉主機和容器的實驗(需要用戶使用自己的雲服務賬戶),也有如何在本地Docker環境中執行關閉容器的實驗。

InfoQ最近採訪了Gremlin的產品總監Lorne Kligerman,討論了“Gremlin免費版”的初衷和未來的計劃。

InfoQ:你好Lorne,非常感謝接受我們的採訪。首先能向我們介紹一下推出“Gremlin免費版”的初衷嗎?

Lorne Kligerman:有幾點,第一個很簡單,我們希望通過不斷普及混沌工程來進一步完成我們的使命——讓互聯網應用更可靠。混沌工程吸引了很多的關注和興趣,但市面上各種解決方案並不能提供足夠的可靠度和安全度,同時也沒有可以快速上手的UI。

另一個動機是,我們希望開發者通過第一時間體驗混沌工程實驗所帶來的價值和影響,並據此來決策如何爲他們的用戶提供正確的產品服務。“Gremlin免費版”讓每一個用戶都可以快速註冊,安裝客戶端,執行實驗,最後觀察實驗結果。

另外,通過這個實踐過程(包括配合使用現有工具並監控觀察實驗結果),無論是驗證了系統的彈性,還是發現了潛在的缺陷,對開發者所在的組織來說都可以提高其系統的成熟度。

當然,用戶也可以選擇解鎖Gremlin全功能版。

InfoQ:和我們自己運行混亂猴子和其他相關工具相比,“Gremlin免費版”提供的功能有什麼不同嗎?

Kligerman:回到剛纔的第一個問題,大家對混沌工程的認知來源於一系列的開源解決方案,包括混亂猴子。雖然開源非常美妙,但是搭建起開源軟件運行的環境並使其穩定持續工作的成本通常不低。混亂猴子尤其不容易使用,它只能在AWS上工作,而且只提供隨機關閉虛擬機的攻擊實驗類型。(值得一提的是我們的CEO Kolton曾在Netflix打造了他們的第二代故障注入工具集。)

Gremlin提供的是一套完整的SaaS服務,包括了簡潔的UI和快捷的安裝方法。它提供了十數種攻擊實驗方式,從模擬CPU尖刺到硬盤資源耗盡,再到網絡延遲注入等。無論是通過UI,API還是CLI使用Gremlin平臺,用戶隨時都可以使用“停止攻擊”按鈕來快速終止所有攻擊實驗,讓系統恢復到健康狀態。我們從最根本上優先考慮了簡易性,可靠性和安全性。

最後,我們希望讓這個解決方案和“隨機破壞東西”區別開。隨機破壞有它適用的場景,但是我們認爲真正產生價值的應該是經過深思熟慮後作出的實驗計劃,在執行時從最小爆炸半徑開始逐步擴大影響範圍。我們堅持要先形成系統可能行爲的假設,然後通過執行實驗來學習系統真實的行爲表現,隨着對系統信心的提升,我們可以不斷擴大實驗的影響範圍。

所以回答你關於“Gremlin免費版“的問題,我們其實有一部分想法就是提供一個更好的混亂猴子。它擁有和我們企業版一樣簡潔的UI,可以在任何雲平臺上或者本地使用,並且提供兩種攻擊實驗方式:關閉節點(和混亂猴子一樣)和CPU攻擊。

InfoQ:你怎麼看待Gremlin下一步的發展方向?我們注意到有越來越多關於系統可觀測性的討論,尤其是複雜分佈式系統,Gremlin會考慮推出相關產品,或者考慮和現有其他產品集成嗎?

Kligerman:我們還是會聚焦在我們的核心競爭力,不會去開發一套監控解決方案。業界已經有非常多出色的產品。我們目前集成了Datadog,也在和New Relic、Dynatrace溝通合作,Honeycomb的CEO Charity Majors去年在我們的大會上做了演講,也表示出很大的合作興趣。所以,是的,我們期望和所有這些出色的產品深度合作,同時非常贊同可觀測性對於混沌工程來說至關重要。

至於Gremlin平臺的未來,某種程度上我們已經領先於市場。去年發佈的應用級故障注入功能已經可以執行更細粒度的實驗,例如在應用級別和單次請求級別(支持serverless)注入故障,目前市場還落後於我們。

InfoQ:最近有一些比較受歡迎的基金會,或者新興的基金會,如CNCF,新持續交付基金會,Gremlin同他們的關係如何?

Kligerman:我們是CNCF的活躍成員,對我們來說,作爲這類社區的成員非常重要。新持續交付基金會比較有意思,因爲在這個領域我們已經做了很多工作,堅信要發揮混沌工程最大的價值,就需要儘可能最大化自動化程度,同時整合到持續構建或持續交付的流水線裏。敬請期待稍後在這方面的公告!

使用“Gremlin免費版”需要通過Gremlin官網進行註冊。可以在Gremlin官網找到產品的文檔,以及更多的幫助可以訪問Slack混沌工程頻道或者Gremlin支持頻道

查看英文原文:Gremlin Announces Free Tier for Their Chaos Experimentation Platform

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章