原创 跨AZ部署最佳實踐之Elasticsearch

作者:焦振清 跨AZ部署是實現服務高可用較爲有效的方法,同時也極具性價比。如果實現了跨AZ部署,不僅可以消除服務中的單點,同時還可以逐步建設如下能力:服務隔離,灰度發佈,N+1冗餘,可謂一舉多得。因此,接下來我們會對有狀態的開源軟件進行一

原创 從二十個嚴重的配置故障中我們能學到什麼?

配置故障是運維人員在工作中經常會遇到的問題,如何才能避免配置故障的發生呢?本文作者列出了自己職業生涯遇到的20個不同類型的配置故障,並分析了故障發生的原因,提出了相關的解決方法。 配置變更的痛點 時效性,很多配置變更的場景,其生效時間是

原创 上雲了,如何保障雲數據庫的高可用?

責任共擔模型 朋友和我吐槽,自從他負責的系統上雲後,在雲數據庫上經歷了好幾次故障,而事後的故障覆盤,居然都是他們自己的責任和問題,這讓他很被動。更尷尬的是,原想着上雲後,數據庫的問題都是公有云廠商負責,所以他們運維團隊中也沒有招聘DBA,當

原创 混沌工程落地的六個階段

混沌工程六個階段 從筆者所在團隊的實踐出發,我們將混沌工程總結爲六個階段,並對各個階段的落地過程加以總結,希望能夠對大家落地混沌工程有所幫助。今天主要是拋磚引玉,後續針對每個階段,陸續會有專門的文章進行介紹。而混沌工程理論相關的部分,大家可

原创 Puppet:維護運行環境一致性的利器

作者:焦振清 配置管理工具的定位 每次我提到配置管理工具,有些同學就會問類似的問題:容器化時代和Serverless時代,還需要配置管理工具嗎?我們先不去討論容器化之後是否需要配置管理工具,那什麼時候容器能夠在全球範圍達到100%的普及?

原创 預案三板斧之限流大法

原文鏈接:https://www.infoq.cn/article/L1FThcLIgzHSYlIaDk0R 作者:焦振清 限流策略:多維防禦 + 縱深防禦 限流能力 限流是針對請求的各種特徵,

原创 預案三板斧之降級大法

降級的可行性 二八原則 二八原則放在電商系統裏,大概可以這樣解釋:電商系統80%的收益是由20%的基礎功能所貢獻,而剩下的20%的收益則是由80%的高階功能所貢獻。 在如今全民網購的時代,大家對於在京東上購買一件商品的步驟都不會太陌生,順序

原创 預案三板斧的限流大法

限流策略:多維防禦+縱深防禦 限流能力 限流是針對請求的各種特徵,多維防禦+縱深防禦,從而限制流量,實現對服務端資源的合理使用。這裏的特徵是指一個請求所包含的各種信息,包括但不限於IP、Header、URI、Cookie等。常見的限流策略有

原创 從雲廠商宕機史談預案建設

世界上沒有百分之百的安全,安全事故的發生在所難免,IT領域更是如此,因此當發生安全事故時,是否有預案來解決就變得尤爲關鍵了。本文將從雲廠商宕機史講起,談談預案能力的建設。 雲廠商宕機史 限於故障信息的披露涉及到很多環節,因此本文只從網絡

原创 從美國 FDA 新藥審批制度看分級發佈最佳實踐

美國FDA新藥審批流程被公認爲世界上最完備,最科學的程序,本文將從這個審批流程出發,類比互聯網公司的分級發佈策略,希望能夠更好的幫助大家理解。 新藥臨牀試驗的”黃金標準“ 美國FDA新藥審批流程被公認爲世界上最完備,最科學的程序。目前的

原创 任務調度系統如何通過隔離提升可用性?

今天聊的任務調度系統,在開源領域中近似的就是Ansible了。Ansible通過在集羣上執行命令解決各類業務問題,從而管理千臺規模的集羣,自身安裝和維護都非常簡單,因此得到迅速普及,深受運維人員喜歡。 下圖就是Ansible的典型場景,在A

原创 擺脫無效報警?十年運維監控報警優化經驗總結

運維工程師面試者第一個問題是:需要值班嗎?筆者自己也曾經歷過月入十萬的時期,在那個時候,數個系統同時發佈下一代版本,而老系統還需要過渡很長時間,工作量直接翻倍,大家只能勉強應付一線運維工作,團隊成員開始陸續離職,而新人又無法在短時間內上手,

原创 跨 AZ 部署最佳實踐之 Zookeeper

跨AZ部署是實現服務高可用較爲有效的方法,同時也極具性價比。如果實現了跨AZ部署,不僅可以消除服務中的單點,同時還可以逐步建設如下能力:服務隔離,灰度發佈,N+1冗餘,可謂一舉多得。因此,接下來我們會對有狀態的開源軟件進行一系列的跨AZ部署

原创 跨 AZ 部署最佳實踐之 Elasticsearch

跨AZ部署是實現服務高可用較爲有效的方法,同時也極具性價比。如果實現了跨AZ部署,不僅可以消除服務中的單點,同時還可以逐步建設如下能力:服務隔離,灰度發佈,N+1冗餘,可謂一舉多得。因此,接下來我們會對有狀態的開源軟件進行一系列的跨AZ部署

原创 服務變更如何做到高可用?

近期,Cloudflare在更新WAF配置規則時,因其中一個規則包含了正則表達式,導致 Cloudflare 全球機器上的 CPU 峯值使用率達到 100%,在最糟糕的時候,流量下降了 82%,對整個互聯網都產生了明顯的影響。 因此,變更的