原创 服務部署如何做到高可用?這份“三級跳”祕籍送給你

作者:石文文 一個高可用的服務需要從部署、變更、預案、監控、安全等多方面考慮。如何做到99.99%服務高可用的要求,需要各個角色的工程師共同努力。從部署的角度,本文介紹了高可用服務所需具備的規範,案例部分通過對Yum源服務架構的演變讓讀者

原创 服務變更如何做到高可用?這份指南請查收

作者:焦振清 一個高可用的服務需要從部署、變更、預案、監控、安全等多方面考慮。如何做到99.99%服務高可用的要求,需要各個角色的工程師共同努力。本文介紹了高可用服務在變更方面的經驗積累和最佳實踐,以及一些配置變更的易錯點,供大家參考  

原创 最受歡迎的Java web應用服務器之一——Tomcat監控選型及實踐

監控選型   Tomcat Manager和Psi-probe是不錯的可視化監控工具,能夠很好地查看Tomcat狀態信息(比如單位時間請求數,線程狀態等)。在生產環境中,隨着Tomcat實例的不斷增加,維護不同實例上的Manager控制檯

原创 HDFS監控背後那些事兒,構建Hadoop監控共同體

HDFS監控挑戰   HDFS是Hadoop生態的一部分,監控方案不僅需適用HDFS,其他組件如Yarn、Hbase、Hive等,也需適用 HDFS API提供的指標較多,部分指標沒必要實時採集,但故障時需能快速獲取到 Hado

原创 從理論到案例,請收下這篇Nginx監控運維乾貨

Nginx特性   作爲Web服務器,Nginx不免要與Apache進行比較。相比Apache服務器,Nginx因其採用的異步非阻塞工作模型,使其具備高併發、低資源消耗的特性,高度模塊化設計使Nginx具備很好的擴展性;在處理靜態文件、反

原创 Azure Best Practices Availability Checklist

Application design Avoid any single point of failure. All components, services, resources, and compute instances should

原创 第五章 報警 SLO

本章介紹如何在發生重要事件將SLO轉換爲可操作的報警。我們的第一本SRE和本書都討論了實施SLO。我們相信,擁有很好的SLO可以衡量你的平臺可靠性,正如你的客戶所經歷的那樣,可以爲on-call人員該如何迅速做出響應提供最準確的提示。在這

原创 預案建設-切流量

預案是指對潛在的突發事件事先制定的應急處理方案,在運維領域,則是爲規避故障或儘快從故障中恢復而制定的方案,其目的是第一時間止損、防止局勢進一步惡化,以期最大程度地保障業務系統的可用性。 切流量是應對外網故障的有效手段,這篇文章介紹下我們如

原创 C&C控制服務的設計和偵測方法綜述

這篇文章總結了一些我在安全工作裏見到過的千奇百怪的C&C控制服務器的設計方法以及對應的偵測方法,在每個C&C控制服務先介紹黑帽部分即針對不同目的的C&C服務器設計方法,再介紹白帽部分即相關偵測辦法,大家來感受一下西方的那一套。這裏的白帽部

原创 第三章 SLO工程案例學習

作者:Ben McCormack (Evernote),William Bonnell (The Home Depot), 編輯:Garrett Plasky (Evernote),Alex Hidalgo,Betsy Beyer和Dav

原创 第七章 簡單化

作者:John Lunney, Robert van Gent, Scott Ritchie,Diane Bates and Niall Richard Murphy 一個可正常工作的複雜的系統總是從以前可以正常工作的簡單系統演變而來的

原创 Hadoop預留磁盤空間問題

在hdfs-site.xml中設置dfs.datanode.du.reserved的值,磁盤就會有預留空間: <property> <name>dfs.datanode.du.reserved</name> <valu

原创 第二章 實施SLO

作者: Steven Thurgood、David Fergusonwith 編輯: Alex Hidalgo、Betsy Beyer 翻譯:張翔 校驗:孫建剛,徐德昌,張永福,李昊,石文,李佩京 SLO爲服務可靠性設定了一個目標級別。它

原创 第六章 減少瑣事

Google SRE花費大量時間對系統進行優化,哪怕是很少的性能收益,也會通過工程化方法,與開發一起協同努力,追求卓越。但優化範圍不僅侷限於服務器資源,SRE的工作耗時也是重點。首先,SRE工作不是瑣事,(關於瑣事請參閱《SRE:Goog

原创 第四章 監控

作者: Steven Thurgood、David Fergusonwith 編輯: Alex Hidalgo、Betsy Beyer 校驗:張勝楠,臧萬順,樊帥宇,刁冰雪 監控涉及到多種類型的數據,包括監控指標,純文本日誌,結構化日誌,