運維管理的提升-2013

管理大型的、全天候的互聯網服務類、支持類以及運營類公司是一件艱苦的工作,需要運用到許多系統、人力以及跟蹤和支持服務,並且任務列表每年都在增加。我們使用許多開源工具以及內置系統來完成這些工作。


我們不斷地改進我們的管理和系統,隨着2013年的結束,我們最近增加了下列項目和系統。


專家級工程師 - 我們的全天候核心支持團隊就是我們的報警和請求(Alert and Request)工程師團隊,他們是一線支持人員,爲您提供全天候支持服務。以前,遇到他們無法解決的特殊系統問題時,他們將問題提交到項目團隊以及系統所有人,以便解決問題。但是,現在我們有了新的專家團隊,我們這個團隊可以提供更高級、更專業的諮詢以及特定的系統知識,所以,我們可以提供更快速的客戶服務。這樣,項目工程師團隊就不會過於忙碌,而且,我們也有了更多的資源,可以更快地提供實時支持服務。最近,我們在下班後以及週末還提供此類服務,所以,我們能夠提供更快、更好的支持服務。


專家級系統 - 爲了能夠持續地、系統地跟蹤事件,我們爲此構建了一套完整的系統。在任務管理屏幕系統(Ticket Management Screen)中,我們要求工程師以正確的格式填寫升級要求。我們還採用獨立的電子郵件組來幫助我們審覈事件、繼續跟蹤進程,這些都可以更好地組織好升級事件,極大地提高問題解決效率。


全天候協調團隊 - 我們組建了專門的全天候協調團隊,該團隊由專業的報警和請求協調員組成,他們負責對任務(ticket)進行跟進、跟蹤和審覈,並且還幫助工程師進行內部協調工作(升級/緊急流程/任務轉移等等。)以及外部通訊工作(電子郵件/電話),以確保一切事件僅僅有條。做好運營工作是一件複雜的事情,每天都有許多事情同時發生,所以,協調團隊還要管控何時開始和結束更新,也對事件順序進行管理,以確保提供優質的客戶服務。這些可以更好地幫助支持團隊,提高總體效率和性能。


NOTOPS - 我們有一個新的運營情報(NOTOPS),它可以給我們的全天候團隊支持發出通知提醒,它可以報告所有客戶問題、維護、IDC流程問題以及所有團隊成員所需要了解的一切其它必要問題。我們的運營情報是根據飛行員的航空情報系統進行設計的,這個運營情報系統是一個自動化的系統,每次換班以及每次重大事件時,都會自動進行檢查。當有報警時,還可以把該系統綁定到特定的服務器、歷史和跟蹤服務。


換班變更報告 - 作爲全天候運營服務,換班變更是一項挑戰,在信息傳遞、通知以及當前事件跟蹤方面的挑戰尤爲明顯。我們新增了新系統、自動檢查報表系統以及絕對管控交班流程系統,來提高對這一領域的控制力度。


新的夜班/週末升級流程 - 我們改進了我們的下班後的升級流程,使其可以更好地調度以及開展角色訓練,並且爲這個流程配備了設備以及積極日常測試系統,我們運用該系統對待命的工程師升級通訊通道進行測試。我們還採用新型電話跟蹤系統,以便可以報告並管理實際的電話流程,該系統極大地幫助了我們處理調度和電話事件等問題。


緊急流程、工作日 - 新的緊急流程、團隊以及資源處於隨時待命狀態,以便解決關鍵問題,如宕機、服務器崩潰以及數據庫問題等等。若常規團隊無法在短時間內迅速解決問題,則發佈緊急事件,該事件將在5分鐘內迅速整合高級團隊、協調人員、通訊人員以及工程師,使這些人員匯聚一堂,通過運用快速更新、故障排除以及修復流程等工具迅速解決問題。這個流程的最重要的特點是:客戶通訊、團隊協調和高級技術支持。


新型24x7服務器QA - 我們有一套嚴格的新型QA流程,可以對所有將要投入生產(對於我們而言是24x7)的服務器和系統進行檢查。該流程可以確保這些服務器和系統已經達到了一切運營需求,尤其是監控、文檔、訪問控制、日誌以及支持程序方面的需求。這可以切實地保障初期投產順利運行,不僅測試時間短、部署快,而且性能好、問題解決能力強。


新型設計系統 - 我們最終啓動了我們的大型500構件的新型服務器設計系統。該系統雖然仍舊是beta狀態,但是與我們之前的系統相比,還是改進了許多,包括一些關鍵特點,如模板和系統複製,爲我們節省了許多時間,也減少了我們犯錯的機會。它還有一個非常重要的驗證功能,可以對關鍵參數如RAM或磁盤分配過度等問題進行檢查或交叉驗證,避免了許多新系統會發生的常見問題。在2014年,設計系統還將用於自動設置系統,以便直接根據設計自動構建新系統,然後進行QA檢查(在系統構建之時和之後都進行檢查)。


自動任務生成/自動任務關閉 - 我們每天要處理500-1000個報警,雖然,我們已經努力地減少報警量(通過我們的ARP-報警減少程序),但是仍舊有許多工作要做,還是會把許多事情搞混淆。我們的新型的自動任務系統,可以通過創建和分配不同類型的任務來減少我們的工作量,而且自動關閉系統也可以清除已經不存在的報警的任務。這樣,就確實地幫助了我們的工程師和協調團隊,使他們至始至終可以一直關注最關鍵的問題和報警。


培訓 - 我們已經增加了新的報警/請求培訓,使其具有明確的新的分類和結構,以便更有序地隨時爲客戶提供支持。在2014年,我們在這個方面更進了一步,在各個級別層次上都有了不同類型的支持工程師和認證服務,尤其是包括了新的MySQL、亞馬遜AWS、安全、可靠性、工程師以及性能方面的內部認證。


關鍵問題審覈任務 - 爲防止相同問題重複發生,我們始終幫助客戶解決問題。除了頻繁的報警ARP任務之外,我們還啓動了重大問題審覈流程,我們有經驗更豐富的工程師來審覈整個事件、發掘根本原因、提供建設性解決方案、反映出我們對客戶的價值。


新型AR得分/評估程序 - 我們來了一名新的報警-請求團隊經理,擁有一個更先進、更有組織的程序可以檢查並評估AR工程師工作績效,包括使用所有指標和數據分析報表,這樣,我們可以定期評估所有事項,以便發現問題所在,對系統進行改進。


CNC Zabbix 控制面板2 - 該面板誕生於2013年,是一款獨立的內部Zabbix 面板,可以放置所有重要報警還可用於清理屏幕,有助於工程師和協調員把更多的精力主要放在實時問題和最重要的問題上。


PM屏幕 - 使用PM熒屏能夠更好地記錄任務狀態,也可選擇性地同時更新許多任務以及搜索特定的任務。PM和協調員可以使用該熒屏隨時增加任務的狀態,在日常營運晨會上也可以增加任務的狀態,使會議時間縮短,這樣我們便可更快地投入到日常工作中。


門戶新任務分配系統 - 爲了能夠提高全部請求的處理效率,我們通過在新系統中增加新特點的方法改善了任務的分配處理流程,使這個處理流程的功能更加強大,我們還需要設計許多額外的處理程序,在2014年,該處理流程可以完整地投入運營。


新型請求控制面板 - 我們專門爲請求處理開發了獨具特色的控制面板,該面板與Zabbix的功能相似,極大地提高了協調團隊的工作效率,能夠更有序地跟蹤和管理請求。


在2014年年初,將會有更多的變革,包括新增額外的僱員、24x7小時的培訓;更強的下班後的緊急處理流程包括24x7小時緊急羣客戶聊天工具;額外的支持通道如QQ和簡單聊天工具;新型自動構建系統和審計系統;配置跟蹤系統;更強的syslog處理和web/syslog分析工具;新型的網絡和防火牆配置;以及更多的其它工具。


( Authored by Steve Mushero | ChinaNetCloud CEO & CTO 本博客英文原文請點擊查看


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章