【運維故事】記一次系統重大升級的經歷

時光荏苒,一晃自己從事證券行業信息系統運維工作已逾十年!回顧以往運維經歷,歷歷在目。

作爲以利潤爲中心的證券公司,IT後臺支持部門是不直接創造利潤的,雖然小到日常業務處理、帳務覈算,大到整個公司的經營管理、業務創新和決策支持,背後都由IT系統支撐,但是絕大多數人不瞭解我們的工作,也許某種程度上存在理解誤區,認爲系統運轉正常是應該的,只有當系統出現故障時,纔會意識到我們的存在。但是大家不知道的是系統正常運轉的每一天,都離不開有“強迫症”運維人員的默默付出,正能量的說法是歲月靜好,是有人爲我們負重而行。

作爲一個運維人,應該每個人都有些許不同的經歷。對於我們集中交易運維小組來說,系統升級的體會卻是一樣的。在此我就以3.31號週六系統升級爲例,來給大家展示系統重大升級的經歷。對於承載着一千多萬客戶的集中交易系統來說,它的實時性很強,對穩定性要求很高,每一次系統重大升級,運維任務都很重,信息技術人員任何小的疏忽和拖拉,就可能造成系統的中斷,影響客戶羣體的數量規模會逐漸放大,就可能給公司帶來巨大的經濟和聲譽損失。所以在升級前期我們會做很多鋪墊工作,保證升級萬無一失。

01升級前...

在升級前幾周,我們就要開始研究升級包,並仔細檢查合併升級包,瞭解升級變更的具體內容,分析升級後對我們現有系統業務的影響。我們還會和其他券商多做溝通交流,瞭解他們的升級進展情況,確定版本。同時還需要同開發商保持密切聯繫,看是否還有對應補充升級包,確保我們的升級補丁包是最佳版本。

考慮到我們歷史庫數據量龐大,升級時間很長,最長的一次歷時將近40小時,因此在系統升級前的週五晚上,正常清算完成後,我們升級了一臺歷史庫,備份另一臺歷史庫數據,這樣不僅可以充分利用時間,還能儘早驗證歷史腳本是否正常,便於在開市前正常完成歷史庫的升級。

02升級時...

週六升級當天,我們組織營業部進行全業務的升級驗證,因此我們要準備好測試環境。當清晨的天空微微泛白,我們提着家人提前準備好的早餐,坐上了新聞中早高峯擁擠不堪而現在能從頭望到尾的空空地鐵。7:10到達公司後,開啓一天的緊張工作。

首先檢查昨晚歷史庫升級的狀態和進度,預估升級時間(其實是判斷第二天才能回,還是當天能回J),發現歷史庫處於正常升級狀態後,欣喜若狂,接下來就是升級測試環境的準備工作,譬如刪除數據庫複製,備份系統數據庫、備份行情文件、加掛電話委託測試語音、重啓並掛起交易系統數據庫、提交測試環境腳本、升級包、設置相關參數等等。

測試驗證期間,我們會儘可能多的驗證系統的功能,爭取覆蓋全部業務,同時積極關注內部交流羣營業部的測試信息反饋,並同網上交易中心等外圍測試人員保持密切溝通,針對提出的問題進行分析,問題是否正常,還是會影響系統的正常運行,並將重要疑問及時反饋開發商,儘可能做到不帶疑問升級。

03升級後...

下午3:30測試完後,根據營業部以及網上交易等參測方測試反饋,沒有特別的技術疑問,我們準備正式對生產環境當前交易數據庫進行升級。首先我們關閉測試環境,恢復行情文件、恢復電話委託語音,重啓所有應用服務器、重啓數據庫服務器、覈對數據,開始升級過程,順利完成!檢查升級日誌,一切正常!忍不住內心的欣喜(對於運維人來說,系統一切正常就是最開心的事情),我們繼續將災備系統的數據庫升級,再通過生產庫建數據庫複製模式用於災備當前庫的數據同步,接下來我們將重建DTS數據導出,待所有數據庫升級以及複製同步完成後,開啓系統完成集中交易系統歸檔、系統初始化、參數檢查等工作,待觀察到客戶委託正常進入後,已經是晚上11:00,一天的系統升級加班工作終於圓滿完成。雖然回到家連眼皮都快睜不開了,心情卻無比放鬆。

以上就是我們一天運維工作的縮影,運維不是每一天都轟轟烈烈,激情澎湃,更多的是一份耐心、一份責任感。運維工作既有萬億行情下高壓超長時間“用生命在清算”,系統故障時爭分奪秒的緊張處理,系統升級時的披星戴月,也有順利完成升級後,一起堅守陪伴的兄弟們快樂歸巢,品嚐鍋裏溫熱的愛心加餐,還有休息期間歡樂鬥地主、球技對決等等的愉快時光,這一切,是如此的飽滿充實,我爲我是運維人而自豪!


看完以上的內容,相信你對於Linux運維的瞭解又加深了一層。作爲一名Linux愛好者,如果你在學習中遇到了困惑需要交流,可以點關注和我一起交流哦

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章