機房在線搬遷的規劃與實施

      近年來,隨着信息技術的飛速發展,新的IT技術和設備不斷投入使用,使得企業的IT系統對機房場地的要求不斷提高。因此,對機房進行在線改造和在線搬遷,成爲科技部門需要考慮和應對的工作。如何控制實施風險,穩妥做好機房在線搬遷,保障生產系統在機房搬遷期間不中斷服務,是科技部門在機房搬迂中要解決的重大難題。

  1.機房在線搬遷的含義
  機房在線搬遷,是在保障信息系統整體完好、連續運行條件下,在有限時間內將正在生產運行的IT設備從原機房拆除、移動、安裝到新機房的過程。
  在線搬遷的對象,狹義上主要指與生產系統運行相關的IT設備及附屬設備,廣義上還可能包括UPS、空調、供配電等機房場地設備和辦公傢俱等。機房搬遷實質上需要搬遷兩類對象,包括IT設備(計算機設備、網絡通信設備、設備機架及其他相關配套設備)等顯性對象和IT設備的各類連接(電氣連接、網絡連接、應用邏輯連接)等隱性對象。
  2.機房在線搬遷的特點
  業務部門對機房搬遷的要求通常是運行時間短暫中斷,運行服務能力無損。相應地,機房在線搬遷工作具備以下特點。
  (1)實施時間緊迫。運行單位可接受的中斷服務時間限定爲業務系統營業休息時間,如一個晚上或一個週末。
  (2)實施質量要求高。運行單位要求搬遷後各類IT設備均正常工作,搬遷前、後期間,應用系統須連續提供服務。
  (3)實施組織難度大。因需拆除、拆分和重新組裝,並建立所有設備及連接,對於大中型機房和較複雜的應用系統,常常涉及運行、建設、場地、系統維護、搬運、機房裝修等各責任方,參加人員多,實施組織難度大。
  3.機房在線搬遷的風險
  機房在線搬遷的風險主要包括以下幾種。
  (1)管理風險。其表現爲“沒想到”、“來不及”,組織管理不善,準備不充分,流程考慮不細緻,工序銜接不順暢,時間分配不合理。一旦某一工作環節出現問題,會造成不能按時完成預定工作任務,不能按時恢復生產運行的情況。
  (2)技術風險。其表現爲“啓不來”,“連不上”,原始建設資料殘缺、IT設備無法正確組裝、連接,搬遷後設備無法啓動,更改服務器IP地址後無法建立邏輯/應用連接。
  (3)實施風險。其表現爲“差一個”,“不小心”,工作細節考慮不夠,準備不足,如工具、插頭、線纜不夠,設備組裝、連接不上,實施質量不高,IT設備損壞;電氣設施不合格,嚴重時甚至可能燒壞設備,造成慘重損失。
  二、機房在線搬遷工作規劃
  工作規劃是控制在線搬遷風險,成功完成工程實施的重要基礎。搬遷工作規劃主要應包含以下幾個方面。
  1.人員規劃
  按照“專業人員做專業工作”的原則,確定參加方、人員專業技術要求,確定現場總指揮,以及拆除、搬運、安裝、檢查、開機等各工作環節的牽頭人和責任人,編制人員組織圖,明確責任分工,劃分工作界面,登記聯繫方式。
  2.IT設備準備
  (1)設備整理。對待搬遷設備列出清單並分類、編號,列明現在位置、供電類型和容量,規劃設備搬遷批次。
  (2)擺放規劃。按機房裝修設計方案,分區、分類或分系統規劃設備搬遷後的擺放區位、機架、上架位置編號,完成設備佈局圖、分類擺放圖、上架圖。
  (3)供電覈查。以機架爲單位計算用電量,按照一般不超過每機櫃5kW的原則,調整擺放位置。覈實機房配電系統竣工圖,檢查各用電迴路容量、設施類型與規格,確認機櫃的供電條件可以得到滿足。
  (4)網絡規劃。設計系統網絡拓撲圖、IP地址空間規劃、系統邏輯連接圖、設備接線圖。接線圖應至少包含每臺設備的名稱、編號、精確位置、IP地址、端口號,以及每個連接的雙方名稱與端口等信息。
  3.搬運準備
  (1)貨箱規劃。根據設備情況確定需要使用的包裝箱和貨箱的尺寸、個數,分析有無傾斜角度限制。
  (2)通道調查。調查電梯、走廊、出入口、斜坡、臺階等的尺寸、承重力,確保通過無障礙。
  (3)搬遷車輛。確定車輛的類型、臺數和尺寸要求。
  4.實施過程準備
  (1)工作流程。編制工作流程並與有關方面反覆討論修改,使流程順暢、無遺漏、可操作。
  (2)工作步驟書。編制步驟書,細化流程,明確每個步驟的前提、結束條件、時間要求、責任人、工具等,形成詳細步驟書。特別需要注意的是,每個工作環節最好設定爲一人執行,另一人複覈。
  5.技術準備
  有些搬遷可能需要更改服務器IP地址。對包含操作系統、中間件、數據庫、負載均衡、應用的複雜系統,更改IP地址,重新建立邏輯連接較爲繁瑣,需要擬定技術方案,編寫修改腳本,並嚴格測試。
  6.應急方案
  機房搬遷過程中造成IT設備損壞、不能正常啓動、應用服務中斷的可能性很大,因此,機房搬迂必須考慮應急處置方案。
  (1)應急方案。制定應急工作方案,全面考慮可能發生故障的環節、應對手段和應急回退措施,包括管理流程、技術手段、實施步驟等具體信息。
  (2)系統備份。對關鍵系統、關鍵業務設備進行系統和業務數據備份。根據不同的條件選擇磁帶備份、磁盤備份、系統克隆等不同備份策略。對HA架構的應用系統可選擇分批搬遷設備,保持業務的連續運行。
  (3)對非IT設備,考慮搬遷工程中可能出現的意外情況,需設計應急處置方案,落實處置負責人,準備應急處置需要的物資工具。
  7.工具規劃
  根據工作要求,確定需要使用的網絡安裝、接線、電氣檢查、搬運、拆裝、清潔等工具、規格和數量,確定提供方和攜帶保管人員。
   三、搬遷流程設計和事前準備
  1.搬遷流程設計
  根據測試中心機房搬遷的實施經驗,比較好的搬遷流程包括以下步驟。
  (1)拆除階段。確認設備標籤一IT系統和數據備份一執行服務器IP地址變換腳本一設備下電並重啓確認硬件正常一設備下電一拆除線纜一拆除附件一拆除導軌一設備下架。
  (2)設備裝運。設備裝箱一粘貼包裝箱標籤一打包一運送到指定地點一拆包一除塵一運送到指定機櫃。
  (3)設備開包就位。設備組裝一設備上架,初步固定機櫃一連接線纜一整理線纜一設備加電一設備測試一分系統測試一主系統聯調一新機櫃固定一系統技術指標恢復。
  2.場地準備及提前完成的工作
  按照國家有關規定,應在機房投入使用之前完成機房工程驗收,保障電力系統、製冷系統、新風系統、防雷接地系統、監控系統、門禁系統等設施安裝合格,系統工作正常,達到設計要求。場地溫溼度、潔淨度、電磁防護、安全等技術條件達到國家技術規範要求。
  在集中搬遷前,部分工作可提前進行,使搬遷工作重點集中在關鍵設備上。包括:確認各類規劃圖紙、表格、流程的完整正確;網絡佈線;設備分批貼標籤;服務器IP地址變更方案和腳本測試;路由器、交換機的安裝。
  3.工作演練
  (1)搬遷演練。爲發現和彌補準備工作中的漏洞,可選取個別設備進行搬遷演練,尋找整體流程、工作步驟書、應急處置方案的漏洞。計算搬遷時間是否合適,確認各種工作圖表內容完整、信息充分,便於實施搬遷。
  (2)應急回退演練。按照應急方案執行應急處置和回退流程,檢查技術方法、工作流程,測試備份數據,確認備份方法和備份數據可靠有效,確保關鍵業務可恢復。
  4.溝通協調
  爲妥善完成搬遷工作,溝通協調工作非常必要。
  (1)搬遷通知。通過可靠渠道將搬遷日程通知所有用戶、大廈物業、場地設施維護單位。
  (2)搬遷工作協調。組織召開工作協調會,明確各方責任和負責人員、接口人,發放相關圖紙資料,將搬遷計劃、流程、步驟宣傳到所有參加人員。
  四、機房在線搬遷的實施經驗
  按照上面的工作流程,我們組織有關各方成功完成了中國人民銀行支付系統測試中心機房的在線搬遷實施。在一個週末內,將8套應用系統,包括兩套大型機系統、100多臺小型機、服務器等設備順利搬遷完成,保障了運行無中斷、服務無損失的目標。實施過程中的體會有以下幾點。
  (1)關於工作指導。運行單位中最熟悉設備的IT設備管理、維護人員,應在現場全程旁站指導。
  (2)關於搬遷順序。設備量很多時,可按存儲劃分搬遷單位,將使用同一存儲的服務器在同一批次內搬遷,將HA結構的設備分在不同的兩批中搬遷。
  (3)關於除塵。搬遷中最好對設備進行適當除塵。我們是在冬季進行搬遷,室內外溫差較大,不能將設備搬到室外除塵,因此在室內使用毛刷、吸塵器、擰乾的溼毛巾等多種方式除塵,將可拆卸的電源模塊抽出除塵。爲防設備損壞,除非必要,一般不打開機器箱蓋。
  (4)關於網線整理。搬遷各工序裏,用時最多的是拔出、插接、整理線纜,建議安排儘可能多的時間;爲方便實施,保障質量,建議搬遷後原雙絞線不再使用;網線在服務器端網口距離水晶頭5cm的地方直接剪斷,貼該網線的IP信息標籤,該網線頭—直插在網FI裏,直到設備上架到新的機櫃,插入新的網線前再拔出,以減少連線時插網線的時間;設備安裝到位連接好線纜後,認真做好整理線纜的工作,達不到要求前,設備不要加電,一旦加電後,如線纜需要重新整理,下電比較困難。
  (5)標籤製作與粘貼。標籤製作與粘貼很費時,建議在搬遷開始前儘可能完成;標籤內容應該儘可能詳細,形式規範統一;每個設備表面、包裝箱上應粘貼設備標籤,說明其名稱、編號,將搬遷到新機房哪個機櫃的第幾U的位置;線纜的標籤應說明每根線纜、每個接頭將插到哪個設備的哪個端口,便於查找安裝。
-----感覺實用性還不錯,跟大家分享下啦~~
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章