机房在线搬迁的规划与实施

      近年来,随着信息技术的飞速发展,新的IT技术和设备不断投入使用,使得企业的IT系统对机房场地的要求不断提高。因此,对机房进行在线改造和在线搬迁,成为科技部门需要考虑和应对的工作。如何控制实施风险,稳妥做好机房在线搬迁,保障生产系统在机房搬迁期间不中断服务,是科技部门在机房搬迂中要解决的重大难题。

  1.机房在线搬迁的含义
  机房在线搬迁,是在保障信息系统整体完好、连续运行条件下,在有限时间内将正在生产运行的IT设备从原机房拆除、移动、安装到新机房的过程。
  在线搬迁的对象,狭义上主要指与生产系统运行相关的IT设备及附属设备,广义上还可能包括UPS、空调、供配电等机房场地设备和办公家具等。机房搬迁实质上需要搬迁两类对象,包括IT设备(计算机设备、网络通信设备、设备机架及其他相关配套设备)等显性对象和IT设备的各类连接(电气连接、网络连接、应用逻辑连接)等隐性对象。
  2.机房在线搬迁的特点
  业务部门对机房搬迁的要求通常是运行时间短暂中断,运行服务能力无损。相应地,机房在线搬迁工作具备以下特点。
  (1)实施时间紧迫。运行单位可接受的中断服务时间限定为业务系统营业休息时间,如一个晚上或一个周末。
  (2)实施质量要求高。运行单位要求搬迁后各类IT设备均正常工作,搬迁前、后期间,应用系统须连续提供服务。
  (3)实施组织难度大。因需拆除、拆分和重新组装,并建立所有设备及连接,对于大中型机房和较复杂的应用系统,常常涉及运行、建设、场地、系统维护、搬运、机房装修等各责任方,参加人员多,实施组织难度大。
  3.机房在线搬迁的风险
  机房在线搬迁的风险主要包括以下几种。
  (1)管理风险。其表现为“没想到”、“来不及”,组织管理不善,准备不充分,流程考虑不细致,工序衔接不顺畅,时间分配不合理。一旦某一工作环节出现问题,会造成不能按时完成预定工作任务,不能按时恢复生产运行的情况。
  (2)技术风险。其表现为“启不来”,“连不上”,原始建设资料残缺、IT设备无法正确组装、连接,搬迁后设备无法启动,更改服务器IP地址后无法建立逻辑/应用连接。
  (3)实施风险。其表现为“差一个”,“不小心”,工作细节考虑不够,准备不足,如工具、插头、线缆不够,设备组装、连接不上,实施质量不高,IT设备损坏;电气设施不合格,严重时甚至可能烧坏设备,造成惨重损失。
  二、机房在线搬迁工作规划
  工作规划是控制在线搬迁风险,成功完成工程实施的重要基础。搬迁工作规划主要应包含以下几个方面。
  1.人员规划
  按照“专业人员做专业工作”的原则,确定参加方、人员专业技术要求,确定现场总指挥,以及拆除、搬运、安装、检查、开机等各工作环节的牵头人和责任人,编制人员组织图,明确责任分工,划分工作界面,登记联系方式。
  2.IT设备准备
  (1)设备整理。对待搬迁设备列出清单并分类、编号,列明现在位置、供电类型和容量,规划设备搬迁批次。
  (2)摆放规划。按机房装修设计方案,分区、分类或分系统规划设备搬迁后的摆放区位、机架、上架位置编号,完成设备布局图、分类摆放图、上架图。
  (3)供电核查。以机架为单位计算用电量,按照一般不超过每机柜5kW的原则,调整摆放位置。核实机房配电系统竣工图,检查各用电回路容量、设施类型与规格,确认机柜的供电条件可以得到满足。
  (4)网络规划。设计系统网络拓扑图、IP地址空间规划、系统逻辑连接图、设备接线图。接线图应至少包含每台设备的名称、编号、精确位置、IP地址、端口号,以及每个连接的双方名称与端口等信息。
  3.搬运准备
  (1)货箱规划。根据设备情况确定需要使用的包装箱和货箱的尺寸、个数,分析有无倾斜角度限制。
  (2)通道调查。调查电梯、走廊、出入口、斜坡、台阶等的尺寸、承重力,确保通过无障碍。
  (3)搬迁车辆。确定车辆的类型、台数和尺寸要求。
  4.实施过程准备
  (1)工作流程。编制工作流程并与有关方面反复讨论修改,使流程顺畅、无遗漏、可操作。
  (2)工作步骤书。编制步骤书,细化流程,明确每个步骤的前提、结束条件、时间要求、责任人、工具等,形成详细步骤书。特别需要注意的是,每个工作环节最好设定为一人执行,另一人复核。
  5.技术准备
  有些搬迁可能需要更改服务器IP地址。对包含操作系统、中间件、数据库、负载均衡、应用的复杂系统,更改IP地址,重新建立逻辑连接较为繁琐,需要拟定技术方案,编写修改脚本,并严格测试。
  6.应急方案
  机房搬迁过程中造成IT设备损坏、不能正常启动、应用服务中断的可能性很大,因此,机房搬迂必须考虑应急处置方案。
  (1)应急方案。制定应急工作方案,全面考虑可能发生故障的环节、应对手段和应急回退措施,包括管理流程、技术手段、实施步骤等具体信息。
  (2)系统备份。对关键系统、关键业务设备进行系统和业务数据备份。根据不同的条件选择磁带备份、磁盘备份、系统克隆等不同备份策略。对HA架构的应用系统可选择分批搬迁设备,保持业务的连续运行。
  (3)对非IT设备,考虑搬迁工程中可能出现的意外情况,需设计应急处置方案,落实处置负责人,准备应急处置需要的物资工具。
  7.工具规划
  根据工作要求,确定需要使用的网络安装、接线、电气检查、搬运、拆装、清洁等工具、规格和数量,确定提供方和携带保管人员。
   三、搬迁流程设计和事前准备
  1.搬迁流程设计
  根据测试中心机房搬迁的实施经验,比较好的搬迁流程包括以下步骤。
  (1)拆除阶段。确认设备标签一IT系统和数据备份一执行服务器IP地址变换脚本一设备下电并重启确认硬件正常一设备下电一拆除线缆一拆除附件一拆除导轨一设备下架。
  (2)设备装运。设备装箱一粘贴包装箱标签一打包一运送到指定地点一拆包一除尘一运送到指定机柜。
  (3)设备开包就位。设备组装一设备上架,初步固定机柜一连接线缆一整理线缆一设备加电一设备测试一分系统测试一主系统联调一新机柜固定一系统技术指标恢复。
  2.场地准备及提前完成的工作
  按照国家有关规定,应在机房投入使用之前完成机房工程验收,保障电力系统、制冷系统、新风系统、防雷接地系统、监控系统、门禁系统等设施安装合格,系统工作正常,达到设计要求。场地温湿度、洁净度、电磁防护、安全等技术条件达到国家技术规范要求。
  在集中搬迁前,部分工作可提前进行,使搬迁工作重点集中在关键设备上。包括:确认各类规划图纸、表格、流程的完整正确;网络布线;设备分批贴标签;服务器IP地址变更方案和脚本测试;路由器、交换机的安装。
  3.工作演练
  (1)搬迁演练。为发现和弥补准备工作中的漏洞,可选取个别设备进行搬迁演练,寻找整体流程、工作步骤书、应急处置方案的漏洞。计算搬迁时间是否合适,确认各种工作图表内容完整、信息充分,便于实施搬迁。
  (2)应急回退演练。按照应急方案执行应急处置和回退流程,检查技术方法、工作流程,测试备份数据,确认备份方法和备份数据可靠有效,确保关键业务可恢复。
  4.沟通协调
  为妥善完成搬迁工作,沟通协调工作非常必要。
  (1)搬迁通知。通过可靠渠道将搬迁日程通知所有用户、大厦物业、场地设施维护单位。
  (2)搬迁工作协调。组织召开工作协调会,明确各方责任和负责人员、接口人,发放相关图纸资料,将搬迁计划、流程、步骤宣传到所有参加人员。
  四、机房在线搬迁的实施经验
  按照上面的工作流程,我们组织有关各方成功完成了中国人民银行支付系统测试中心机房的在线搬迁实施。在一个周末内,将8套应用系统,包括两套大型机系统、100多台小型机、服务器等设备顺利搬迁完成,保障了运行无中断、服务无损失的目标。实施过程中的体会有以下几点。
  (1)关于工作指导。运行单位中最熟悉设备的IT设备管理、维护人员,应在现场全程旁站指导。
  (2)关于搬迁顺序。设备量很多时,可按存储划分搬迁单位,将使用同一存储的服务器在同一批次内搬迁,将HA结构的设备分在不同的两批中搬迁。
  (3)关于除尘。搬迁中最好对设备进行适当除尘。我们是在冬季进行搬迁,室内外温差较大,不能将设备搬到室外除尘,因此在室内使用毛刷、吸尘器、拧干的湿毛巾等多种方式除尘,将可拆卸的电源模块抽出除尘。为防设备损坏,除非必要,一般不打开机器箱盖。
  (4)关于网线整理。搬迁各工序里,用时最多的是拔出、插接、整理线缆,建议安排尽可能多的时间;为方便实施,保障质量,建议搬迁后原双绞线不再使用;网线在服务器端网口距离水晶头5cm的地方直接剪断,贴该网线的IP信息标签,该网线头—直插在网FI里,直到设备上架到新的机柜,插入新的网线前再拔出,以减少连线时插网线的时间;设备安装到位连接好线缆后,认真做好整理线缆的工作,达不到要求前,设备不要加电,一旦加电后,如线缆需要重新整理,下电比较困难。
  (5)标签制作与粘贴。标签制作与粘贴很费时,建议在搬迁开始前尽可能完成;标签内容应该尽可能详细,形式规范统一;每个设备表面、包装箱上应粘贴设备标签,说明其名称、编号,将搬迁到新机房哪个机柜的第几U的位置;线缆的标签应说明每根线缆、每个接头将插到哪个设备的哪个端口,便于查找安装。
-----感觉实用性还不错,跟大家分享下啦~~
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章