【262期门诊集锦】IT运维自动化的进阶体验

  技术门诊是51CTO社区品牌栏目,每周邀请一位客座专家,为广大技术网友解答疑问。从热门技术到前沿知识,从技术答疑到职业规划。每期一个主题,站在最新最热的技术前沿为你引航!

    本期特邀H3C管理软件产品总工,系统架构师郭晓征,针对IT运维自动化领域的相关知识和经验技巧进行解答,欢迎网友积极提问,与专家一起讨论!

查看本期门诊精彩实录:http://doctor.51cto.com/develop-276.html

精选本期网友提问与专家解答,以供网友学习参考。

 

Q: 郭工:

      您好,一直在IT运维这块有个疑问不知所措,前些年公司规模较小,IT这块可以说是很简单,近几年随着公司快速发展,公司IT这块运维已经跟不上公司发展的速度,在公司发展期间网络这块一直也未进行大的变革,始终抱着一种”能用即可“得态度,所以导致现网络支撑很弱,并且存在很大的隐患,很多网络故障均是不可控,可以说IT到了一个瓶颈的程度,我初步设想是借着公司上EAS项目的机会进行整改,郭工根据您的经验不知是否可行,还有就是网络改到什么程度,系统架构、产品选型不是很清晰。

A: 您好,您的这个问题实际上能反映的两个现状,第一,公司业务促发了IT的快速增长,第二,领导没有重视IT运维的重要性,以为原有的IT运维就可以跟上现在的发展情况。

我给您的建议有二:

第一,不要从IT的角度看待IT运维,要从业务的角度来看IT运维。这句话说白了,单位的其他部门员工不关心你怎么维护服务器或者交换机,他们关心的是自己所面对的业务系统是否稳定。所以,首先请拆分自己单位的业务模式,哪些是重要系统,那就优先管控相关的IT支撑基础。网络改造、系统架构、产品选型等工作,最终目的还是支撑业务系统,如果你做到了关键业务优先运维,那么你的领导和同事对你的认可度也会提高。

第二,不要仅把IT运维系统局限在NSM层面,这方面我真的希望您关注一下iMC的“端到端”的概念,如果做到了端到端,很多问题立刻可以迎刃而解,如果没做到的话,也会给你很多的思路和方法。

 

Q: 您好工程师:一直以来单位的运维方面都比较混乱,从最初的简单局域网到现在,每年都在增加设备,除了网络设备、系统服务器还有机房环境设备,在网络这一块今年才在我的强烈要求下增加了个北塔网络运维管理软件,但是要做好自动运维还是有很多无法做到的,主要感觉是工作分块比较多,很难有个设备或者软件能够全部管理过来,只能网络找个软件、设备找个软件,报警再找个硬件发信息,请问一般在规划自动运维的话主要从哪些方面入手会比较好,在管理设备及软件的选择上不知道行业内是不是有什么成熟的品牌和设备?

A: 您的问题跟一楼的朋友很类似,一部分请参见我对jdk521的回复,另外,我要额外说一下,很多开源的系统有很好的功能,但是请注意,您一定感觉到了,开源的系统很难有效的呼应结合,即便你用了很多类似流量管理、设备管理的第三方开源系统,但是从根本上来讲,头疼医头,脚疼医脚的现象没有改变,你依然是个救火队员,只不过你的装备从灭火器变成了高压水枪。自动化运维的入手,第一方面是要拆分剥离你们单位的业务,首先做到关键业务优先,如果重要业务很多,请参见iMC的端到端解决思路。

 

Q: 郭工,你好:

        对于IT运维自动化这个领域关注了很久,介于工作性质,我们经常是用脚本结合应用程序的方法来实现自动化,但是仍然少不了人工,譬如故障后关键日志的排查、故障范围的确认、故障解除后是否业务可以正常启动等等。现在我想了解一些其他平台上的运维自动化的相关案例,譬如嵌入式等等。在某些特定环境下,IT运维自动化的优化思路该遵循什么原则呢?

A: 呵呵,首先,再好的自动化运维也少不了相关的IT人员,毕竟运维系统也是需要人来用的。所以,在任何工作中,人是最关键的,而相关的系统只是辅助的工具。IT运维自动化的优化思路还是要根据公司的业务来进行优先。这点我在之前的两个问题中都说到了。IT运维人员的通病就是只看到了自己面对的IT层面的东西,忽视了相关业务的支撑。须知,任何IT层面的东西,归其根本,是为了支撑上层的业务,弄清了自己所在单位的业务,对应了相关业务所需要的应用系统,你的思路自然会清晰。我记得正德人寿的CIO裴老师说过:“CIO的第一工作是弄清业务,只有弄清业务,才能知道哪些东西优先做,哪些东西可以先放一放,毕竟,你的预算就那么多”,这句话我觉得非常正确。

 

Q: 郭工,您好:

      对于IT运维自动化这个概念听过很长时间了,但是到现在还是没有一个感觉清晰的理解。像公司希望我们进行自动化运维,通过这个在网上找了很多资料,像现在的WebistranoCapistranoCrontrolTierpuppet等说都是自动化运维软件,真正尝试了,其实都是我们写下固定的shell脚本通过web界面来运行脚本,因为是既定的shell脚本,肯定只能完成一些固定化的工作,并不能完全实现自动化运维,所以问下,实现运维自动化达到何种目的算是成功?或者说是应该怎么走?谢谢!

A: 脚本是一个关键,但是仅有脚本肯定不够。自动化IT运维的根本衡量标准是看实施之后,其他部门的员工是否感受到了IT运维,当他们感受不到的时候,那才是成功。自动化IT运维的实施过程,首先应该剥离业务,把每个关键业务的IT支撑搞清楚,然后再看看相关的自动化运维方案所提到的方式方法能否把这些关键的IT支撑点管理好,在这个基础上,很重要的一点是吧眼光放大,放到IT和业务结合的全局角度来看,这样的一套自动化运维系统能否在至少三年内,满足企业对于业务稳定的要求。站在业务层面看IT,这点太重要了

 

Q: 郭工,您好,我是一名在校大学生,我有几个问题想要请教。1、信息化是否等同于自动化;2、信息化的实现需要借助于哪些东西;3、运维在未来的信息化时代里会起到多大的作用;4、对于一个信息专业的学生,您能否给一些建议,好让我们明确未来的发展方向。谢谢

A: 信息化不同于自动化,否则为什么会有自动化专业和信息化专业的划分呢?呵呵。信息化粗旷的看需要三个层面,第一,底层的硬件支撑,第二,中间的操作系统、数据库、虚拟化等技术的搭建,第三,上层业务系统的实现,这三方面缺一不可,除了这些必要的基础,还需要相应的运维工作保证信息化的安全稳定。运维在今后的发展中将会越来越重要。如果你了解云计算的话,你应该知道,云计算对于企业而言,是一个数据大集中的工作,而在这个工作中,运维能否随之发展,是云计算能否成功的一个充要条件。您未来的发展方向其实很多,开发、网络、系统、虚拟化、架构设计等等,都是方向,关键要看你的兴趣点了。

 

Q: 您好:

       从大陆现有网管软件上来看,imc应该算是业界功能最齐全的网管软件。至今还没有任何企业将该软件的所有功能全部运用到。

请问是否后期的网管平台可以看作一个完全自动操作的智能化平台,只需要设置某些筏值后,管理平台都会自动进行。如:设备软件版本损坏后down机,根据前期在平台的设置,平台会自动识别该设备软件版本损坏,对该设备进行自动重新灌输软件版本及根据前期配置的备份对配置进行导入?

A: 您说的很对,iMC强调的是跟随企业的成长而辅助其运维工作的成长。不过在金融、电信等大型行业中,iMC的绝大多数功能都已经顺利的实施了。后期的自动化运维平台肯定是智能平台,但是是否能完全自动操作,这个我还没见过有哪个系统敢说自己可以完全自动操作。否则的话,IT运维工程师这个职业就不存在了。您所举的这个例子是可以自动化操作的,但是我也举个例子,比如说由于突发的停电,导致了某服务器在UPS所支撑的时间内没有实现完全的备份,或者直接硬盘坏掉了,这个时候还是需要人工操作的。

 

Q: 郭老师你好,我们公司因为IT部门分工过细,网络,系统,维护都是分开的,各组只是负责自己的业务,如果实现运维自动化,如何去有效的在原有的分工明确的基础上更好的工作。还有运维自动化如何有效的解决像我们公司这种系统,网络分工明确的工作方式。

A: 其实,IT部门分工这个理念我并不反对,针对IT细分后的专人专管是一个很好的工作模式。怕的是出现了问题之后,每个人都在推卸责任,比方说一个简单问题,财务部门的系统无法访问了,然后找原因的时候,网络部门说网络通畅,系统部门说服务器运转正常,安全部门说没有遭受***,结果扯了半天皮,问题没有丝毫的解决。如果实现了IT运维自动化,一方面,通过权限划分,让不同分工的IT管理者都能够更加及时有效的掌控自己所面对的工作范围,另一方面,由于问题定位非常准确,可以有效的杜绝出现问题后的扯皮现象。另外,虽然IT部门进行了分工,但是不得不说,还是有些工作会出现交集。比方说,安全部门的人觉得路由器不够安全,处于安全性考虑,他去做一个策略调整,这个貌似不过分,但是对于网络部门的人来说,很容易出现问题,因为他不知道安全部门的人调整了路由策略,如果实现了运维自动化,通过变更流程管理以及相应的留痕功能,这类问题就可以有效地解决。

 

Q: 郭工您好,我想请教一下您关于网络日常运行维护中间需要注重检查哪些方面,有些问题很简单,但一个简单的网线不通就影响整个楼的通信,这是不是我这里的管理不到位,还是运维没有做好?还有一个问题是,单位的设备是H3C的,需不需要学习H3C的认证,还是学习思科的东西?这些也是我迷茫的一个地方。谢谢!

A: 先说第一个问题,其实传统人工运维的日常工作由几个,第一,对于网络设备的维护、第二,对于服务器以及操作系统(包括虚拟化、数据库等方面)的维和,第三,对于安全方面的维护,第四,对于终端的维护。但是,对于很多问题,人工运维是无法解决的。我曾经遇见过一个客户,出现网络问题,最后排查出来的原因是因为网线被老鼠磕断了,这样的问题虽然看上去很好笑,但是实际工作中这个问题他们用了几乎两天的时间才找到根源。这样的问题不属于人员工作没到位,而是人工运维无法来预防并且解决这样的问题。另外,第二个问题,我当然希望您学习H3C的认证,这个认证能够帮助你提升您的工作技能和技术水平。但是,我还要说回来,其实网络相关的知识和技巧,万变不离其宗,关键看你能否融会贯通,最后形成自己的理论和经验。

Q: 郭老师,您好!我想咨询下,运维自动化具体能帮助我们这些一线的管理员做些什么。比如我们分别负责国内几个地方的网络和服务器,但是一旦***存在故障或者其他硬件故障,远程管理员没有办法获取更加详实的信息的情况下。自动化管理能帮助我们解决这些问题吗?

A: 当然可以了,iMC是基于B/S结构的自动化管理,它能做到的事情很多,从底层的IT基础来看,他可以实现的功能就包括服务器的监控、网络设备的监控、以及***信道的监控等等对于目前市面上所能见到的所有底层IT基础设施的实施监控。对于您所问的问题,有了这些底层的实时监控,通过预设的阀值,您可以做到有效的预故障处理,如果出现了突发故障,您也可以马上定位故障根源,而不用等到问题爆发,再去找故障问题根源等等。您所说到的详实信息,它都会完整的提交给你。但是,iMC的功能特性远不止这些,它为用户提供的是一个端到端的整体解决方案,能够帮助用户站在业务的角度看待IT,将IT管理者从一个单位内部的技术人员转化成相关的决策人员,这些同样也是iMC能够帮助IT管理者达到的目的。

 

Q: 郭老师您好,

每个公司都搞IT运维,而且运维人员技术水平不齐,对公司来讲是很大的风险,同时浪费大量人力物力等。因此IT运维长期看外包是最佳方式?

A: 运维人员水平参差不齐,有一些比较牛的运维人员离开了单位,又没有留下充足的运维经验,对于公司来讲不仅是风险,而且是损失。IT运维外包是一个好方法,但是对于一些单位而言,IT运维外包是不容许的,比方说金融行业、政府行业等等,还有很多单位,不喜欢IT运维外包的理由是他们觉得这样不安全,因为现在的IT已经不是简单的支持业务了,信息化已经成为了核心业务的承载平台。所以这个时候,很多人开始考虑IT运维自动化。IT运维自动化对于公司IT运维人员水平不一的现象有着非常大的帮助,因为它有一个非常好的知识库功能,在这个知识库中,会有很多常见问题的解决方法,当问题出现时,IT运维自动化系统一方面会向IT管理者进行告警,另一方面会从知识库中寻找相匹配的问题解决方式方法进行推荐。同时,这个知识库是随着IT运维人员的工作而成长的,如果某次IT故障出现后,知识库中并没有相匹配的解决方法,那么IT管理者可以像记录工作日志一样把此次故障的现象和解决方法录入知识库,以便下次出现类似问题,相关的IT管理者可以及时解决问题。这样一来,公司的IT运维经验会一直传承下去,不会因为人员流失而导致IT运维工作出现各类问题。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章