系统上线后,总会慢慢反映出系统登陆,连接,请求等状况下出现系统延时的现象,
各种各样的条件或者情况下,如何调查,需要整理一个思路
首先,不要着急进行技术上的调查,很容易陷入反复调查以至疲惫不堪的状况。
理论上的思路
-
没制定调查计划之前不要动手
所有的行动启动前,必须要有计划。
-
不要带有先入观
-
考虑所有的可能性
昨天升级了OS,会不会是这个的影响?
最近更换了通信模块,会不会是这个的影响?
等等考虑所有可能性 -
分清事实和推测
调查进行中,总会有确认过的事实,以及还没有确认的推测,一定分开考虑 -
调查过程中不要忘了自己的目的
调查中很有可能会发现其他的bug等问题,一定要先放一放。 -
谁的问题,怎么出的问题,如何避免问题
行动上的考虑
1. 明确问题
点击后反应迟缓?DB检索反应慢?服务器上传文件慢?等等
以检索信息过慢为例
提出了问题,有些是主观的现象,就要召集相关方进行
- Who 解决谁的问题
解决问题是为了谁?客户?内部使用人员?公司管理层?
了解这个的目的是;确定问题调查的优先顺序,先调查response时间,还是先调查处理慢的问题 - What 什么问题
问题的具体化,详尽化,最好能达到可测量标准的程度 - Why 为什么是一个问题
考察问题的优先重要度 - When 什么时候开始的
容易考察前后做过的那些活动 - Where 问题的影响是什么
最终决定问题解决的优先顺序「影响度:大/中/小」 - Which 主要的问题对象系统是哪一个
是运用系统还是开发系统
通过上述的简单整理,就可以筛除掉一些原因等。
以例子来说就是,
1.客服反应 2.检索一条信息太慢 3.导致让用户在电话中等待过长时间,因此出现了大量的用户抱怨 4. 客服(推测)大约从八月份开始,SE部门在8月份(事实)更新过一次DB版本 5. 影响了服务的质量,导致客户流失,影响度大 6. 只在1号机上发现了该现象
2. 明确要解决的课题
有了上面的问题整理,提出课题就很容易了
【缩短客服检索系统的检索结果返回时间,减少客户的抱怨】
3. 明确解决目标值,期限
以解决该课题作为目标,设定具体的定量化目标值和期限。
例如;
目标;检索结果返回时间控制在3s之内,客户抱怨率控制在2000个电话1件
期限;12月底
前提条件;1分钟最大的检索件数为 1000件
4. 调查计划作成
●调查流程的作成
行动前制定调查的大体流程图
- 考察可能的原因
改善措施行动前,需要大量数据的支撑,因此,需要调查实际发生的数据,各种瓶颈的数据的准备,先从最有可能的原因入手,拿到最有效的数据作支撑。
比如,系统性能的最有可能瓶颈因素
CPU占有率,内存使用率,磁盘空间使用率,网络带宽,OS各种资源(参数设定),应用资源,锁的使用状况,排他处理以及其他逻辑处理问题
根据上面的可能因素,作成-问题调查实施计划书(需要考虑到,人员,工具,设备的选定和工数,费用的预估) - 从最可能的原因开始测定
测定过程中,花费大量的人力,物力,财力都要提前在计划书中反映到。 - 分析测定结果数据
选择哪些工具进行分析,也尽可能提前在计划书中反映。 - 根据分析结果制定具体的改善案
利用专家判断等工具进行方案的制定,如果达到目标值 - 实行改善案
例如,修改程序的实装问题或者增强CPU的性能等
在实施过程中经常产生新的问题,时刻记住最初的目的,新的问题先列表,之后作为新课题再对应。 - 效果测定
已接近生产环境进行效果的测定,注意排除改善案之外的外部因素影响 - 结果判定
通过上面的改善,是否达到了目标值的要求等进行分析,没达到,重新制定计划书,重新测定 - 结果完成
达到目标,最终向依赖者报告结果,开庆功会感谢成员的努力等。