运维手册

原文地址:http://blog.sina.com.cn/s/blog_87ace1a00101kp0y.html

产品运维建议初步整理:

1.要有专门的人负责运维,至少当非开发人员发现问题时,能够在第一时间找到问题处理人。

2.每天定时查询服务器的运行状态,至少早上上班时和晚上下班前两次;每天下班前发送“日常运维报告”邮件给主要关系人;每周整理一次“周运维报告”,统一当周系统运行情况。

3.提供部署手册、运维手册和操作手册;提供系统升级部署文档规范。

4.整理该产品常见问题的解决方法日志,当遇到不能解决的问题时,要根据问题的严重性,给出处理时长;并将后续的常见问题解决办法持续集成。

5.准备应急预案。当发生异常情况时,要能快速找到明确的问题负责人和问题解决人员;尽快确定问题的处理方式,并将处理结果通知给问题发现者和问题关系人。

6.可以开发一个简单的系统监控程序。检查服务器、软件、数据库的状态,第一时间将异常以邮件或其他形式通知给相关负责人员,提高应急处理能力,减少投诉量。

运维手册主要包含以下内容:

1. 系统运行环境

1.1 硬件(服务器品牌、型号、CPU颗数、CPU主频、内存大小、硬盘大小、网卡块数)

1.2 操作系统(名称、版本、32/64位)

1.3 软件

1.3.1 WEB服务器(名称、版本、32/64位)

1.3.2 JDK(版本、32/64位)

1.4 数据库(名称、版本、客户端连接管理工具、编码类型)

1.5 网络(网卡地址及对应的作用描述)

2. 文件清单

3. 部署位置

3.1 程序安装位置

3.2 备份文件位置

3.3 升级文件位置

4. 主要配置文件及说明

5. 基本维护

5.1 日志(位置)

5.2 系统新数据录入方法(如:增加门店)

6. 账户信息

6.1 远程登陆(地址、端口、账号和密码。)

6.2 FTP(地址、端口、账号和密码。)

6.3 数据库(地址、端口、账号和密码。)

7. 其他

7.1 新增门店时的配置要点

操作手册主要包含如下内容:

(含各个入口访问地址[如有HTTPS方式也请附上];软件客户端下载、安装说明;手机客户端android、IOS和管理后台的使用说明)。

应急预案:

规范应急应急预案处理流程。

1. 问题第一负责人(部门/组、姓名、手机号码、邮箱、备注)

2. 细分问题负责人(部门/组、姓名、手机号码、邮箱、备注)

3. 问题处理建议时间。

4. 解决问题的主要步骤。

部署文档:

略,部分参见运维手册。

升级文档:

1. 列出要上传的文件清单;

2. 写清楚升级的每个文档放置的位置;

3. 需要修改配置文件的,请加以描述;

4. 有必要的话,请简单描述其作用;

监控程序:

1. 简单的监控程序,可以通过一个JSP网页,编写一个简单连接数据库的脚本,部署在各个门店服务器上。在云服务器上,定时访问这些部署在门店服务器上的JSP网页,通过返回结果,初步判定程序的健康状况。

一旦出现连接错误,可及时通过发送邮件等方式自动提醒。

常见问题:

形成问题解决日志。通过长期运维积累,记录问题解决办法,逐步形成系统运维知识库,以备后用。

运维报告:

运维报告,要用统一格式的文档。详细记录一下内容:

1. 服务器硬件资源使用情况。(CPU利用率,内存使用率、硬盘剩余空间)

2. 操作系统运行情况。(是否有系统异常提醒、安全提醒)。事前应做好安全防范配置工作,如防火墙等。

3. WEB服务器运行状态。(JVM使用率波动区间、SESSION数量波动区间、连接数情况)

4. 应用软件。(是否有异常信息;平均响应速度[可测试3到5次取平均值])

5. 网络连接情况。(系统与其他系统相关服务器之间的连接是否通畅,IP地址有误异常[如被篡改等])

最后附上检查时间,系统总体状态评价,记录发现的问题及待解决的问题(此条需要持续跟踪直至解决)。

最后,要注意软件运营版本管理。每个版本要附上增加的内容或变更的事项,以方便运维。(此条尤为重要,可明确此版本产品的系统边界;尤其接到客户电话时,防止尴尬和露怯)。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章