昨日接到通知,大学研究院实验室发生dtm运行过程中报错。
前去了解,解决。
首先了解到整个网络拓扑,为一个简单的局域网络,内建ad域控。
接着了解整个dtm运行的业务流程。
研究员的pc作为console向dtm sever发送运算请求,传输指令。
dtm server通过域控取得域中所有dtm 运算client设备的管理权限。抓取所有client的当前系统状态,如果还有资源分配,即分配运算任务。
dtm 运算client将运算结果写到指定的服务器上,通过windows的文件共享协议。传输数据量较大。
解决步骤
由于以前在公司研究院机房发生过由于Task Scheduler服务被恶意添加了rundll32.exe 加载不明的文件注入svhost造成网络故障的问题。首先对系统的任务计划,regedit里面的run项目进行了检测。为发现异常问题。排除为***病毒。
在不跑运算的情况下,测试服务器137、138、139、445端口。139端口正常。排除防火墙限制端口的问题。
进一步了解,所有发生故障时候,系统的computer browser服务会宕掉。这是造成写入丢失网络名的核心问题。
按照以往经验,由于网络中没有wins服务器,机器名对应ip地址不会很稳定。所以对局域网内的wins进行了优化,手动写入wins服务器指向域控地址。
通过测试,没有发生cb服务立即挂的现象。但是在40分钟以后,还是发生了。而且是局域网内所有的dtm client全部cb服务挂掉的问题。
立刻将问题对焦到域控服务器上。通过也在网上搜索,发现一篇文章:http://hi.baidu.com/simadi/blog/item/7d993812befc815bf919b884.html
里面介绍了比较类似的案例,称第三方防火墙取代ics服务后,系统cb不稳定起来。
据此查看域控服务器的状态,确实ics被停了。
于是把系统中原来的nod32,及防火墙停掉。启用ics服务。
再次测试,一小时都未发生故障。
交代继续测试,下午下班前也没有收到错误反馈。