首页 > 文章中心 > 正文

管窥铁路信息系统的管理

管窥铁路信息系统的管理

1问题分析与建议

多年的信息系统运维工作的实践,笔者深深体会到,要做好相应的信息系统运维工作,必须把握好以下几点:

一是查找问题时要充分发挥相关部门的配合与组织协调。目前信息系统项目大部分都采用数据库加前台显现(B/S或C/S)结构的方式。很多信息系统项目都涉及到服务器、小型机、数据库、网络及中间件、应用业务等诸多方面。一旦系统出现问题,如何协调好相关部门和相关技术人员共同查找问题,对信息系统运维管理工作提出要求,比如用户反应某信息系统运行较慢,可能的会有网络、操作系统、数据库和系统本身等方面原因,要快速排除故障,需要协调好相关技术人员齐心协力解决问题。大型的信息系统项目,可能涉及到多业务部门的情况,比如车号识别ATIS系统涉及到:车辆、车务、通信、调度、信息等业务部门,快速排除故障,解决相关问题,需要运维管理人员提高自身的组织协调能力,做好部门内部的纵向协调和不同业务处室之间的横向协调。

二是加强运维专业技术人才队伍建设,充分发挥一线运维人员的作用,提高业务技能,调动积极性。信息系统的运维离不开一线人员的工作,特别是站段相关人员,他们直接面对生产,是相关信息系统的直接监控者和问题的第一处理者。铁路部门一直以来站段信息维护人员普遍收入相对较低,对信息工作的重视程度也相对不高,站段一线运维人员的综合业务水平相对偏低。平时信息系统在运行稳定时,运维工作相对轻松,同时工作环境相对舒适,给人的印象是运维工作不太重要,受重视程度不高。因此,调动一线运维人员的积极性对于适时的排查隐患、即时的故障处理与反馈很有必要。相关的业务领导部门可以每年定期举办相应的培训或相关的研讨班,大家交流自己的工作心得,共同提高。对于共性问题,比如服务器、小型机、操作系统、数据库、网络和中间件以及安上海铁道科技2013年第2期铁道集锦106全管理等,举办专题的培训班。相关信息系统的管理者要完善技术沟通的渠道,要让运维人员有一个交流的平台,同时建立问题处理知识库,提高运维效率。

三是重视机房环境建设,做好机房基础设施。多年的信息系统项目运行的实践表明,大型的信息系统项目故障大部分都与机房环境密切相关。这里的机房环境,包括机房电源及UPS、地线、制冷、防雷设施等。良好的机房环境是服务器、小型机和路由器、交换机平稳运行的基本条件。一旦这个基本条件出现问题,必定影响相关信息系统项目的平稳运营,即便是再高深的软件专家也无能为力。在这方面常见的问题主要有:机房零地电压偏高,达不到机器需求;有的信息系统机房只有一路电源,无两路电源;UPS常时间没做过充放电;无空调等制冷设施;雷击高发区的机房相应的防雷设施不到位等。因此,对于比较重要的信息系统机房,要加强机房环境设施的建设,平时对口部门要做好相应的检查。只有基础工作做得好了,才能谈得上相关信息系统项目的平稳运行。

四是做好备份应急和风险防范工作,确保备份系统能真正发挥作用。要保持好信息系统项目的平稳运行,平时须对系统项目做好备份,并且要尽可能做到备用的东西处于可用的状态。比如双机cluster,要保证在用的主机一旦出现故障时,备用机器能正常接管,保持信息系统的不间断运行。在保持好机房环境的情况下,信息系统项目发生的其它硬件故障大多数不可预测。在这种情况下,要保持信息系统项目的不间断运行,必须要使备份能尽快顶替上去,因此平时对备份系统的检查就很重要。如果是冷备,还必须要保证备份机器上的应用软件版本与主用的一致。对于相对重要的信息系统项目,在系统运行相当一段时间以后和重要的时间节点前,可组织相应的切换演练。适时重启服务器,可解除软件可能产生的系统死锁,释放相应的系统资源,同时也检查了备用机器的接管状态。对于比较重要的、不能间断运行的信息系统项目,例如客运售票系统等,要做好相应的灾备建设。六是完善监控手段,建立科学的快速反应体系。信息系统运营项目的监控不能完全依赖人力。大多数运维人员都遇到过夜间或周末必须赶到机房处理故障的尴尬情况或是重要的节假日,不能离开市区等要求。为把故障出现时的“救火”变成平时的“防火”,相关的信息系统项目可以参考引入自动检测,例如网络设施可以通过SNMP协议检测到网络的状态,以此判断网络通断。操作系统和数据库亦可以相关的日志检查有没有报错。如果有异常,及时给相关人员发出提示。可考虑引入短信或电话自动转发机制。一旦出现异常,自动把相关的短信内容等转发到相关负责人的手机上,增强运维系统的响应机制,需要注意的是,利用软件检测信息系统的运行,是要牺牲相关系统的部分运行效率为代价的。同时运维管理人员要合理安排相关技术负责人的响应。对于应急故障的处理,管理人员要协调好故障的配合检查,在追究故障原因的同时合理安排相关技术负责人的业务能力培训,故障的处理以尽快恢复生产为第一要务。重要的信息系统机房可以考虑引入互联网接入铁路网的联入方式,加快故障的响应处理时间。借助于建立的知识库和完善的检测手段,建立科学的快速综合反应体系。

2结束语

信息系统项目运维的目标是保持系统的平稳正常运营。围绕这个目标,要建立长效机制,杜绝面子工程,不断总结出现的问题,合理利用资源,建立员工业务素质提高体系和快速的故障反应机制,力争把信息系统项目的运营保障工作做得更好。

作者:赵光单位:上海铁路局信息技术所