首页 > 文章中心 > 正文

略说地震数据库维护现状分析及对策

略说地震数据库维护现状分析及对策

1现状

目前,Oracle数据库系统主要集中分布在国家中心、41个区域中心、33个应急中心、300个县节点、300个台站,其中双机系统79套,单机系统600套。而支撑行业数据库运行的硬件平台多样,部署方式复杂,具体表现在以下几个方面。数据库系统的部署环境多样复杂。双机数据库IT环境涉及到IBM服务器、曙光服务器和SUN服务器系统,以及数据存储系统EMC与HDS。数据库系统的技术结构复杂,管理难度高。系统大多采用Unix和Linux系统,数据库使用Oracle10gRAC,存储使用OracleASM管理。数据库系统地域分散。主要集中分布在国家中心、41个区域中心、33个应急中心、300个县节点和300个台站。系统管理分散。各级节点自行管理维护。在部分节点内部,服务器和操作系统一般按照业务应用分多个运行维护小组,各自管理维护。以上特点决定了地震行业数据库运行维护是一个复杂而艰巨的任务,需要总结多年来数据库运维过程中出现的问题,制定合理的运行维护策略,以保证数据库系统的正常运行。

2运行维护事件分析

为了更好地分析数据库运行维护过程中出现的问题,作者分析整理了近4年来数据库运行维护过程中出现的各类问题,其中系统故障6类、存储故障5类、网络故障3类、ASM故障11类、CRS故障8类、数据库本身故障12类及其它故障4类进一步对表1中7大类故障进行分析,可以看出存在以下问题:操作系统平台存在兼容性问题如部分省局数据库运行在曙光服务器上,操作系统为SUSE,操作系统与后台存储系统之间的衔接容易出故障。而采用IBM和SUN硬件平台的节点数据库系统就没有类似问题的发生。存储系统平台存在兼容性问题如应急数据库系统部署在HDS之上,HDS经常容易发生数据坏块的情况,造成数据库故障,如:表1中的存储故障;ASM故障的;CRS故障的等。日常维护存在问题在操作系统和存储系统软硬件平台不出现问题的情况下,需要维护人员每天、每周和每月定时做很多工作,如:查看磁盘空间使用情况、数据库告警日志等。而目前缺乏统一的规章制度与规范,督促维护人员完成这些日常工作,维护工作的好坏基本上取决于维护人员的责任心。再者,运行维护人员的水平较低,一些基本的数据库维护工作难以很好的完成。如果有一套健全的规章制度与规范,同时还有一批具有较高数据库运行维护经验的管理人员,那么上述7大类故障中的大多数故障是可以提前预防的。数据库管理和维护缺乏科学依据缺乏一套有效的数据库监控系统来对数据库运行状态的各关键指标信息进行数据搜集和统计,完成如日常性能监控、每月性能评估、数据库审计等人工工作量大,难以完成的工作,将数据库隐患消灭在萌芽状态。而在数据库运行维护中凸显出来的主要问题有:运行维护管理制度不健全。目前Oracle数据库管理被动、分散、管理规范不完善,如:缺乏统一的备份与管理策略、安全策略、管理流程等。运行维护人员技术水平较低。相对于专业的Oracle数据库运行维护人员而言,目前行业内的技术人员在数据库方面的运行维护技能水平较低,技术人员相对不固定。虽然技术人员通过了每年的技术培训,但在提高运行维护的能力方面还有待进一步提高。运行维护技术平台亟待建立。缺乏数据库基础运行环境(操作系统、存储系统和网络)的统一故障预警及故障监测机制。管理员对系统故障的反应速度无法提高,一般是在出现问题以后才进行查找及处理,难以充分保障关键业务系统的可用性,无法做到“主动式”系统管理。

3对策与建议

完善行业数据库运行管理制度以提高数据库运行水平和管理能力为目标,建立一套完整的流程管理规范,同时结合必要的工具管理软件,使主机、存储和数据库系统得到责任保障,保证数据库系统连续稳定运行。加强人员培训一般来说,地震行业比较注重硬件平台建设,而对流程和人员的软平台建设有所忽略。由于当前人员的技术水平还较低,再加之相关培训的不足,因此解决实际问题的能力和效率较低。为此需要开展相关的技术培训,以提高地震系统数据库的运行和维护技能。建立数据库运行维护技术支撑平台应建立数据库基础运行环境(操作系统、存储系统和网络)的统一故障预警及故障监测机制,由过去的“被动式”管理转变为“主动式”管理,以提高数据库管理人员对系统故障的反应速度,保障关键业务系统的可用性。建立数据库运行维护知识库开展数据库知识转移工作,建立一套持续机制,确保维护知识和技能的传承。将数据库运行维护中的每次事件、故障或者问题解决过程中所获得的解决方法和维护经验都记录下来,建立一个知识库,以提高对出现的事件及问题的处理效率。

4结语

本文仅针对目前存在的问题提出了一些方向上的解决办法。在未来的发展中,还需要将成熟的管理理论与具体的需求及目标结合起来,以探求出解决具体问题的方案。Oracle数据库系统的运行维护是一个需要长期面对的研究课题,应结合IT行业运行维护的相关管理理论,进行不断的开发和完善。

作者:周娜李永红李晓京张蕾单位:中国地震台网中心