首页 > 文章中心 > 正文

数字图书馆网络监管研究

数字图书馆网络监管研究

本文作者:黎九平作者单位:武汉交通职业学院图书馆

基于数据挖掘的数字图书馆网络安全管理模型

1数据采集

由于多源异构安全系统中的数据资源丰富,对数据源的采集借助Agent自动程序进行。Agent肩负双重任务:一是自动采集目标系统数据,并提交给Sever端进行处理;二是自动监控目标系统的变化,并及时更新变化。Agent自动程序采用多种数据采集策略(日志、Web、Syslog、命令行等)对多源异构安全系统中的数据(安全日志、报警、信息等)进行采集和标准化。这些安全系统在网络中往往是分布式的,并且具有不同的日志格式,Agent能够对它们进行统一信息提取,并将其标准化后以事件类型或XML封装的IDMEF格式发往Server端,以方便Server端进行挖掘。为了能够支持更多的安全系统,Agent使用配置文件采集信息,因而具有良好的扩展能力,能够动态添加新的数据源。

2数据整合与预处理

由于网络安全管理工具中包含了不同种类和厂商的安全产品,Agent从这些异构产品中收集到的数据大部分为多源性、分布性、异构性的数据,必须对其进行整合和预处理操作,以便进行智能分析,这是安全管理需要解决的首要问题。它不仅关系到管理系统能够支持的安全产品的种类和数量,还关系到分析结果的准确性,并且能够为提高数据挖掘引擎的效能和健壮性打下良好的基础。(1)报警格式标准化。由于各安全系统产生的安全事件的格式不尽相同,可能会对同一入侵事件同时产生多个报警,导致了冗余事件的产生,故需要用统一的格式对安全事件进行标准化处理。将报警格式统一。(2)报警字段规范化。每一个属性字段里的内容的表述规范化,如源地址和目的地址的表达(IP、主机名、MAC地址),时间属性值的取定和同步,攻击名称的统一等。这些处理主要是为了规范报警消息的表达,使之能够独立于具体的系统而识别报警并进行进一步的分析。(3)数据预处理。针对异构安全设备提交的各种报警信息,依据设定的时间段,消除冗余事件后并进行错误检测以确保报警不包含明显错误的报警数据库,漏洞信息库和资产库。包括重复的同一报警归一化;错误检测以确保报警不包含明显错误的信息,如非法的时间戳;冗余报警消除,即如果两个安全事件除了产生时间和安全系统号两个字段不同外其余字段完全相同,而产生时间的差异不超过某固定的阈值,则判断产生了冗余事件。对于冗余的安全事件,将其合并为一个事件,将事件的产生时间设为诸冗余事件中最小的产生时间,而将各冗余事件对应的安全系统号均添加到合并后安全事件的安全系统号数组中。

3数据挖掘

数据挖掘是整个安全管理模型的动力所在,通过定义数据挖掘模型语言,采用合适的数据挖掘算法和工具,对事件进行统计、关联分析、聚类、序列分析,形成对事件的判断,识别威胁和产生报警。(1)关联分析。关联分析是从网络告警信息中发现告警与告警之间、告警与故障之间、告警与业务之间的相关性,即在某一告警信息发生之后,另一告警、故障、业务发生的概率。采用基于协同和时序因果关联的多级报警分析技术能够有效地关联了这些报警日志及相关的背景知识,把真正潜在的危险的报警从海量日志中提取出,呈现给管理者。通过多种报警分析方式实现大量分散单一报警的关联,有效地识别出真实的入侵行为;并通过辅助决策系统和安全专家知识库为用户提供针对具体威胁的辅助决策建议。关联分析能够实现报警信息的精炼化,提高报警信息的可用信息量,减少报警信息中的无用信息,降低安全设备的虚警和误警。(2)聚类分析。聚类分析采用特征聚合和模糊聚类两种技术来实时地压缩重复报警,去除冗余。特征聚合是通过比较报警的属性特征,快速地辨别和合并重复的报警;模糊聚类是通过计算报警之间的相似度,来构造模糊等价矩阵进行聚类分析,以区分和归并难以发现的重复报警。特征聚合和模糊聚类两种技术合理结合,相互补充,不仅缩短了压缩时间,保证了实时性,而且提高了压缩效率。聚类分析减少了在异构分布环境下相似事件的数量,突出相似安全事件的属性特征。(3)序列分析。序列分析把报警数据之间的关联性与时间性联系起来,通过时间序列搜索出重复发生且概率较高的规则,其目的是为了挖掘数据之间的联系。序列分析把告警序列作为以时间为主线的有序序列,在一定的时间间隔内挖掘知识,注重告警信息的时效性,为了提高分析的效率,一般只对告警类型和告警时间两类谓词进行挖掘,从中发现告警信息发生的趋势,提高用户的自我防范和预测能力。产生的序列规则主要描述告警之间在时间上的关系,即如果某些告警信息的组合在一个时间段内发生,那么在另外的一个时间段内会有另外一些告警信息的组合发生。

4用户接口

用户接口的作用是将数据挖掘的结果以可视化的方式提供给系统分析员,系统分析员根据挖掘结果来预测此网络行为的发展态势和可能影响,并作出相应的决策。挖掘结果分为3类:(1)信息类。对应于最低级的告警,挖掘结果保存入数据库中供下次再分析。(2)警告类。对中等级别的告警,挖掘结果除送入数据库外,还要进一步分析,并做出相应的决策。(3)严重类。对应于高级别的告警,根据预先设定的阀值采取特定的动作,例如防火墙规则的添加,IDS系统的报警等。

5信息库

信息库由资产信息库和知识库组成,其中资产信息库包括主机信息库、漏洞信息库和网络信息库,知识库主要包括攻击知识库和背景知识库。主机信息库包含各个主机的相关信息;漏洞信息库是独立的数据库;网络信息库主要由两部分组成,一是利用网络管理工具进行流量分析和拓扑发现得到的相关网络信息,二是对防火墙中的日志进行分析得到的信息。信息库的使用极大提高了挖掘引擎的工作效率和智能性。

实验与分析

1实验环境与实验数据来源

(1)实验环境:①内部网络环境包括运行OpenNMS网络管理系统的DebianLinux主机,安装MySQL数据库的主机,运行客户端(安装Nessus漏洞扫描系统、Nmap网络拓扑扫描工具)Windows主机,系统服务器(agent+server,安装了SnortIDS,P0f,Pads,SSH,Iptable等插件)DebianLinux主机。②采取Cisco-PIX防火墙、入侵检测系统等硬件安全设备及交换机、集线器等网络设备。③来自外网的攻击主机。(2)实验数据来源:实验中的原始网络数据包括正常的网络流量和攻击数据流,测试数据是DARPA2000数据集LLDOS1.0。该数据集包含大量的正常背景数据和各种攻击数据,其中包括DDoS攻击,测试目标是检测模型精简报警的效率及识别DDoS攻击场景的能力,这些攻击通过从外部攻击主机重放来模拟来自外网的攻击。同时在攻击过程中,要有一部分正常Internet的网络流量。实验过程中,我们收集了来自下列安全设备的报警或数据:Snort入侵检测系统、Iptables防火墙、Apache服务器日志、IIS服务器日志、Nmap网络拓扑结构扫描工具、Ntop网络流量检测工具、Nessus网络漏洞扫描系统。利用Netpoke(Tcpdump文件重放工具)对数据进行重放,由Snort2.0入侵检测系统、Cisco-PIX防火墙等其他插件检测和产生报警数据,并对其进行报警整合和挖掘。

2实验结果分析

通过实验,我们收集了以下的实验项目:报警3865次,聚合120次,验证124次,攻击12次,场景分析4次。通过计算,实时压缩率为94.56%,误报率为2.22%,攻击构造率为0.31%,场景检测率为0.103%。从实验结果看,实时压缩率达到94.56%,主要聚合了ICMPPing端口扫描和DDoS产生的报警。由于数据集本身没有提供被保护网络的资源配置信息,存在一定程度的误报,因而需要对压缩后的报警进行报警验证。将验证后的报警分别进行因果关联,构造攻击场景图,其中的12条报警互相关联在一起构成了DDoS攻击场景;再根据动态关联规则进行动态关联,实时匹配了4个攻击场景,包括RPCsadmindbufferoverflow、Webattack、DDoS、attack等。因此,基于数据挖掘的网络安全模型能够有效地从大量安全事件中准确识别出真实的攻击行为,从而实现报警信息的精炼化,提高报警信息的可用信息量,减少报警信息中的无用信息,降低安全设备的虚警和误警。实验结果表明,本文提出的基于数据挖掘的数字图书馆网络安全管理模型能够有效地提高数字图书馆网络安全防护能力。该模型智能性好、自动化程度高、检测效果好、自适应能力强,能够满足新的安全形势的需要。