首页 > 文章中心 > 网络流量分析的方法

网络流量分析的方法

网络流量分析的方法

网络流量分析的方法范文第1篇

关键词:网络服务器;流量分析;流量监控

中图分类号:TP393 文献标识码:A文章编号:1007-9599 (2010) 05-0000-02

Network Server Traffic Analysis

Zhu Ye

(TravelSky Technology Limited,Beijing100029,China)

Abstract:This article analyzes the current status of the network server traffic analysis.discusses the significance of monitoring and analysis on the server traffic and summarizes main content.Then,the article provides solutions on the server traffic based on the agreement of Net flow v9、IPFIX and PSAM.At last,proposes software framework design pattern.

KeyWord:Network Server;Server Traffic Analysis;Server Traffic Control

一、前言

今天的数据网络给我们的生活、工作和人与人之间的沟通带来了极大的方便,网络业务日趋丰富,网络流量高速增长。同时,网络运营商之间的竞争也逐渐激烈,以高投资为特征,追求简单规模扩张的粗放型竞争模式已经不适应当前的形式。挖掘现有网络资源潜力,控制网络互联成本,提供有吸引力的增值业务,提高网络运维水平成为在激烈竞争中的制胜策而要实现这些,都离不开可靠、有效的网络流量监控的有力支撑。

二、网络流量监控和分析的意义

用户现有的网络管理系统在长期的网络流量分析方面存在不足。主要表现在如下方面:

(一)长期的网络和应用问题分析能力不足

现有的网络管理系统无法长期的纪录网络和应用的运行状态,无法长期的保存网络流量信息,在出现网络或应用问题时,不能为网络技术人员提供有效的信息依据,问题往往是依靠网络技术人员通过推断来分析,这样网络问题的分析效率很低,同时很难得到确实的分析结论。

(二)缺乏对网络和应用间歇性问题的分析能力

网络或应用可能出现间歇性故障,这种故障的出现一般很难判断,在出现后很难分析其产生原因,而再次出现的时间无法确定,因此难以解决,好像网络中存在一个不定时的炸弹,使用户网络和应用时刻处于危险之中。

(三)对网络安全问题的分析能力不足

在发生网络安全问题时,缺乏有效的监控分析手段,导致网络的安全性降低,例如蠕虫病毒的爆发,应该能够对蠕虫病毒的传播情况进行有效的分析。

三、网络流量分析内容

流量分析系统主要从带宽的网络流量分析、网络协议流量分析、基于网段的业务流量分析、网络异常流量分析、应用服务异常流量分析等五个方面对网络系统进行综合流量分析。

(一)带宽的网络流量分析

复杂的网络系统上面,不同的应用占用不同的带宽,重要的应用是否得到了最佳的带宽?它占的比例是多少?队列设置和网络优化是否生效?通过基于带宽的网络流量分析会使其更加明确。工具主要有MRTG等,它是一个监控网络链路流量负载的工具软件, 它通过snmp协议从设备得到设备的流量信息,并将流量负载以包含PNG格式的图形的HTML 文档方式显示给用户,以非常直观的形式显示流量负载。

(二)网络协议流量分析

对网络流量进行协议划分,真对不同的协议我们进行流量监控和分析,如果某一个协议在一个时间段内出现超常暴涨,就有可能是攻击流量或蠕虫病毒出现。Cisco NetFlow V5可以根据不同的协议对网络流量进行划分,对不同协议流量进行分别汇总。

(三)基于网段的业务流量分析

流量分析系统可以针对不同的VLAN来进行网络流量监控,大多数组织,都是不同的业务系统通过VLAN来进行逻辑隔离的,所以可以通过流量分析系统针对不同的VLAN 来对不同的业务系统的业务流量进行监控。Cisco NetFlow V5可以针对不同的VLAN进行流量监控。

(四)网络异常流量分析

异常流量分析系统,支持异常流量发现和报警,能够通过对一个时间窗内历史数据的自动学习,获取包括总体网络流量水平、流量波动、流量跳变等在内的多种网络流量测度,并自动建立当前流量的置信度区间作为流量异常监测的基础。能把焦点放在组织的核心业务上。通过积极主动鉴定和防止针对网络的安全威胁,保证了服务水平协议(SLA)并且改进顾客服务, 从而为组织节约成本。异常流量分析工具主要有Arbor公司的 PeakFlow DoS安全管理平台、PeakFlow Traffic流量管理平台等。

(五)应用服务异常流量分析

当应用层出现异常流量时,通过IDS&IPS的协议分析、协议识别技术可以对应用层进行深层的流量分析,并通过IPS的安全防护技术进行反击。

四、网络流量控制解决方案建议

对于目前运营商对网络流量控制的需要,论文推荐的流量控制解决方案构架是:全网集中监视+重点控制。全网集中监视反映的是对整个网络的性能监视和分析。重点控制是在网络中的关键位置部署监控探针,在网络中心设置管理系统,以实现运营商在远程对重点地区进行更加细致的监视和控制作用。

(一)监控探针的放置点建议

国际出口、网络互联端口、骨干网的重要中继、重要城市的城域网出口等位置。

(二)全网集中监视主要实现的功能

实时监测网络状况。能实时获得网络的当前运行状况,减轻运维人员工作负担。能在网络出现故障或拥塞时自动告警,在网络即将出现瓶颈前给出分析和预测。

合理规划和优化网络。通过对网络流量的监视、数据采集和分析,给出详细的链路和节点流量分析报告,获得流量分布和流向分布、报文特性和协议协分布特性,为网络规划、路由策略、资源和容量升级提供依据。

引导提供网络增值业务。通过对业务占用带宽的分布、业务会话的统计分析,能够了解和分析网络特性和用户使用偏好,引导开发和规划新的网络应用和业务平台,进行增值业务的拓展和市场宣传,引导用户需求。

灵活的资费标准。通过对用户上网时长、上网流量、网络业务以及目的网站的数据分析,摆脱目前单一的包月制,实现基于时间段、带宽、应用、服务质量等更加灵活的资费标准。

(三)重点控制实现的功能包括

提供主动的控制功能。不仅仅局限于对网络流量状况的获得,还能够提供基于网络流量监测系统GATE 1000硬件平台和业界领先算法的流量控制功能,主动改进网络服务。

满足重点监控需要。可以提供丰富的监控特征参数,可以进行灵活的复合设定,全面满足运营商需要,也可以通过定制来实现特定要求。

降低互联互通成本。获得重点出口中继链路的利用率、用户和协议分布、源和目的网段间的流量分布和趋势,提供运营和互联成本分析。为网络互通、租用中继以及选择商业战略伙伴决策时提供科学依据,降低成本。

实现区分服务,保证服务质量。流量监控获得的数据,可进行高低优先级客户的网络资源占用率分析、服务质量的监测。通过资费政策的调节、业务等级的区分、在中继线路上实施流量控制,优先保证高优先客户的服务质量。

网络安全和抵御DOS攻击。通过连接会话数的跟踪,源目的地址对的分析,TCP流的分析,能够及时发现网络中的异常流量和异常连接,侦测和定位网络潜在的安全问题和攻击行为,保障网络安全。

五、IPFIX与PSAMP标准

IPFIX(IP Flow Information Export,IP流动信息输出)是IETF的技术人员2004年才制订的一项规范,使得网络中流量统计信息的格式趋于标准化。该协议工作于任何厂商的路由器和管理系统平台之上,并用于输出基于路由器的流量统计信息。

IPFIX定义的格式为Cisco的NetFlow Version 9数据输出格式作为基础,可使IP流量信息从一个输出器(路由器或交换机)传送到另一个收集器。因为IPFIX具有很强的可扩展性,因此网络管理员们可以自由地添加或更改域(特定的参数和协议),以便更方便地监控IP流量信息。使用模板的方便之处在于网管和厂商不必为了用户能够查看流量统计信息,而每次都要更换软件

为了完整地输出数据,路由器一般以七个关键域来表示每股网络流量:源IP地址、目的地IP地址、源端口、目的端口、三层协议类型、服务类型字节、输入逻辑接口。如果不同的包中所有的七个关键域都匹配,那么所有这些包都将被视为属于同一股流量。此外,一些系统中还有为了网络统计进行跟踪而附加的非关键域,包括源IP掩码、目的地IP掩码、源地址自治系统(autonomous system)、目的地自治系统、TCP flag、目的地接口以及IP next-hop等。按照IPFIX标准,如果网络操作人员想以附加的非关键域来描述包,那么基于模板的格式会在输出包的报头之后插入一个新域,并新增新的模板记录。

六、网络监测系统框架

采用不同的检测方法,通过分布式监测方式对通过高速IP网络的数据包进行统计和分析。采集服务器搜集的数据包及统计数据被传送到综合服务器,经合并处理后存入数据库,并进行进一步的分析处理。在这个过程中,可应用Netflow v9、IPFIX以及PSAMP等标准和协议,实现对采集数据的编码与传输。与通常的SNMP、Netflow及其它网管标准不同的是,该框架采取了PSAMP标准及技术,在不降低监测与分析效果的情况下,尽量减少检测数据量。

整个框架从总体看,可分为网络流量数据采集和网络数据分析两大部分。

网络流量数据采集:为适应不断发展的高速网络应用,框架中采用了分布式网络流量数据采集方案,IP流数据可从不同的设备以不同的方法来获取。利用路由器/交换机的数据流量采集功能或是从其他IPFIX/PSAMP数据采集设备,也可直接从网络接口卡等网络数据包摄入设备来得到网络数据,然后再以不同的标准,最终由网络流量数据采集服务器将所有传来的不同格式的数据集中。

为体现现代计算机应用中的兼容性,框架中对网络硬件接口的应用方面,突出了其应用多样性。这样,在原有硬件设备的基础上,如普通的网卡(NIC)、基于硬件时间戳的Endace DAG卡或者其它的专用FPGA网络接口设备,都可以在libpcap、winpcap等库的支持下,由BPF虚拟处理器作为缺省的包捕获工具。在包捕获的软件实现上,采用了多线程机制,使用不同形式的数据队列和数据缓冲设备,以应对突发的大量数据包。

接下来对捕获的数据包,分别交由两种方法和途径进行处理:在Netflow标准支持下,同步完成记帐业务。在这种操作模式下,传送的总的数据量可以被统计下来。数据分析模块利用PSAMP协议,根据不同的具体需求采取不同的取样算法,对数据包进行过滤和抽取以进行分析处理。这样就可以根据实际的需要来进行选择,以减少传输和分析处理的数据量。

网络数据分析:对采集来的网络流量数据,根据不用的应用要进行详细的分析处理。框架中这个部分的设计采用以SQL数据库为中心的分布式数据集中和分析的方法。

以DBMS为中心的操作可以获得更好的分析样本以及统计粒度。此外,为便于网络管理人员的操作,框架中应用基于Web的直观的、图形化的管理界面,所有数据输出都以脚本语言(XML)的形式,直接在Web页面中显示。管理人员可以实时观察网络运行状况,还可以对历史数据进行浏览、分析,同时还可这些实时数据传送到其他应用系统,如分布式入侵检测系统、网络跟踪等。

七、结束语

总的来说,在网络设备上配置网络流量监控系统,对网络流量进行分析和监控,好处还是显而易见的。特别是对于网络流量负荷比较大的网络。可以有效的节省网络带宽和处理资源。也可以作为计费或者流量控制或者网络规划的参考。

参考文献

[1]谢希仁.计算机网络.大连理工大学出版社

网络流量分析的方法范文第2篇

关键词: 流量分析;重要端口号;算法思想

中图分类号:TP311 文献标识码:A 文章编号:1671-7597(2012)1210095-01

1 两种不同网络类型的数据流量

在C/S(客户机/服务器)结构中,客户机发送一些请求,服务器为每个请求做出回复。在客户机间不直接传递信息,客户机必须通过服务器把信息发送给其它客户机。这种数据是定向流动的,几乎都是从服务器到客户机。然而在P2P网络结构中每台主机同时担任服务器和客户机角色,对等主机之间可以直接进行数据交换。

2 P2P网络应用的类型

在P2P网络应用程序中,可以分为两类:一是即时通信应用,如MSN和雅虎信使。实时通信程序的主要功能是信息传递,实现1对1或者1对多式用户交流和文件转存。二是文件共享应用,如Napster。文件共享程序的主要功能是查询和文件转存。然而P2P应用程序的联系分两种:一种是中心仲裁式,另一种是纯分布式。大多数实时通信应用程序系统使用中心仲裁,在这种联系方式中,一个或多个核心服务器存在,这些服务器包含所有主机的信息并且把信息发送给请求的主机。在纯分布式中没有中心服务器,在搜索效率和文件传输上都不是很好。实际在P2P网络应用程序使用中存在这两个不同类型的混合通信。

3 P2P网络数据流量分析算法的主要思想

传统的数据流量分析主要是以端口号为基础的分析和对有效载荷的检测分析,而在P2P网络中,这种方法不太适用。比如网络流量中,HTTP通常使用的端口号是80或8080,HTTPS使用端口号443,在P2P网络数据流量中,端口号检测不是那么简单,因为它们使用的端口号超过1024,通常是动态生成的端口号。

因此设想,如果所有的P2P数据流量可以在整个流量中分离出来,然后根据其应用程序的名称分组,那么就可以对P2P网络数据流量进行高精度地分析。基于此,我们提出了一种新的数据流量分析算法。

该算法不检查每个数据包的有效载荷,只使用每个数据包的头信息。主要包括四个过程,分别是应用端口表、重要端口号选择、流量关系图和数据流量分组。算法思想首先是构建应用端口表。它是通过离线穷举搜索方法和数据包分析工具对每个对等网应用程序进行检测与分析,包含应用程序的名称、其经常使用的端口号和协议。其次是重要端口号的选择。从捕获的数据包中分析信息:源地址、目的地址、源端口、目的端口号、协议号。因为源端口和目的端口号通常超过1024,从随机生成的端口号中区分对于P2P应用程序重要的端口号。

第三步是生成流量关系图。大多数P2P应用程序具有多个支持的功能,在相同P2P流量中有可能发现它们之间的关系。对前三个过程的结果进行分析,按照对等网应用程序的名称与关系确定流量分组。分组信息用于P2P应用程序决策,从而提高分析的精确度。

4 P2P数据流量分析系统的设计

根据以上算法,我们设想了P2P网络流量分析系统,用于实时流量的监控和分析。该系统主要包括三个模块,分别是应用端口表模块、重要端口选择模块和流量关系图模块。其中,重要端口选择模块由一个数据包捕获器、一个数据流发生器和一个同步分组表组成。数据包捕获器从一个网络链接接收原始数据包,并生成数据包的头信息,分组头信息被发送到数据流发生器里。如果一个数据包是同步数据包或准同步数据包则被存储在同步分组表中。数据流发生器查找同步分组表,并从每个数据流中选择一个重要端口号。重要端口选择模块依靠网络连接环境在一个单一的系统或多重系统中实现选择。假如数据包在一个单一系统中被捕获,重要端口选择器可以在一个单一的系统中实现;如果有多个捕获器被使用,那么重要端口选择器模块应分为高、低级两层次。最后,流量关系图模块对数据进行分析,并生成流量关系图。

5 总结

本文说明了P2P网络流量的特点和现有的分析机制不适于当前网络流量分析的原因,并提出了算法思想,其与过去相比复杂而精确。利用该算法设计了一个分析系统,使用该系统可以分析大量的未知的无法用传统分析方法进行监控的数据流量。另外,该算法还可以进一步改进,特别是数据流量关系中的算法。该算法还可以应用于其他网络类型中数据流量的监控与分析,比如网络游戏和网络流媒体等数据处理业务中。

参考文献:

[1]刘芳,网络流量监测与控制,北京邮电大学出版社,2009年9月.

[2]高彦刚,实用网络流量分析技术,电子工业出版社,2009年7月.

网络流量分析的方法范文第3篇

关键词:分形理论;校园网;网络流量;自相似性.

中图分类号:TP393文献标识码:A文章编号:1009-3044(2012)11-2472-03

Analysis of Campus Network Traffic Characteristic Based on the Fractal Theory

MAO Ke-hong,DENG Wen-jian, HUANG Wang-hua

(Department of Information Engineering, Guangdong Textile Polytechnic, Foshan 528041,China)

Abstract:This paper uses the fractal theory to establish the ON / OFF collection model of campus network traffic, we collect the campus network data by the sample capture technology, and compute the Hurst parameter to check the self-similar degree of network traffic by using the R/S analysis method and the variance-time diagram method, and then analyses the Self-Similarity of Campus Network Traffic。We also discuss the influence to the behavior characteristics of network traffic by the self similarity on campus network.

Key words:fractal theory; campus network; network traffic; self-similarity

目前,国内外对网络流量的研究非常重视,开展了大量的研究工作。自1993年Leland对Ethernet流量进行测量,提出了实际的网络流量符合自相似特征以来[1-2],后续研究人员进一步考察了WAN、WEB等研究对象,发现自相似特性在网络中是普遍存在的。在国内,也有很多人在从事网络流量特别是校园网流量的分析研究工作,大部分集中在流量测量、流量建模、流量仿真和拥塞控制等几个研究领域,而运用分形理论和小波分析研究校园网流量的特性分析研究才刚刚引起重视,而基于分形理论的自相似性正成为网络流量研究的一个热点课题。

随着校园网网络流量的不断增长以及网络应用的日趋纷繁复杂化,简单、无限制地增加网络带宽已不能解决网络流量的根本问题。许多高校的校园网经过扩容扩建,带宽有了明显的提升。然而伴随着P2P应用、视频点播等网络应用却消耗了绝大部分的带宽资源,造成网络拥塞,严重影响广大师生正常使用校园网。为了提高网络服务质量,需要对校园网流量特性进行分析和测定,找出其内在的行为特征,优化校园网管理,引导校园网的网络流量分布更趋合理。

该文以广东纺织职业技术学院校园网为研究对象,通过对采集到的网络流量进行数据分析处理,分析流量行为特征,以探讨其对校园网网络性能的影响,为进一步研究打下理论基础以及为校园网管理和数字化校园建设提供可行性的决策参考意见。

1分析理论及自相似性简介

在分形理论的研究中,自相似是相似中的一种特殊情况,它是指系统的部分和整体之间具有某种相似性,这种相似性不是两个无关事物间的偶然近似,而是在系统演化中必然出现并始终保持的[9]。

自相似性实际上就是局部以某种方式与整体相似。但是这种自相似性通常并不十分严格,而是从统计意义上来讲的,即局部适当放大后,与整体具有相同的统计分布。

令{Xt,t∈Ν}表示一随机过程,{ } Xt的m阶聚合序列为X(m)={Xi(m),i=1,2,?},其中,Xi(m)=(X(i-1)m+1+?+Xim)/m;r(k)和r(m)(k)

分别表示Xt和Xi(m)具有有限均值和方差的自相关函数。如果对于k≥1,有r(m)(k)~ 12((k+1)2H-2k2H+(k-1)2H),m∞。则称Xt具有参数H的渐进二阶自相似序列。H称为Hurst系数,它的取值范围是( 12

2校园网网络流量数据采集分析

该文采集的校园网网络流量数据来自于广东纺织职业技术学院信息中心连接外网重要出口,即在校园网连接外网的核心交换机的出口端口上进行数据包获取,然后通过建立流量采集分析ON/OFF模型将采集到的网络流量数据进行数据处理和分析。

2.1 ON/OFF网络流量模型

ON/OFF流量模型是对传统模型的扩展,是一种最简单的突发业务模型,其将自相似过程看成是无数用户数据源叠加的结果。即模型定义了大量的ON/OFF数据源,每个源有ON和OFF两个状态,各个发生源在ON或OFF时相互独立且状态持续时长符合重尾分布。

当数据源业务处于O N状态时便以恒定的速率产生数据,而处于OFF状态时则不产生任何业务数据。我们假设网络上传输的多业务数据源为上述若干个单个ON/OFF业务源的叠加,单个业务源ON状态持续时间为ρ(i),OFF状态持续时间为θ(i)。随机变量ρ(i)独立同分布,其分布函数为:P(ρ>t)~tα,t∞,1

2.2校园网网络流量的数据获取

该文采用抽样抓包技术采集校园网网络数据进行统计分析的方法,相对于使用SNMP协议获取网络数据的优势在于[6]:抽样抓包技术采集网络流量数据可以知道各个IP地址对之间的流量,而SNMP协议获取的数据包一般只包含交换机端口的字节数和数据包个数,不能知道这些网络流量里面的各种IP流量,例如TCP、UDP、HTTP、FTP流量各占占多少比重。因此采用抽样抓包技术采集到的数据包含了大量丰富的信息,有利于我们详细了解整个校园网网络流量的状况。

笔者于2012年2月在广东纺织职业技术学院信息中心的交换机端口处利用抽样抓包技术分别在空闲时段(非上班时间)和繁忙时段(上班时间)采集到了2条网络流量数据(见表1)。

表1校园网网络流量数据概述

3校园网网络流量自相似特性分析

校园网网络流量的自相似特性可以直观地理解为在多个时间尺度上具有统计自相似的特性,而且在各个时间尺度上都具有十

分强的突发性[1]。

由前面可知,判断分析校园网实际网络流量在不同时间尺度下的达到过程是否为为自相似过程可以转化为估算Hurst参数值的范围是否在(0.5,1)之间。而在计算网络流量自相似参数H前,要先把去噪后的数据提出来,然后再对处理过的数据进行分析计算。在自相似分形理论研究当中,估算自相似参数H有方差-时间图、R/S分析、周期图、Whittle最大似然估计和小波变换分析方法等。笔者在此主要使用R/S分析法和方差-时间图分析法。

3.1 R/S分析法

R/S分析法通过改变所研究的时间尺度大小来研究其统计特性变化的规律。对于在离散时刻取值的随机序列X(t)={Xt,t=0,1,2?},X(t)在时间T段上的重整化范围定义为比率R S:

其中,A(T)是在时间段T上的采样平均:A(T)=

Xj;R表示过程变换范围的度量;S表示采样标准差。当T∞时,有R/S~TH,1/2

3.2方差-时间图分析法

对于一个具有自相似过程的聚集时间序列Xm,当m∞时,其二阶特征方差服从:

Var(Xm)~Var(X)/mβ

其中,自相似参数满足H=1-(β/2)。

这个式子可以写作:log[Var(Xm)]~log[Var(X)]-βlog(m),而log[(Var(X))]是与m无关的常数,从对数-对数图上可以看出其方差Var(Xm)是m的函数为一条斜率为-β的直线。如果β在(0,1)之间取值意味着具有自相似性,通过公式H=1-(β/2),就可以计算出Hurst参数值。

对于采集到的网络流量数据持续时间为前分别利用以上所介绍的R/S分析法和方差-时间图分析法,结合Matlab软件对数据进行分析处理,从而来估算其Hurst参数。如图1和图2可以看到Hurst参数在0.68和0.70左右,这个时间段是校园网网络流量的空闲时段。

同理,按照以上两种方法估算Hurst参数,结果见图3和图4。可见Hurst参数在0.8到0.9之间,而这个时间段是校园网网络流量的繁忙时段。

基于以上针对校园网网络流量数据的统计分析处理,得到如表2所示的统计结果。其所测网络流量的自相似Hurst参数均在(0.5,1)之间,验证了校园网网络流量的确存在自相似性。

表2校园网网络流量自相似参数统计结果

4结束语

通过以上网络流量数据的测量分析,可见校园网网络流量的自相似性程度与网络繁忙程度有关,网络越繁忙即H值越大,则自相似性程度越高。而对校园网流量处于繁忙与空闲时段的Hurst参数估计发现,繁忙时段网络流量的Hurst参数明显要高于空闲时段网络流量的Hurst参数。

笔者采用R/S分析法和方差-时间图两种不同方法分析了不同时间尺度下网络流量数据,并对Hurst参数进行估计,通过测量数据和结果图可以看到校园网流量具有统计上的自相似特性。然而,校园网网络流量产生自相似特性的原因,以及其对校园网网络行为特征的影响,还有待我们进一步研究。

参考文献:

[1] Leland W E,Taqqu M S,Willinger W,et a1.On the Self-Similar Nature of Ethernet Traffic[C]//Proc of ACM SIG-COMM’93,1993.

[2] Leland W E,Taqqu M S,Willinger W,et a1.On the Self-Similar Nature of Ethernet Traffic [J].Computer Communications Review,1993,23(4):183-193.

[3] Leland W E,Taqqu M S,Willinger W,et a1. On the Self- Similar Nature of Ethernet Traffic [J].IEEE/ACM Trans, on Network-ing, 2001,2(1):1-15.

[4] Taqqu M S,Willinger W,Robert S.Proof of a fundamental result in self-similar traffic modeling[J].ACM Computer Communication Review, 1997,27(2):5-23.

[5]何晶,李仁发,喻飞,等.校园网流量自相似性研究[J].计算机工程与应用, 2004(2):7-9.

[6]林兆启,林南晖,汪继东.校园网网络流量自相似性的测定[J].计算机工程与科学, 2008, 30(6):29-32.

[7]胡茂龙.校园网流量的分形特征[J].合肥工业大学学报:自然科学版, 2008,31(9):1465-1467.

[8]王荣,万振凯.校园网流量监控与优化研究[J].天津工业大学学报, 2010, 29(2):68-72.

网络流量分析的方法范文第4篇

近十几年来,互联网得到了飞速发展。据统计,互联网目前已成为人类社会最重要的信息基础设施,占人类信息交流的80%。在这种大背景下,面对日益复杂的网络联机及逐渐增加的网络流量,系统和网络管理者必须花更多时间和精力来了解这些网络设备的运作状况,以维持一个企业网络的正常运作。一般来说,网络管理者需要了解各个网段频宽的使用率、网络问题的瓶颈发生于何处,一旦网络发生问题,必须能够很快地分析和判断出问题的发生原因,这些就是网络流量管理的主要工作内容。那么,管理网络流量的时候应该基于什么样的依据,通过什么手段和策略有效地把流量进行识别、分析和管理呢?

网络流量管理的目标

随着网络流量的不断增长以及网络应用的日趋纷繁复杂化,我们不难看到,简单、无限制地增加网络带宽是不能解决网络流量的根本问题的。我们需要对网络流量进行管理,从而保证网络的健康和网络应用的正常服务。

在网络流量管理的过程中,我们首要的问题就要明确网络管理目标。在网络流量管理主要有4个目标: 首先,我们要了解网络流量的使用情况; 其次,要找到优化网络性能的途径; 第三,要通过网络管理技术来提升网络效能; 最后,还需要做好网络流量信息安全方面的防护工作。

要达到上述4个目标,网络管理员首先要通过有效的分类方式非常明确地知道,我们需要的带宽到底哪些是实际使用的。其次是找到网络性能的瓶颈。网络性能有两个很重要的指标,一个是吞吐量,即网络能够传输的最大数据量,另一个是延迟等。第三,应用成熟的流量监控及控制软件来提升网络性能,从而满足不同的网络应用需求。最后,网管们还可以综合运用入侵检测系统(IDS)、防火墙、统一威胁管理(UTM)设备来对网络流量进行信息安全方面的防护工作。

在日常的网络流量管理中,为了有效实现网络管理4个目标,我们需要采取相应的步骤。这个步骤包括网络流量捕捉和分类、网络流量监视(统计和分析)和控制策略。

1. 网络流量捕捉和分类: 这是进行网络流量管理的第一步。只有通过设置捕捉点,对网络流量进行捕捉和分类,才能进行后续的分析和控制工作。这里特别需要强调的是,网络流量分类可以非常宏观化,也可以细化。比如TCP、UDP、ICMP等分类就比较宏观,而HTTP、FTP甚至是诸如Kazza、Skype等P2P流量的分类和识别就比较细化了。在日常工作中,网络管理员可以采用Wireshark、TCPDump等知名的报文捕捉和分析软件进行流量捕捉和分类工作。

2.网络流量监视(分析): 监视用来显示流量的运行状况,帮助找出问题所在和执行相应的管理策略。应用程序和网络管理能够收集分类、展示和收集信息,包括带宽利用率、活跃的主机和网络效率以及活跃的应用程序。该目标可以通过采用市面上常见的NTOP等可视化分析管理工具来协助网络管理员在实际工作中实现。

3. 控制策略: 网络流量分析的下一步是根据优先级别分配带宽资源。分配的依据可以是主机、应用等等,特别需要考虑的是注意将消耗资源的P2P程序或者音频视频下载等进行滞后考虑。具体操作时可以应用流行的流量控制工具来进行和实现,如进行分类监视和控制网络流量,这样,我们就可以将网络流量有效管理起来,将原来无序的网络流量变得有序起来。

以下我们具体介绍如何进行网络流量管理工作,包括网络流量的识别、网络流量的分析和控制。

网络流量的识别

流量识别,也叫业务识别(Application Awareness),是网络流量管理的第一步。网络流量识别通过对业务流量从数据链路层到应用层的报文深度检查分析,依据协议类型、端口号、特征字符串和流量行为特征等参数,获取业务类型、业务状态、业务内容和用户行为等信息,并进行分类统计和存储。业务识别的基本目的是帮助网络管理员获得网络层之上的业务层流量信息,如业务类型、业务状态、业务分布、业务流量流向等。

业务识别是一个相对复杂的过程,需要多个功能模块的协同工作,业务识别的工作过程简单描述如下:

1. 识别处理模块采用多通道识别处理,通过对网络流量的源/目的IP地址和源/目的端口号的Hash算法,将网络流量均匀地分配到多个处理通道中。

2. 多处理通道并行执行网络流量的深度报文检查,获取网络流量的特征信息,并与业务识别特征库中的特征进行比对。

3. 将匹配结果送往识别处理模块,并标识特定网络流量。如果存在多个匹配结果,选取优先级较高的匹配结果进行标识。特定网络流量一经识别确定,该网络流量的后续连接将不再进行深度的报文检查,直接将其网络层和传输层信息与已知识别结果进行比对,以提高执行效率。

4. 识别处理模块将网络流量的业务识别结果存储到识别结果存储模块中,为网络流量的统计分析提供依据。

5. 统计分析模块从识别结果存储模块中读取相关信息,并以曲线、饼图、柱状图或者文本的方式将识别结果信息显示或以文件的形式输出。

6. 在结果存储模块中保存的识别结果信息会输出到网络流量管理功能区,为实施网络流量管理提供依据。

目前常用的业务识别技术有两种,即DPI技术和DFI技术。

DPI技术DPI是深度报文检测(Deep Packet Inspection)的简称。DPI技术之所以称为“深度”的检测技术,是相对于传统的检测技术而言的。传统的流量检测技术仅获取那些寄存在数据包网络层和传输层协议头中的基本信息,包括源/目的IP地址、源/目的传输层端口号、协议号,以及底层的连接状态等。通过这些参数很难获得足够多的业务应用信息,特别是对于当前P2P应用、VoIP应用、IPTV应用被广泛开展的情况,传统的流量检测技术已经不能满足网络流量管理的需要了。

DPI技术对传统的流量检测技术进行了“深度”扩展,在获取数据包基本信息的同时,对多个相关数据包的应用层协议头和协议负荷进行扫描,获取保存在应用层中的特征信息,对网络流量进行精细的检查、监控和分析。

DPI技术通常采用如下的数据包分析方法:

传输层端口分析。许多应用使用默认的传输层端口号,例如HTTP协议使用80端口。

特征字匹配分析。一些应用在应用层协议头或者应用层负荷中的特定位置包含特征字段,通过特征字段的识别实现数据包检查、监控和分析。

通信交互过程分析。对多个会话的事务交互过程进行监控分析,包括包长度、发送的包数目等,实现对网络业务的检查、监控和分析。

该技术如果进行更加详细的划分,还可分为特征字的识别技术、应用层网关识别技术、行为模式识别技术,这三类识别技术分别适用于不同类型的协议,相互之间无法替代,只有综合地运用这三大技术,才能有效、灵活地识别网络上的各类应用,从而实现控制和计费。

DFI技术DFI是深度流行为检测(Deep Flow Inspection)的简称,也是一种典型的业务识别技术。DFI技术是针对DPl技术的不足提出的,为了解决DPI技术的执行效率、加密流量识别和频繁升级等问题。DFI更关注于网络流量特征的通用性,因此,DFI技术并不对网络流量进行深度的报文检测,而仅通过对网络流量的状态、网络层和传输层信息、业务流持续时间、平均流速率、字节长度分布等参数的统计分析,来获取业务类型、业务状态。

网络流量的统计分析

通过流量统计分析,网络管理者能够知道当前网络中的业务流量的类型、带宽、时间和空间分布、流向等信息。

在管理的过程中,管理员可以采用常见的NTOP工具来协助完成。NTOP工具与传统的tcpdump或ethereal等网络流量捕捉工具有着极大的差异,它主要是提供网络报文的统计数据,而不是报文的内容。此外,NTOP不需要使用Web服务器,它自身就支持HTTP协议。首先,它提供了一种快速容易的方法来得到网络活动的准确信息,并且不使用网络探测或侦听设备。在大多数情况下,网络探测器对追踪网络故障是必需的,而在某些时候可能因为探测器正被使用于监测其他设备而无法获得,就可以使用NTOP工具; 其次,在某些给定的网络配置下可能无法与探测器连接,比如两个通过WAN互连的Unix系统,在这种情况下,用户可以应用NTOP工具。

一般说来,使用NTOP工具可以辅助网络管理员完成以下一些工作: 自动从网络中识别有用的信息; 将截获的数据包转换成易于识别的格式; 对网络环境中通信失败的情况进行分析; 探测网络环境中的通信瓶颈; 记录网络通信的时间和过程。

NTOP工具可以通过分析网络流量来确定网络上存在的各种问题,也可以用来判断是否有黑客正在攻击网络系统,还可以很方便地显示出特定的网络协议、占用大量带宽的主机、各次通信的目标主机、数据包的发送时间、传递数据包的延时等详细信息。通过了解这些信息,网管员可以对故障做出及时的响应,对网络进行相应的优化调整,以保证网络运行的效率和安全。

网络流量的控制

将流量控制能力添加到网络流量管理中,能够帮助网络管理者对网络资源和业务资源进行带宽控制和资源调度,如对HTTP、FTP、SMTP以及P2P等应用进行管理,尤其是对P2P流量进行抑制来提升传统数据业务的用户体验度。

具备流量控制能力的网络流量管理还能够对严重影响业务运营者收入的未经许可的其他业务进行抑制。比如,对于VoIP业务,我们可以通过对VoIP信令流量和媒体流量的关联检测和统计分析,以及通过截断媒体数据包、伪装信令报文等方式对流量进行管理。还可以通过综合使用网络层、传输层和应用层检测技术,对未经许可的宽带私接用户采取中断连接、主动告警、分时控制等多种管理动作。

流量控制还能够帮助网络流量管理实现业务资源的调度,并能够获得业务资源使用、业务状态的实时情况。当某一网络应用业务服务器负载较大时,可以进行全局的业务资源负载均衡,以平均地承担业务请求; 同时也能够对用户的业务请求进行调度,决定是否继续响应用户新的业务请求,并根据用户的优先级优先响应高优先级用户的业务请求,以提升业务运营效率。

流量控制通常的做法是在输出端口处建立一个队列进行流量控制,控制的方式是基于路由,亦即基于目的IP地址或目的子网的网络号。流量控制器基本的功能模块为队列、分类和过滤器。由于目前网络流量种类繁多,网络管理员在管理时通常都采用分类的方式进行。

对于网络流量管理来说,除了应具有上述的流量识别、流量分析和流量控制的功能之外,我们一般还希望其具有和防火墙等网络安全设备协同构建一个主动的安全威胁防御体系的功能,以提升整个网络的安全防护能力,从而更好地保证网络流量。

比如,流量特征识别分析就是一种必要的流量管理手段。它能够主动发现诸如DDoS攻击、病毒和木马等异常流量,较好地弥补其他网络安全设备如防火墙、入侵防护系统(IPS)和统一威胁管理(UTM)等的不足,提升其主动发现安全威胁的能力,并能够及时向其他网络安全设备发出告警,从安全威胁源头开始就进行主动的防御。此外,具备流量识别能力的网络流量管理还能够获取并保存网络流量的网络层信息(例如,源/目的IP地址、应用端口、用户标识ID等信息),通过这些信息,网络管理者能够对安全威胁进行溯源定位。

链接一

DFI技术与DPI技术比较

DFI与DPI两种技术的设计基本目标都是为了实现业务识别,但是两者在实现的着眼点和技术细节方面还是存在着较大区别的。从两种技术的对比情况看,两者互有优势,也都有短处,DPI技术适用于需要精细和准确识别、精细管理的环境,而DFI技术适用于需要高效识别、粗放管理的环境。

从处理速度来看: DFI处理速度相对快,而采用DPI技术由于要逐包进行拆包操作,并与后台数据库进行匹配对比,处理速度会慢些。由于采用DFI技术进行流量分析仅需将流量特征与后台流量模型比较即可,因此,与目前多数基于DPI的带宽管理系统的处理能力仅为线速1Gbit/s相比,基于DFI的系统可以达到线速10Gbit/s,完全可以满足企业网络流量管理的需求。

从维护成本来看: DFI维护成本相对较低,而基于DPI技术的带宽管理系统总是滞后新应用,需要紧跟新协议和新型应用的产生而不断升级后台应用数据库,否则就不能有效识别、管理新技术下的带宽,影响模式匹配效率; 而基于DFI技术的系统在管理维护上的工作量要少于DPI系统,因为同一类型的新应用与旧应用的流量特征不会出现大的变化,因此不需要频繁升级流量行为模型。

从识别准确率来看: 两种技术各有所长。由于DPI采用逐包分析、模式匹配技术,因此,可以对流量中的具体应用类型和协议做到比较准确的识别; 而DFI仅对流量行为分析,因此只能对应用类型进行笼统分类,如对满足P2P流量模型的应用统一识别为P2P流量,对符合网络语音流量模型的类型统一归类为VoIP流量,但是无法判断该流量是否采用H.323或其他协议。如果数据包是经过加密传输的,采用DPI方式的流控技术则不能识别其具体应用,而DFI方式的流控技术不受影响,因为应用流的状态行为特征不会因加密而根本改变。

链接二

几种常见的网络流量

当前随着网络应用的不断丰富和发展,网络流量也随之变得复杂和种类繁多起来,下面是最为常见的几种网络流量:

1. HTTP流量: HTTP是互联网上使用最为广泛的协议,早就已经取代传统文件下载的主要应用层协议FTP,如今,随着YouTube等视频共享网站的拉动,HTTP协议的网络流量在过去四年里首次超过了P2P应用的流量。

2. FTP流量: 从互联网出现的开始,FTP就一直是用户使用频率最高的应用服务之一,重要性仅次于HTTP和SMTP。而随着P2P应用的出现,其重要性地位虽然有所降低,但是仍然是用户们下载文件不可替代的重要应用和途径之一。

3. SMTP流量: 电子邮件是整个互联网业务重要的组成部分。据统计,3/4以上的用户上网的主要目的是收发邮件,每天有十数亿封电子邮件在全球传递。特别是由于电子邮件的廉价和操作简便,诱使有人将它作为大量散发自己信息的工具,最终导致了互联网世界中垃圾邮件的泛滥。

4. VoIP流量: 2006年全球IP电话用户从1030万增长到1870万,增幅达83%。2007年VoIP通话量已达到全部通话量的75%。因此,互联网上VoIP的流量也是非常值得管理员关注的。

网络流量分析的方法范文第5篇

关键词:深度报文检测;流量监控;流量分析

中图分类号:TP393 文献标识码:A 文章编号:2095-1302(2013)02-0071-03

0 引 言

随着计算机网络的快速发展和普及,各类网络应用层出不穷。当前,计算机网络的规模越来越大,业务也越来越复杂,系统对网络的可靠性、可用性及网络服务质量的要求也越来越高。网络流量监控分析[1]可以在很少甚至完全不影响现有网络的情况下,对计算机网络的运行状况进行全面的监控分析,是实现网络管理和网络安全防护的重要组成部分。高效合理地运行网络流量实时监控分析系统,可以在最短时间内发现安全威胁,并在第一时间进行分析,确定攻击源。结合基于流量的网络管理系统[2]和入侵检测系统[3]等,可以及时地发出威胁预警,以便快速采取措施,及时化解网络攻击,确保网络的运行效率和安全。

网络流量监控分析的基础是协议识别技术,目前的主要方法有常用端口识别、深度报文检测(Deep Packet Inspection,DPI)、深度流检测(Deep Flow Inspection,DFI)[4-7]以及这几种方法的混合。常用端口识别技术是根据协议通信五元组中的端口号来识别应用的,如常用的HTTP协议一般采用80端口,以协议所用的端口号为80来识别HTTP协议。当前,由于采用自定义端口、随机端口甚至加密隧道等应用日益增多,采用常用端口识别已经很难满足需要。深度报文检测是根据各类应用的连接数、单个IP地址的连接模式、上下行流量的比例关系、数据包发生频率等数据流的行为特征,来对流量的应用类型进行区分的技术[4],可以较好地识别出应用的类型(如是否P2P应用等),但无法对具体的应用进行详细的分析,只能实现应用类型的初步归类。DPI技术是一种基于特征字的识别技术,可根据不同协议的特征(包括协议所使用的端口、协议报文负荷(payload)中的特定字符串或特定的二进制数据等)来检测和识别出具体的应用协议。DPI具有检测准确率高、原理相对简单、实现速度快等多个优点,因而具有较为广泛的应用。本文介绍的网络流量实时监控分析系统(以下简称RT-TMA,Real-Time network Traffic Monitor and Analysis system)就是采用DPI技术来实现协议识别的。

基于DPI的网络流量实时监控分析系统在网络管理与网络安全防护中起着非常重要的作用,而目前的网络流量实时监控分析大都针对运行商的核心骨干网络,价格昂贵。此外,作为高校使用的网络流量监控分析系统,还需具备足够的可扩展接口,以便在完成网络管理与安全防护的同时,提供学生认知实习、开放性实验以及科研支撑。为此,本文提出了一种基于DPI的网络流量实时监控分析系统RT-TMA。该系统具有高可扩展性、实现简单、接口丰富等特性,可较好地满足高等院校,特别是高校实验教学中心对网络流量实时监控分析系统的需要。

1 RT-TMA的系统模型

RT-TMA是一种被设计用于高等院校校园网、实验室网络及中小型企业的网络流量实时监控分析系统。与其他网络流量监控系统不同的是,RT-TMA还提供有丰富的二次开发接口,为网络流量监控分析相关开发人员及科研人员提供理论验证和算法研究的实验平台。

规则库主要包括具体协议的DPI特征字及其检测算法的实现,同时包括传统规范网络应用的端口表,以用于配合DPI引擎完成对具体协议的识别。

DPI引擎是RT-TMA的核心,可在DPI规则库、数据库(配置信息等)、可选的扩展库以及用户操作等基础上,完成对网络流量的协议识别、统计、分析等功能。

RT-TMA用户界面作为人机交互界面,主要提供用户操作和管理DPI引擎、显示各类信息等。

2 RT-TMA的关键实现

RT-TMA主要针对高等院校、实验教学中心和中小企业的网络进行流量监控分析,此外,RT-TMA还可作为科研平台和实验平台来使用,因此,在RT-TMA的实现中,采用先实现全部功能再进行性能优化、先实现基本功能再进行二次扩展的思路。

2.1 基于winpcap的报文收发实现

3 运行测试

4 结 语

本文介绍了一个名为RT-TMA的网络流量实时监控分析系统的设计方案和关键技术实现方法,并给出了系统的运行测试结果。该方法对于网络流量监控分析系统的开发、DPI算法研究等,都具有较高的参考价值。本文介绍的RT-TMA目前可识别的协议还有限,DPI规则及检测器的性能和算法还有较大的进一步优化空间。此外,混合DFI及其他协议识别技术来进一步提升系统的协议识别准确率和性能还需要进一步的研究和测试。这些都是需要在下一步工作中进行研究和测试的内容。

参 考 文 献

[1] 杨厚云,王遵刚,龚汉明.校园网数据流量监控设计与实现[J].北京信息科技大学学报:自然科学版, 2009,24(4):97-91,96.

[2] 王文蔚.协议分析及其在网络管理中的应用[J].信息技术与信息化,2009(2):31-33.

[3] 周杨.协议分析技术在入侵检测系统中的应用[J].计算机系统应用,2011,20(6):161-164.

[4] 聂瑞华,黄伟强,吴仕毅,等.基于DPI技术的校园网络带宽管理[J]. 计算机技术与发展,2009,19(4):250-253.

[5] 叶文晨,汪敏,陈云寰,等.一种联合DPI和DFI的网络流量检测方法[J].计算机工程,2011,37(10):102-104,107.

[6] Liao M Y, Luo M Y, Yang C S, et al. Design and evaluation of deep packet inspection system: A case study[J]. Networks, IET. 2012, 1(1): 2-9.

[7] 孙广路,郎非,杨明明.基于混合方法的流量测量系统(英文)[J]. 电机与控制学报, 2011,15(6):91-96.

[8] RIZZO L, CARBONE M, CATALLI G. Transparent acceleration of software packet forwarding using netmap [C]// 2012 Proceedings of 2012 IEEE INFOCOM. Orlando: IEEE, 2012: 2471-2479.