首页 > 文章中心 > 正文

数据挖掘的计算机用户行为分析与识别

数据挖掘的计算机用户行为分析与识别

摘要:随着互联网技术的快速发展,网络已经成为人们生活及工作中不可或缺的一部分,本文通过对网络用户上网时所表现出来的行为进行分析研究,探索其行为特征及行为模式,建立计算机用户行为模型,利用聚类分析技术及相关算法建立了一个计算机用户行为分析识别系统,通过对网络用户日志数据所表现出来的行为进行预处理、模式挖掘及聚类分析实现了用户身份识别功能。并对系统的准确率和误差进行了分析,最后对该模型的完善和改进提出了若干设想。

关键词:数据挖掘;K-均值聚类分析;分析识别;行为模式

1引言

本文通过数据挖掘技术从海量的用户网络日志数据中分析用户行为的有效特征信息,建立了用户行为分析模型,通过ANOVA进行了模型可行性论证,基于C#和SPSS统计分析软件设计了一套计算机用户行为分析系统,建立了数据预处理、聚类分析等模型,通过K-MEANS算法对用户行为特征信息进行分析、处理和分类,完成用户特征识别,并对识别误差进行研究分析,提出了若干改进方法,该模式的分析应用对今后大数据的分析以及处理技术的发展具有重要意义。

2数据挖掘原理

2.1数据挖掘概念和流程

数据挖掘(DataMining),是数据库中知识发现(KDD)过程中的高级分析步骤,是计算机科学的跨学科子领域,是在海量的数据中发现模式的计算过程,涉及到数据库系统(DataSystem)、统计学(Statistic)、分布式计算(Ha-doop)、并行计算(Parallel)、机器学习(MachineLearn-ing)、人工智能(ArtificialIntelligence)等多个交叉的学科[1]。数据挖掘流程如图1[2]所示。

2.2聚类分析原理及算法

聚类分析是研究样品或指标分类问题的一种多元统计方法,类就是指相似元素的集合。根据分类对象的不同,聚类分析可以分为样品聚类和变量聚类,在统计学中,样品聚类又被称为Q型聚类,是对事件或观测量进行聚类,而变量聚类则被称为R型聚类,反映同一事物特征的变量很多,通常根据研究的问题选择部分变量对事物的某一方面进行研究[4]。聚类分析的算法可以分为划分法(PartitioningMe-thods)、层次法(HierarchicalMethods)、基于密度的方法(density-basedmethods)、基于网格的方法(grid-basedmethods)、基于模型的方法(Model-BasedMet-hods)[5]。本文主要采用基于距离的划分法,给定要构建的分区数k,创建一个初始化划分,采用迭代重定位技术,通过把对象从一个组移动到另一个组来进行划分。同一个簇中的对象尽可能相互接近或相关,而不同的簇中的对象尽可能远离或不同。使用这种思想的算法主要有K-MEANS算法[5]和K-MEDOIDS算法[6]等。K-均值聚类(K-MEANS)算法又被称为快速聚类法,可对大量数据进行聚类分析,属于非层次聚类方法,计算量小、占用内存少、处理速度快,非常适用于大样本聚类分析。

3计算机用户行为分析模型设计

3.1模型目标功能及整体结构

本文主要目的是通过用户上网生成的网络日志数据来实现对计算机用户的识别,因此对模型的设计主要考虑算法的使用以及类别的划分。本文使用K-均值聚类算法对预处理后的数据进行聚类分析,将数据进行不断聚类,提取聚类中心,直到分出用户的具体职业以及学历。样本用户职业类别分为学生、农村外出务工人员和产业、服务业工人3类,而学历则是在后两种职业中进行划分,其中产业、服务业工人学历划分包括高中、本科和大专3种,农村外出务工人员学历划分则只包含初中和高中两种。学历的聚类分析在职业划分结束后进行,并且在同一类职业当中进行聚类。模型整体架构如图3所示,模型主要分为2个模块,包括数据预处理模块和聚类分析模块。

3.2数据预处理模型

数据预处理是整个设计的基础,对其进行研究需要分析出能反映用户行为特征的属性,完成对原始数据的处理分析,提取有价值的信息作为新的样本分析数据,这是计算机用户行为分析与识别的前提。

3.3数据处理分类模型

K-均值聚类算法是一种非常简洁和高效率的聚类算法,现阶段的应用是最广泛的,因此利用此算法来完成最后的分类模块。通过上图可知本设计是利用K-均值聚类算法对预处理后的数据以及通过聚类分析提取出的聚类中心进行匹配计算,主要计算预处理后的用户行为数据和聚类中心之间的欧式距离,比较与不同聚类中心之间距离的大小,将用户归为距离最小的那一类当中。

4模型设计论证

聚类分析的主要目的是通过对用户行为数据进行多次聚类,不断提取聚类中心,直到将不同职业以及学历用户区分开来,聚类过程中的初始聚类中心和最终聚类中心结果分别如表1和表2所示。表1和表2的数据是对预处理后的数据做第一次聚类分析时的聚类中心结果,通过其可知最终聚类中心相对于初始聚类中心来说发生了较大的变化,每次变化都是对数字进行了一次重新聚类,直到出现最合适的聚类中心,聚类分析会在聚类中心不再发生变化或误差平方和局部最小时终止。在最终聚类中心结果中,不同类别间的聚类中心也有一定的差异,最终聚类中心距离结果如表3所示。通过最终聚类中心间的距离结果可知,第二类和第三类之间的距离最大,第一类和第二类之间的距离最小,这个结果和最终聚类中心的实际情况是符合的,说明K值为3时的聚类分析合理可行。在进行聚类分析的过程中,K-均值聚类需要对用户数据进行迭代与分类处理,在迭代过程中不断更新聚类中心,把观测量分派到与之最近的以类中心为标志的类中去,当满足收敛判据或迭代次数上限时,迭代会停止。聚类中心内的更改在聚类中心内没有改动或改动较小时达到收敛,任何中心的最大绝对坐标更改为.000,当前迭代为5,初始中心间的最小距离为24470.703。通过聚类分析的迭代历史记录可知,第一次迭代的变化值是最大的,之后就开始逐渐减少,直到最后第五次迭代时,聚类中心就不再发生变化,此时就完成了聚类分析模块中提取聚类中心的工作,在此基础上通过ANVOA表进行模型可行性分析,统计量临界值和显著性检验的大小如表5所示。通过对聚类分析结果进行方差分析,主要观察其中列出F值即统计量临界值和Sig.值即显著性检验的大小,从表中可以看到,各个指标在不同类之间的差异是非常明显的,用户行为有效信息类的差异性可以满足模型分类要求,由此进一步验证聚类分析模型的有效性。

5系统实现

5.1模型功能实现

整个系统主要包括数据预处理、聚类分析、K-均值算法处理分类等三个模块,系统实现主要基于C#语言和SPSS统计分析软件来完成,将一名大学本科用户ID为99BFDBE657AC81470256210593973290的产业、服务业工人数据被输入到系统中,实现结果样式如图6所示。但并不是100%的用户数据都能够被完全准确的识别出来,通过非建模使用的数据对系统功能进行进一步分析验证,系统对用户职业分类识别的准确率为55.6%,而对用户学历分类识别的准确率为42.5%。

5.2误差分析

系统通过对网络日志数据对用户职业以及学历的分析识别错误率分别为44.4%和57.5%。产生误差的因素主要有原始数据的合理有效性、聚类算法所存在的缺陷、识别用户时日志数据的选取等三方面。(1)原始数据的有效性。原始数据是从公开的数据源中查找出来并应用到对本系统的设计实现当中,根据对数据的观察分析,数据本身存在一定的不合理性,虽然对原始数据做了处理分析,但仍然有一定的问题存在,比如在对用户上网时所浏览网址进行分类时,有些数据中的URL和窗口进程存在不完整或缺失的情况,导致无法对用户的上网行为进行完全的统计分析,而且有些用户上网行为较同类用户整体相比存在异常,无法对其进行最终的聚类分析,导致最后此类用户在聚类结束时仍未被分类出来,最终对设计结果产生相应的影响并增大错误分析的概率。(2)K-均值聚类算法存在的缺陷。K-均值聚类算法主要是对预处理后的数据进行分析,此算法中的K值需要提前设定,因无法确切知道需要分析的数据应该划分成几类,所以K值的选择很难判断,一旦分类不合理就有可能对最终系统的实现造成影响。同时初始聚类中心的选择对于聚类的划分也存在一定的影响。(3)识别用户时用户日志数据的选取。本设计中原始数据包括用户连续28天的网络行为日志,在实现过程中所用数据使用的是每个用户拥有最大数据量的网络日志,这种选取方法适用于对不同类用户的所有整体进行分析聚类,提取用户群体的行为模式,但对单个用户来说,数据量再大的网络日志也无法完全体现其所有行为特征,只有对其进行长期的分析研究才能将其行为特征最大化,所以这种选取方式对系统的实现也有一定的影响。

5.3关于改进系统设计的若干设想

通过误差分析发现本系统设计还有一定的改进空间,为此提出以下改进设想:(1)建立异常检测机制,对用户行为数据进行分析时,将异常用户行为数据标记出来,独立输出相应结果。初始聚类中心的选取则可以通过遗传算法来实现。(2)尝试其它不同算法对用户网络日志数据进行处理分析,比如ISODATA算法、RPCL算法等,并将其处理结果的准确率与本设计中的结果准确率进行比较,选出最优算法。(3)对用户连续28天的网络日志数据进行处理分析取均值,作为聚类分析所需数据,进行系统实现,与本系统结果进行比较,观察准确率变化情况。

6结束语

本文介绍了数据挖掘概念特征和聚类分析原理,通过分析计算机用户网络日志数据建立了分析和识别模型,与以往的匹配识别不同,该模型是通过大数据分析用户特征,利用K-means算法进行聚类,进而实现用户识别功能。该系统的实现对于网络智能化服务及大数据运用的发展有着重要意义。然而该系统的识别成功率还有待提高,收集更加完善且不同类型的数据,建立异常检测机制以及改进更新识别算法,进一步提高识别准确率将是今后研究的重点。

作者:胡富增 王勇军 单位:解放军91404部队