首页 > 文章中心 > 数据挖掘技术

数据挖掘技术范文精选

数据挖掘技术

数据挖掘技术范文第1篇

[关键词]数据挖掘Web挖掘路径分析电子商务

一、引言

近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。数据挖掘是面向发现的数据分析技术,通过对大型的数据集进行探查。可以发现有用的知识,从而为决策支持提供有力的依据。

Web目前已成为信息、交互和获取的主要工具,它是一个巨大的、分布广泛的、全球性的信息服务中心。它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和其他许多信息服务。面向Web的数据挖掘就是利用数据挖掘技术从Web文档及Web服务中自动发现并提取人们感兴趣的、潜在的有用模型或隐藏的信息。

二、概述

1.数据挖掘的基本概念

数据挖掘是从存放在数据库、数据仓库、电子表格或其他信息库中的大量数据中挖掘有趣知识的过程。数据挖掘基于的数据库类型主要有:关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、Internet信息库以及新兴的数据仓库等。

2.Web数据挖掘

Web上有少量的数据信息,相对传统的数据库的数据结构性很强,即其中的数据为完全结构化的数据。Web上的数据最大特点就是半结构化。所谓半结构化是相对于完全结构化的传统数据库的数据而言。由于Web的开放性、动态性与异构性等固有特点,要从这些分散的、异构的、没有统一管理的海量数据中快速、准确地获取信息也成为Web挖掘所要解决的一个难点,也使得用于Web的挖掘技术不能照搬用于数据库的挖掘技术。因此,开发新的Web挖掘技术以及对Web文档进行预处理以得到关于文档的特征表示,便成为Web挖掘的重点。

三、Web数据挖掘分类

Web数据有三种类型,它们分别是:HTML标记的Web文档数据、Web文档内的廉洁的结构数据和用户访问数据,相应地,Web数据挖掘可分为三类:内容挖掘(Webcontentmining)、结构挖掘(Webstructuremining)和用户访问模式挖掘(Webusagemining)。如下图所示。

1.Web内容挖掘

Web内容挖掘是从文档内容或其描述中抽取有用信息的过程,Web内容挖掘按实现方法分为两大类:信息检索(IR)方法和数据库方法。且有两种策略:直接挖掘文档的内容和在其他工具搜索的基础上进行改进。

IR方法主要处理非结构数据和Web中由HTML标记的半结构化数据。前者一般采用词集方法,用一组组词条来表示无结构的文本。后者主要利用传统的数据挖掘技术:如关联规则、分类算法、演绎逻辑和规则学习等。

2.Web结构挖掘

Web结构挖掘是从Web组织结构和链接关系中推导知识。挖掘页面的结构和Web结构,可以用来指导对页面进行分类和聚类,找到权威页面、中心页面,从而提高检索的性能。同时还可以用来指导页面采集工作,提高采集效率。Web结构挖掘可以分为Web文档内部结构挖掘和文档问的超链接结构挖掘。

Web结构挖掘的基本思想是将Web看作一个有向图,他的顶点是Web页面,页面间的超链就是图的边。然后利用图论对Web的拓扑结构进行分析。常见的算法有HITS(HypertextInducedTopicSearch),PageRank,发现虚拟社区的算法、发现相似页面的算法、发现地理位置的算法和页面分类算法。Web结构挖掘的算法一般可分为查询相关算法和查询无关算法两类。查询相关算法需要为每一个查询进行一次超链分析从而进行一次值的指派;而查询独立算法则为每个文档仅进行一次值的指派,对所有的查询都使用此值。HITS和PageRank分别是查询相关算法和查询独立算法的代表。

3.Web访问挖掘

Web访问挖掘是从服务器端记录的用户访问日志或从用户的浏览信息中抽取感兴趣的模式,通过分析这些数据可以帮助理解用户隐藏在数据中的行为模式,做出预测性分析,从而改进站点的结构或为用户提供个性化的服务。

Web访问挖掘一般分为两种:一般访问模式跟踪和定制使用跟踪。一般访问模式跟踪通过分析Web日志来理解用户的访问模式和倾向;定制使用跟踪分析单个用户的偏好,根据其访问模式为每个用户定制符合其个人特色的Web站点。Web的log数据包括:senrerlog,proxyserverlog,client端的cookielog等。Web使用记录挖掘通常需要经过三个阶段:数据预处理阶段(主要包括数据清洗和事物识别两个部分):模式识别阶段(采用统计法、机器学习等成熟技术.从Web使用记录中挖掘知识):模式分析阶段(采用合适的成熟的技术和工具进行模式的分析,从而辅助分析人员理解.使采用各种工具挖掘出的模式得到很好利用)。对Web使用记录挖掘采用的算法有:路径分析、关联规则和有字模式的发现、聚类分类等,为了提高精度,使用记录挖掘也用到站点结构和页面内容等信息。四、Web数据挖掘中的关键技术

Web数据挖掘中常用的技术有Web使用的特有的路径分析技术,数据挖掘领域常用的关联规则、序列模式、分类聚类技术等。

1.路径分析技术

用路径分析技术进行Web数据挖掘时,最常用的是图,因为Web可以用一个有向图来表示,G=(V,E),V是页面的集合,E是页面之间的超连接集合,页面定义为图中的顶点,而页面之间的超连接定义为图中的有向边。顶点v的入边表示对v的引用,出边表示v引用了其他的页面,这样形成网站结构图,从图中确定最频繁的访问路径。

2.关联规则挖掘技术

关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则,就是要挖掘出用户在一个访问期间(SESSION),从服务器上访问的页面/文件之间的联系,这些页面之间可能并不存在直接的参引(RIFERENCE)关系.最常用的是用APRIOR算法,从事务数据库中挖掘出最大频繁访问项集,这个项集就是关联规则挖掘出来的用户访问模式。

3.序列模式挖掘技术

序列模式数据挖掘就是要挖掘出交易集之间的有时间序列关系的模式.它与关联挖掘技术都是从用户访问下的日志中寻找用户普遍访问的规律,关联挖掘技术更注重事务内的关系,序列模式技术则注重事务间的关系。

4.聚类分类技术

分类规则可以挖掘出某些共同的特性,这个特性可以用来对新添到数据库里的数据项进行分类。在Web数据挖掘中,分类技术可以根据访问这些用户而得到的个人信息或共同的访问模式得出访问某一服务器文件的用。特征。聚类技术则是对符合某一访问规律特征的用户进行用户特征挖掘。最后进行模式分析,挖掘出人们可理解的知识的模式解释。

五、Web数据挖掘的应用

随着中国经济的高速发展,数据挖掘将在中国形成一个产业,目前Web数据挖掘已广泛地应用于金融业、远程通讯业、政府管理、制造业、医疗服务以及体育事业中,基于Web的数据挖掘技术已经成为一个热点,下面主要介绍Web数据挖掘的三个应用前景。

1.在电子商务中的应用

在电子商务中,运用Web挖掘技术从服务器和浏览器端日志记录中自动发现隐藏在数据中的模式信息,对此进行分析加工,通过对客户进行分类和聚类,从中可得到商家用于向特定消费群体或个体进行定向营销的决策信息。了解系统的访问模式以及用户的行为模式,从而做出预测性分析。同时有效地对这些Web日志进行定量分析,提示其中的关联关系、时序关系、页面类属关系、客户类属关系和频繁访问路径、频繁访问页面等,从而为企业更有效地确认目标市场、改进决策获得更大的竞争优势提供帮助。

2.在搜索引擎中的应用

利用Web数据挖掘技术,通过对网页内容的挖掘,可实现对网页的聚类和分类,实现网络信息的分类浏览与检索;运用网络内容挖掘技术改进关键词加权算法,提高网络信息的标引准确度,从而改善检索效果;通过对用户所使用的提问式的历史记录的分析,可以有效地进行提问扩展,提高用户的检索效率。

3.在网站设计中的应用

在网站建设中,使用Web挖掘通过对网站内容的挖掘,可有效地组织网站信息,例如采用自动归类技术实现网站信息的层次性组织;分析用户的Web访问行为,可为用户提供智能化、个性化服务。比如,可根据客户的访问兴趣、访问频度、访问时间,动态地调整页面结构,迎合每个客户的浏览兴趣,使客户在浏览时感觉自己是网站的惟一客户;另外,网站还可以根据实际用户的浏览情况,挖掘用户的兴趣点,定期为用户推送相关信息,以及调整网站中网页的链接结构和内容,为用户提供个人的定制服务。

数据挖掘技术范文第2篇

[关键词]数据挖掘数据挖掘方法

随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。

一、数据挖掘的定义

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。

二、数据挖掘的方法

1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。

3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

三、结束语

目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。

数据挖掘技术范文第3篇

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

三、结束语

目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。

数据挖掘技术范文第4篇

[关键词]电子商务数据挖掘兴趣特征

数据挖掘技术是随着数据库技术和人工智能技术发展起来的一种新型的交叉信息技术。无论是B2B、B2C还是B2G电子商务模式,商品的采购者都需要通过Web方式与商品的供应商及其合作者之间建立信息流的交互,面向电子商务的数据挖掘的特点就是从Web数据库中,运用关联、分类、聚类等技术手段,从中提取出可以指导市场策略的有用数据。它基于“消费者过去的行为预示着其今后的消费倾向”的原理,通过收集、分析和处理从网上获取的有关消费者消费行为的数据,从潜在的、隐含的、事先不知的状态,经过提取、洗涤、加工变为潜力巨大的价值信息,从而实现网络营销的目的,确定特定消费群体或个体的消费习惯、爱好、倾向,进而预示出消费者下一步的消费行为,有针对性地提供服务。

一、电子商务Web数据挖掘技术

1.电子商务Web数据挖掘技术的分类

电子商务Web数据挖掘一般可分为三个部分:内容挖掘、结构挖掘、用法挖掘。Web内容挖掘有两种策略:直接挖掘文档内容和在其他检索工具搜索的基础上进行改进。Web结构挖掘是从WWW上的组织结构和链接关系中推导知识。Web用法挖掘的主要目标是从Web的访问记录中抽取感兴趣的模式。大多数基于数据库的数据挖掘方法均可作用于电子商务Web数据挖掘。

在研究以电子商务网上购物为应用背景的工作时发现。商家在Web上建立自己的在线商品目录,顾客(即用户)通过浏览器可以浏览商品目录、实现网上订购甚至网上支付等。用户与商家的Web服务器间交互的过程信息(包括用户的登录信息、用户的浏览记录)以及用户的个人简要信息等,都能以日志文件或顾客数据库的形式存在,从中找出规律性,对商家的市场销售是至关重要的;从大量顾客数据及日志数据中,应用到计算机并行处理、神经元网络、模型化算法和其他信息处理技术手段,挖掘出有意义的用户访问模式及相关的潜在顾客群,从中可得到商家用于向特定消费群体或个体进行定向营销的决策信息。同时有效地对这些Web日志进行定量分析,揭示其中的关联关系、时序关系、页面类属关系、客户类属关系和频繁访问路径、频繁访问页面等,不但可为优化Web站点拓扑结构提供参考,而且还可为企业更有效地确认目标市场、改进决策获得更大的竞争优势提供帮助。

2.电子商务Web数据挖掘模型构建和基本流程

电子商务Web服务器自动收集客户浏览信息并保存在访问日志、引用日志和日志中。典型的电子商务Web服务器日志文件包括以下信息:IP地址,请求时间,方法(如get),被请求文件的URL,HTTP版本号,返回码,传输字节数,引用页的URL和。

电子商务Web挖掘,首先对日志文件进行预处理,预处理主要由两部分构成:数据清洗(datacleaning)和事务识别(transactionidentification)。包括对Web日志进行清洗、过滤和转换以及无关记录的剔除,判断是否有重要的访问没有被记录,并从中抽取感兴趣的数据;并将URL、资源的类型、大小、请求的时间、在资源上停留的时间、请求者的Internet域名、用户、服务器状态作为数据cube的维数变量;再将对模块、页面和文件请求次数,来自不同Internet域请求次数、事件、会话、带宽、错误次数、不同浏览器种类、用户所在组织作为度量变量建立datacube;而将文件、图像脚本及多媒体等其他文件转换成可用于Web使用挖掘的数据格式,从而可将数据挖掘技术用于Web流量分析、典型的事件序列分析和用户行为模式分析及事务分析。

定义函数log={ip,uid,url,time}表示电子商务Web服务器日志。其中,ip,uid,url,time分别标识客户ip、客户id、客户请求的url和浏览时间。

在经过数据预处理阶段后,即可针对电子商务中不同的挖掘目标可以采用不同的数据挖掘方法,选择数据挖掘模式,如统计分析、关联规则、时序模式、路径分析(pathanalysis)及聚类、分类技术。

进行实际的挖掘操作的要点有:首先决定如何产生假设;选择合适的工具;发掘知识的操作;证实发现的知识。

二、基于兴趣的关联算法在电子商务中的Web挖掘应用

关联分析是寻找在同一个事件中出现的不同项的相关性,比如在一次购买活动中所买不同商品的相关性。序列模式与此类似,它寻找的是事件之间时间上的相关性,假设I={i1,i2,…,im}是所有项的集合,相当于商品的所有种类的集合,D是所有事务的集合,也即数据库中记录的集合,事务T={t1,t2,…,tn},tiI,相当于交易中的商品列表。设X是一个I中项的集合,如果XTk,那么称交易Tk包含项集X,若X,Y为项集,XI,YI,并且X⌒Y=Φ,则形如X==>Y的表达式称为关联规则。

计算方法:

交易数据集中同时包含X和Y的交易数与所有交易数之比:

support(XY)=P(X∪Y)=|{T:XYT,T∈D}|/|D|×100%(其中|D|是交易数据集D中的所有交易数),给定一个交易集D,挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度(minsupp)和最小确信度(minconf)的关联规则。当规则的确信度和支持度分别大于minsupp、minconf时,我们认为规则是有效的,称为强关联规则。当数据项集X的支持度大于minsupp时,称X为高频数据项集。

关联规则发现任务的本质是要在数据库中发现强关联规则。在电子商务中关联规则的发现也就是要找到客户对网站上各种文件之间访问的相互联系。例如,用关联规则发现技术,我们可以找到以下的相关性:40%的客户访问页面/company/product1

时,也访问了/company/product2。30%的客户在访问/company/special时,在/company/product1进行了在线定购。利用这些相关性,可以更好的组织站点,实施有效的市场策略。

三、数据挖掘技术的工具

随着电子商务和数据库技术的发展,越来越多的公司、厂家开始开发数据挖掘工具。如Oracle公司通过从ThinkingMachine公司获得Darwin产品来增强其数据挖掘功能;IBM公司的IntelligentMiner提供了基于DB2的数据挖掘能力,提供了支持C++类和方法的API(应用程序接口);SAS公司推出的SAS/EM(EnterpriseMiner)数据挖掘软件可以对Oracle、Informix、Sybase、DB2的数据集进行操作。Accrue公司更是推出了一个综合性Web数据挖掘工具,能够对网站的运行状况进行深入、细致和准确的分析。

数据挖掘技术范文第5篇

根据波特的影响企业的利益相关者理论,企业有五个利益相关者,分别是客户、竞争对手、供应商、分销商和政府等其他利益相关者。其中,最重要的利益相关者就是客户。现代企业的竞争优势不仅体现在产品上,还体现在市场上,谁能获得更大的市场份额,谁就能在竞争中占据优势和主动。而对市场份额的争夺实质上是对客户的争夺,因此,企业必须完成从“产品”导向向“客户”导向的转变,对企业与客户发生的各种关系进行管理。进行有效的客户关系管理,就要通过有效的途径,从储存大量客户信息的数据仓库中经过深层分析,获得有利于商业运作,提高企业市场竞争力的有效信息。而实现这些有效性的关键技术支持就是数据挖掘,即从海量数据中挖掘出更有价值的潜在信息。正是有了数据挖掘技术的支持,才使得客户关系管理的理念和目标得以实现,满足现代电子商务时代的需求和挑战。

一、客户关系管理(CRM)

CRM是一种旨在改善企业与客户之间关系的新型管理方法。它是企业通过富有意义的交流和沟通,理解并影响客户行为,最终实现提高客户获取、客户保留、客户忠诚和客户创利的目的。它包括的主要内容有客户识别、客户关系的建立、客户保持、客户流失控制和客户挽留。通过客户关系管理能够提高企业销售收入,改善企业的服务,提高客户满意度,同时能提高员工的生产能力。

二、数据挖掘(DM)

数据挖掘(DataMining,简称DM),简单的讲就是从大量数据中挖掘或抽取出知识。数据挖掘概念的定义描述有若干版本。一个通用的定义是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取人们感兴趣的知识,这些知识是隐讳的、事先未知的、潜在有用的信息。

常用的数据挖掘方法有:(1)关联分析。即从给定的数据集中发现频繁出现的项集模式知识。例如,某商场通过关联分析,可以找出若干个客户在本商场购买商品时,哪些商品被购置率较高,进而可以发现数据库中不同商品的联系,进而反映客户的购买习惯。(2)序列模式分析。它与关联分析相似,其目的也是为了控制挖掘出的数据间的联系。但序列模式分析的侧重点在于分析数据间的前后(因果)关系。例如,可以通过分析客户在购买A商品后,必定(或大部分情况下)随着购买B商品,来发现客户潜在的购买模式。(3)分类分析。是找出一组能够描述数据集合典型特征的模型,以便能够分类识别未知数据的归属或类别。例如,银行可以根据客户的债务水平、收入水平和工作情况,可对给定用户进行信用风险分析。(4)聚类分析。是从给定的数据集中搜索数据对象之间所存在的有价值联系。在商业上,聚类可以通过顾客数据将顾客信息分组,并对顾客的购买模式进行描述,找出他们的特征,制定针对性的营销方案。(5)孤立点分析。孤立点是数据库中与数据的一般模式不一致的数据对象,它可能是收集数据的设备出现故障、人为输入时的输入错误等。孤立点分析就是专门挖掘这些特殊信息的方法。例如,银行可以利用孤立点分析发现信用卡诈骗,电信部门可以利用孤立点分析发现电话盗用等。

三、数据挖掘在客户关系管理中的应用

1.进行客户分类

客户分类是将大量的客户分成不同的类别,在每一类别里的客户具有相似的属性,而不同类别里的客户的属性不同。数据挖掘可以帮助企业进行客户分类,针对不同类别的客户,提供个性化的服务来提高客户的满意度,提高现有客户的价值。细致而可行的客户分类对企业的经营策略有很大益处。例如,保险公司在长期的保险服务中,积累了很多的数据信息,包括对客户的服务历史、对客户的销售历史和收入,以及客户的人口统计学资料和生活方式等。保险公司必须将这些众多的信息资源综合起来,以便在数据库里建立起一个完整的客户背景。在客户背景信息中,大批客户可能在保险种类、保险年份和保险金额上具有极高的相似性,因而形成了具有共性的客户群体。经过数据挖掘的聚类分析,可以发现他们的共性,掌握他们的保险理念,提供有针对性的服务,提高保险公司的综合服务水平,并可以降低业务服务成本,取得更高的收益。

2.进行客户识别和保留

(1)在CRM中,首先应识别潜在客户,然后将他们转化为客户

这时可以采用DM中的分类方法。首先是通过对数据库中各数据进行分析,从而建立一个描述已知数据集类别或概念的模型,然后对每一个测试样本,用其已知的类别与学习所获模型的预测类别做比较,如果一个学习所获模型的准确率经测试被认可,就可以用这个模型对未来对象进行分类。例如,图书发行公司利用顾客邮件地址数据库,给潜在顾客发送用于促销的新书宣传册。该数据库内容有客户情况的描述,包括年龄、收入、职业、阅读偏好、订购习惯、购书资金、计划等属性的描述,顾客被分类为“是”或“否”会成为购买书籍的顾客。当新顾客的信息被输入到数据库中时,就对该新顾客的购买倾向进行分类,以决定是否给该顾客发送相应书籍的宣传手册。

(2)在客户保留中的应用

客户识别是获取新客户的过程,而客户保留则是留住老顾客、防止客户流失的过程。对企业来说,获取一个新顾客的成本要比保留一个老顾客的成本高。在保留客户的过程中,非常重要的一个工作就是要找出顾客流失的原因。例如,某专科学校的招生人数在逐渐减少,那么就要找出减少的原因,经过广泛的搜集信息,发现原因在于本学校对技能培训不够重视,学生只能学到书本知识,没有实际的技能,在就业市场上找工作很难。针对这种情况,学校应果断的抽取资金,购买先进的、有针对性的实验实训设备,同时修改教学计划,加大实验实训课时和考核力度,培训相关专业的教师。

(3)对客户忠诚度进行分析

客户的忠诚意味着客户不断地购买公司的产品或服务。数据挖掘在客户忠诚度分析中主要是对客户持久性、牢固性和稳定性进行分析。比如大型超市通过会员的消费信息,如最近一次消费、消费频率、消费金额三个指标对数据进行分析,可以预测出顾客忠诚度的变化,据此对价格、商品的种类以及销售策略加以调整和更新,以便留住老顾客,吸引新顾客。(4)对客户盈利能力分析和预测

对于一个企业而言,如果不知道客户的价值,就很难做出合适的市场策略。不同的客户对于企业而言,其价值是不同的。研究表明,一个企业的80%的利润是由只占客户总数的20%的客户创造的,这部分客户就是有价值的优质客户。为了弄清谁才是有价值的客户,就需要按照客户的创利能力来划分客户,进而改进客户关系管理。数据挖掘技术可以用来分析和预测不同市场活动情况下客户盈利能力的变化,帮助企业制定合适的市场策略。商业银行一般会利用数据挖掘技术对客户的资料进行分析,找出对提高企业盈利能力最重要的客户,进而进行针对性的服务和营销。

(5)交叉销售和增量销售

交叉销售是促使客户购买尚未使用的产品和服务的营销手段,目的是可以拓宽企业和客户间的关系。增量销售是促使客户将现有产品和服务升级的销售活动,目的在于增强企业和客户的关系。这两种销售都是建立在双赢的基础上的,客户因得到更多更好符合其需求的服务而获益,公司也因销售增长而获益。数据挖掘可以采用关联性模型或预测性模型来预测什么时间会发生什么事件,判断哪些客户对交叉销售和增量销售很有意向,以达到交叉销售和增量销售的目的。例如,保险公司的交叉营销策略:保险公司对已经购买某险种的客户推荐其它保险产品和服务。这种策略成功的关键是要确保推销的保险险种是用户所感兴趣的,否则会造成用户的反感。

四、客户关系管理应用数据挖掘的步骤

1.需求分析

只有确定需求,才有分析和预测的目标,然后才能提取数据、选择方法,因此,需求分析是数据挖掘的基础条件。数据挖掘的实施过程也是围绕着这个目标进行的。在确定用户的需求后,应该明确所要解决的问题属于哪种应用类型,是属于关联分析、分类、聚类及预测,还是其他应用。应对现有资源如已有的历史数据进行评估,确定是否能够通过数据挖掘技术来解决用户的需求,然后将进一步确定数据挖掘的目标和制定数据挖掘的计划。

2.建立数据库

这是数据挖掘中非常重要也非常复杂的一步。首先,要进行数据收集和集成,其次,要对数据进行描述和整合。数据主要有四个方面的来源:客户信息、客户行为、生产系统和其他相关数据。这些数据通过抽取、转换和装载,形成数据仓库,并通过OLAP和报表,将客户的整体行为结果分析等数据传递给数据库用户。

3.选择合适的数据挖掘工具

如果从上一步的分析中发现,所要解决的问题能用数据挖掘比较好地完成,那么需要做的第三步就是选择合适的数据挖掘技术与方法。将所要解决的问题转化成一系列数据挖掘的任务。数据挖掘主要有五种任务:分类,估值预测,关联规则,聚集,描述。前三种属于直接的数据挖掘。在直接数据挖掘中,目标是应用可得到的数据建立模型,用其它可得到的数据来描述感兴趣的变量。后两种属于间接数据挖掘。在间接数据挖掘中,没有单一的目标变量,目标是在所有变量中发现某些联系。

4.建立模型

建立模型是选择合适的方法和算法对数据进行分析,得到一个数据挖掘模型的过程。一个好的模型没必要与已有数据完全相符,但模型对未来的数据应有较好的预测。需要仔细考察不同的模型以判断哪个模型对所需解决的问题最有用。如决策树模型、聚类模型都是分类模型,它们将一个事件或对象归类。回归是通过具有已知值的变量来预测其它变量的值。时间序列是用变量过去的值来预测未来的值。这一步是数据挖掘的核心环节。建立模型是一个反复进行的过程,它需要不断地改进或更换算法以寻找对目标分析作用最明显的模型,最后得到一个最合理、最适用的模型。

5.模型评估

为了验证模型的有效性、可信性和可用性,从而选择最优的模型,需要对模型进行评估。我们可以将数据中的一部分用于模型评估,来测试模型的准确性,模型是否容易被理解模型的运行速度、输入结果的速度、实现代价、复杂度等。模型的建立和检验是一个反复的过程,通过这个阶段阶段的工作,能使数据以用户能理解的方式出现,直至找到最优或较优的模型。

友情链接