首页 > 文章中心 > 正文

数据挖掘在营销中的运用

数据挖掘在营销中的运用

1数据挖掘的任务

数据挖掘的任务常见的有4种类型:

分类用于预测事件所属的类别.其中样本数据中包含标识样本事件所属类别的数据项,类别是已知的,由数据挖掘根据样本数据构建对这些类别的模式的描述,再利用所发现的模式,参照新的数据的特征变量,将其映射入已知类别中.如在医疗应用中,可根据患者的各种特征进行疾病诊断等.

聚类用于描述和发现数据库中以前未知的数据类别.其中样本数据中不包含类别变量,数据挖掘将具有共同趋势和模式的数据元组聚集为一类,使类内各元组相似程度最高,类间差异最大.常用于市场细分,可根据已有顾客的数据,利用聚类技术将市场按顾客的消费模式的相似性分为若干细分市场,以进行有针对性的市场营销.

关联用于发现给定事件或纪录中经常一起发生的项目,由此推断事件间潜在的关联,识别有可能重复发生的模式.关联分析的典型例子是市场篮子分析,描述顾客的购买行为.如尿布与啤酒的故事就属于关联分析,可帮助零售商决定商品的摆放和捆绑销售策略.序列模式与关联分析类似,只是扩展为一段时间的项目集间的关系,常把序列模式看作由时间变量连接起来的关联.序列分析可分析长时期的相关纪录,发现经常发生的模式.

2数据挖掘过程

数据挖掘系统主要有四个模块:用户界面、数据准备(也称为数据预处理)、挖掘及模式的解释和评价(后处理).

2.1数据准备

数据准备对于数据挖掘的成功应用至关重要,IBM等咨询公司已经证实了数据准备需消耗整个数据挖掘过程中50%~80%的资源[3],事实上如果没有数据的预处理阶段,单纯进行数据挖掘将成为一个盲目搜索的过程,可能会得出毫无意义或错误的结果.目前对数据挖掘的研究仍主要集中在数据挖掘技术上,数据准备一直未得到应有的重视,DorlanPyle在其新著《DataPreparationforDataMining》中,对数据挖掘中的数据准备作了详细的论述.数据准备大致分为3步:数据集成,数据选择,数据转化[3].

1)数据集成.从多个异质操作性数据库、文件或遗留系统提取并集成数据,解决语义二义性,统一不同格式的数据,消除冗余、重复存放数据的现象.同时还要清洗数据,包括对噪声数据、缺失数据及异常数据等的处理.

2)数据选择.在相关领域和专家知识的指导下,辨别出需要进行分析的数据集合,缩小挖掘范围,避免盲目搜索,提高数据挖掘的效率和质量.

3)数据缩减和转化.选定的数据在经过挖掘前,必须要加以精炼处理,如通过缩减高维复杂数据的维数,减少有效变量的个数等.

另外在数据准备阶段中,通过用户交互引入领域专家知识也很重要,可帮助定义具体问题和用户需求,使模型更直观;限制搜索空间,以便高效率的发现更精确的知识;对发现的结果进行后处理,从中过滤出有意义、有价值的知识和信息.

2.2挖掘知识和信息

作为数据挖掘技术的核心,知识与信息的挖掘主要有下面几部分构成:

1)确定挖掘的任务类型.确定系统要实现的功能及任务,是属于分类或关联等中哪种类型.

2)选择合适的挖掘技术.在确定挖掘任务的基础上,选择适当的数据挖掘技术.如分类模型常由有指导的神经元网络或归纳技术(如决策树)来实现;聚类常用聚类分析技术;关联分析使用关联发现和序列发现技术等[4].

3)选择算法.根据选定的技术选择一具体的算法,如采用ID3算法为定性的变量建立分类模型;BP算法用于解决连续的定量变量的情况等.选择数据挖掘算法要确定搜索数据中隐藏模式的方法,如确定适当的模型和参数集合,还应将这一具体的技术与数据挖掘的全局目标匹配[4].

4)挖掘数据.用选定的算法或算法组合在模式空间中进行反复迭代的搜索,从数据集合中抽取出隐藏的、新颖的模式.

2.3模式的解释和评价

对数据挖掘发现的模式进行解释和评价,过滤出有用的知识.具体包括消除无关的、多余的模式,过滤出要呈现给用户的信息;利用可视化技术将有意义的模式以图形或逻辑可视化的形式表示,转化为用户可理解的语言.一个成功的数据挖掘的应用应能将原始数据转换为更简洁、更易理解、可明确定义关系的形式.此外还包括解决发现的结果与以前知识的潜在冲突,及利用统计方法对模式进行评价,决定是否需要重复以前的操作,以得到最优、最适合的模式[4].数据挖掘抽取的信息经过事后处理可用于解释当前或历史现象,预测未来可能发生的情况,使决策者参照从过去发生的事实中抽取的信息进行决策制定.

3常用技术及算法

数据挖掘的核心是采用机器学习、统计等方法进行知识学习的阶段.数据挖掘算法的好坏将直接影响到所发现知识的好坏,因此选取适当的算法或算法组合至关重要,目前对数据挖掘的研究也主要集中在算法及其应用方面.

事实上并不存在评判算法优劣的确定标准,因为不同的目标和情况需要的算法也不同;另外每种技术都有其内在局限性,不加判断的应用数据挖掘技术是毫无意义的.事实上某种算法在解决一特定问题时可能比其他算法性能更好,因此选择采用的算法具有某种艺术性,要由具体应用的目标和情况决定,而不能仅仅由算法的性能判断.

数据挖掘方法通常分为两类:统计模型和机器学习技术,其中机器学习与数据挖掘关系最密切.统计模型应用于数据挖掘主要是进行评估,常用的统计技术有概率分布、相关分析、回归、聚类分析和判别分析等;机器学习是人工智能的一个分支,也称为归纳推理,通过学习训练数据集,发现模型的参数,并找出隐含的规则[5].常用的机器学习方法如人工神经元网络、决策树和遗传算法在数据挖掘中的应用都很广泛.

人工神经元网络(ANN)是在数据挖掘中应用最广泛的技术,模仿人脑的机能,通过反复学习训练数据集,发现用于预测和分类的模式.神经元网络尤其擅长于解决极复杂的问题,但神经元网络最大的缺点是其不透明型,无法解释结果是如何产生的及其在推理过程中所用的规则.

决策树(DT)是一种树型结构的预测模型,其中树的非终端节点表示属性,叶节点表示所属的不同类别.根据训练数据集中数据的不同取值建立树的分支,形成一决策树,对其进行反复修剪后转化为规则,可用于对新数据分类.与神经元网络最大的不同在于其决策制定的过程是可见的,可以解释结果是如何产生的.典型的例子是CART(回归决策树)方法.遗传算法(GA)是一种基于生物进化理论的优化技术.其基本观点是“适者生存”,用于数据挖掘中,则常把任务表示为一种搜索问题,利用遗传算法强大的搜索能力找到最优解.具体来讲,就是模仿生物进化的过程,反复进行选择、交叉和突变等遗传操作,直至满足最优解.具体来讲,就是模仿生物进化的过程,反复进行选择、交叉和突变等遗传操作,直至满足进化停止的条件.遗传算法是最成功的机器学习技术之一,常与其他技术结合使用,如用于优化神经元网络的模型和参数集等.

4数据挖掘在营销中的应用

数据库营销(DatabaseMarketing)是数据挖掘目前最成功商业应用,作为一种结合了信息技术和营销理论的新型营销方式,通过搜集消费者和同类企业等的大量信息,并利用OLAP(On-LineAnalyticalProcessing)和数据挖掘等分析技术对其进行分析处理,据此确定相应的营销策略和特定的目标顾客群[6].

数据挖掘在营销中的主要应用有:关联分析即市场篮子分析,用于了解顾客的购买习惯和偏好,有助于决定市场商品的摆放和产品的捆绑销售策略;序列模式与市场篮子分析相似,不过是用某时间点发现的产品购买或其他行为模式来预测将来购买产品或服务类别的概率;聚类用于市场细分,将顾客按其行为或特征模式的相似性划分为若干细分市场,以采取有针对性的营销策略;分类用于预测哪些人会对邮寄广告和产品目录、赠券等促销手段有反应,还可用于顾客定级、破产预测等.

目前国外许多大型零售企业和金融保险行业都已建立了营销数据库,并利用数据挖掘技术发现对某种产品感兴趣的顾客,帮助制定认识和保留最佳顾客的计划,增进与顾客的关系,识别并跟踪有发展前景的市场,根据顾客反馈确定产品开发计划,提高销售人员调配的效用,这些都为企业带来了独特的竞争优势.如美国Firstar银行使用Marksman数据挖掘工具,根据客户的消费模式来预测应在什么时候向哪些客户提供哪些产品;美国运通公司(AmericanExpress)有一个用于记录信用卡业务的数据库,通过对这些数据进行挖掘,制定了“关联结算(RelationshipBilling)优惠”的促销策略,即如果一个顾客在一个商店用运通卡购买一套时装,那么在同一个商店再买一双鞋,就可以得到比较大的折扣,既增加了商店的销售量,也可以增加运通卡在该商店的使用率.美国的读者文摘(Reader''''sDigest)出版公司运行着一个积累了40年的业务数据库,其中容纳有遍布全球的一亿多个订户的资料,并保证数据不断得到实时的更新,基于对客户资料数据库进行数据挖掘的优势,使读者文摘出版公司能够从通俗杂志扩展到专业杂志、书刊和声像制品的出版和发行业务,极大地扩展了自己的业务范围.

5结束语

数据挖掘技术是目前国际上的一个研究热点[7],并已在各行业如金融证券业、零售业等得到了应用,初步发挥了其优越性和潜力[8],但同时它也面临着一些不可避免的问题,如需要进一步研究在不同抽象层次挖掘多类型知识的有效方法;更灵活、方便的数据挖掘语言或接口;研究针对面向对象的数据库、空间数据库和多媒体数据库之类的高级数据库系统的数据挖掘技术;挖掘不同来源的数据;Internet信息系统的数据挖掘;所发现知识的应用;发现的知识与专家定义的知识的集成;以及确保在数据挖掘中对隐私的保护方法等,都是以后需深入研究的重要论题[1].

随着数据挖掘技术的迅速发展,越发掀起了投资数据挖掘项目的高潮.但在实现这一复杂、昂贵的技术同时,也暴露了很多问题.投资者往往对其存有过高期望,低估成本,带来了极大的风险;另外还需要有专门的内部专业技术人员或咨询机构解释、评价数据挖掘结果,增加了成本[9].因此信息管理人员和投资者还需充分认识其潜在的问题,要从需求、数据、财力及技术4个方面考虑,认真进行成本/效益分析,避免不必要的开支和风险.