首页 > 文章中心 > 数据挖掘

数据挖掘范文精选

数据挖掘

数据挖掘范文第1篇

[关键词]数据挖掘Web挖掘路径分析电子商务

一、引言

近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。数据挖掘是面向发现的数据分析技术,通过对大型的数据集进行探查。可以发现有用的知识,从而为决策支持提供有力的依据。

Web目前已成为信息、交互和获取的主要工具,它是一个巨大的、分布广泛的、全球性的信息服务中心。它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和其他许多信息服务。面向Web的数据挖掘就是利用数据挖掘技术从Web文档及Web服务中自动发现并提取人们感兴趣的、潜在的有用模型或隐藏的信息。

二、概述

1.数据挖掘的基本概念

数据挖掘是从存放在数据库、数据仓库、电子表格或其他信息库中的大量数据中挖掘有趣知识的过程。数据挖掘基于的数据库类型主要有:关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、Internet信息库以及新兴的数据仓库等。

2.Web数据挖掘

Web上有少量的数据信息,相对传统的数据库的数据结构性很强,即其中的数据为完全结构化的数据。Web上的数据最大特点就是半结构化。所谓半结构化是相对于完全结构化的传统数据库的数据而言。由于Web的开放性、动态性与异构性等固有特点,要从这些分散的、异构的、没有统一管理的海量数据中快速、准确地获取信息也成为Web挖掘所要解决的一个难点,也使得用于Web的挖掘技术不能照搬用于数据库的挖掘技术。因此,开发新的Web挖掘技术以及对Web文档进行预处理以得到关于文档的特征表示,便成为Web挖掘的重点。

三、Web数据挖掘分类

Web数据有三种类型,它们分别是:HTML标记的Web文档数据、Web文档内的廉洁的结构数据和用户访问数据,相应地,Web数据挖掘可分为三类:内容挖掘(Webcontentmining)、结构挖掘(Webstructuremining)和用户访问模式挖掘(Webusagemining)。如下图所示。

1.Web内容挖掘

Web内容挖掘是从文档内容或其描述中抽取有用信息的过程,Web内容挖掘按实现方法分为两大类:信息检索(IR)方法和数据库方法。且有两种策略:直接挖掘文档的内容和在其他工具搜索的基础上进行改进。

IR方法主要处理非结构数据和Web中由HTML标记的半结构化数据。前者一般采用词集方法,用一组组词条来表示无结构的文本。后者主要利用传统的数据挖掘技术:如关联规则、分类算法、演绎逻辑和规则学习等。

2.Web结构挖掘

Web结构挖掘是从Web组织结构和链接关系中推导知识。挖掘页面的结构和Web结构,可以用来指导对页面进行分类和聚类,找到权威页面、中心页面,从而提高检索的性能。同时还可以用来指导页面采集工作,提高采集效率。Web结构挖掘可以分为Web文档内部结构挖掘和文档问的超链接结构挖掘。

Web结构挖掘的基本思想是将Web看作一个有向图,他的顶点是Web页面,页面间的超链就是图的边。然后利用图论对Web的拓扑结构进行分析。常见的算法有HITS(HypertextInducedTopicSearch),PageRank,发现虚拟社区的算法、发现相似页面的算法、发现地理位置的算法和页面分类算法。Web结构挖掘的算法一般可分为查询相关算法和查询无关算法两类。查询相关算法需要为每一个查询进行一次超链分析从而进行一次值的指派;而查询独立算法则为每个文档仅进行一次值的指派,对所有的查询都使用此值。HITS和PageRank分别是查询相关算法和查询独立算法的代表。

3.Web访问挖掘

Web访问挖掘是从服务器端记录的用户访问日志或从用户的浏览信息中抽取感兴趣的模式,通过分析这些数据可以帮助理解用户隐藏在数据中的行为模式,做出预测性分析,从而改进站点的结构或为用户提供个性化的服务。

Web访问挖掘一般分为两种:一般访问模式跟踪和定制使用跟踪。一般访问模式跟踪通过分析Web日志来理解用户的访问模式和倾向;定制使用跟踪分析单个用户的偏好,根据其访问模式为每个用户定制符合其个人特色的Web站点。Web的log数据包括:senrerlog,proxyserverlog,client端的cookielog等。Web使用记录挖掘通常需要经过三个阶段:数据预处理阶段(主要包括数据清洗和事物识别两个部分):模式识别阶段(采用统计法、机器学习等成熟技术.从Web使用记录中挖掘知识):模式分析阶段(采用合适的成熟的技术和工具进行模式的分析,从而辅助分析人员理解.使采用各种工具挖掘出的模式得到很好利用)。对Web使用记录挖掘采用的算法有:路径分析、关联规则和有字模式的发现、聚类分类等,为了提高精度,使用记录挖掘也用到站点结构和页面内容等信息。四、Web数据挖掘中的关键技术

Web数据挖掘中常用的技术有Web使用的特有的路径分析技术,数据挖掘领域常用的关联规则、序列模式、分类聚类技术等。

1.路径分析技术

用路径分析技术进行Web数据挖掘时,最常用的是图,因为Web可以用一个有向图来表示,G=(V,E),V是页面的集合,E是页面之间的超连接集合,页面定义为图中的顶点,而页面之间的超连接定义为图中的有向边。顶点v的入边表示对v的引用,出边表示v引用了其他的页面,这样形成网站结构图,从图中确定最频繁的访问路径。

2.关联规则挖掘技术

关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则,就是要挖掘出用户在一个访问期间(SESSION),从服务器上访问的页面/文件之间的联系,这些页面之间可能并不存在直接的参引(RIFERENCE)关系.最常用的是用APRIOR算法,从事务数据库中挖掘出最大频繁访问项集,这个项集就是关联规则挖掘出来的用户访问模式。

3.序列模式挖掘技术

序列模式数据挖掘就是要挖掘出交易集之间的有时间序列关系的模式.它与关联挖掘技术都是从用户访问下的日志中寻找用户普遍访问的规律,关联挖掘技术更注重事务内的关系,序列模式技术则注重事务间的关系。

4.聚类分类技术

分类规则可以挖掘出某些共同的特性,这个特性可以用来对新添到数据库里的数据项进行分类。在Web数据挖掘中,分类技术可以根据访问这些用户而得到的个人信息或共同的访问模式得出访问某一服务器文件的用。特征。聚类技术则是对符合某一访问规律特征的用户进行用户特征挖掘。最后进行模式分析,挖掘出人们可理解的知识的模式解释。

五、Web数据挖掘的应用

随着中国经济的高速发展,数据挖掘将在中国形成一个产业,目前Web数据挖掘已广泛地应用于金融业、远程通讯业、政府管理、制造业、医疗服务以及体育事业中,基于Web的数据挖掘技术已经成为一个热点,下面主要介绍Web数据挖掘的三个应用前景。

1.在电子商务中的应用

在电子商务中,运用Web挖掘技术从服务器和浏览器端日志记录中自动发现隐藏在数据中的模式信息,对此进行分析加工,通过对客户进行分类和聚类,从中可得到商家用于向特定消费群体或个体进行定向营销的决策信息。了解系统的访问模式以及用户的行为模式,从而做出预测性分析。同时有效地对这些Web日志进行定量分析,提示其中的关联关系、时序关系、页面类属关系、客户类属关系和频繁访问路径、频繁访问页面等,从而为企业更有效地确认目标市场、改进决策获得更大的竞争优势提供帮助。

2.在搜索引擎中的应用

利用Web数据挖掘技术,通过对网页内容的挖掘,可实现对网页的聚类和分类,实现网络信息的分类浏览与检索;运用网络内容挖掘技术改进关键词加权算法,提高网络信息的标引准确度,从而改善检索效果;通过对用户所使用的提问式的历史记录的分析,可以有效地进行提问扩展,提高用户的检索效率。

3.在网站设计中的应用

在网站建设中,使用Web挖掘通过对网站内容的挖掘,可有效地组织网站信息,例如采用自动归类技术实现网站信息的层次性组织;分析用户的Web访问行为,可为用户提供智能化、个性化服务。比如,可根据客户的访问兴趣、访问频度、访问时间,动态地调整页面结构,迎合每个客户的浏览兴趣,使客户在浏览时感觉自己是网站的惟一客户;另外,网站还可以根据实际用户的浏览情况,挖掘用户的兴趣点,定期为用户推送相关信息,以及调整网站中网页的链接结构和内容,为用户提供个人的定制服务。

数据挖掘范文第2篇

数据挖掘是从数据当中发现趋势和模式的过程,它融合了现代统计学、知识信息系统、机器学习、决策理论和数据库管理等多学科的知识。它能有效地从大量的、不完全的、模糊的实际应用数据中,提取隐含在其中的潜在有用的信息和知识,揭示出大量数据中复杂的和隐藏的关系,为决策提供有用的参考。

二、数据挖掘的方法和基本步骤

(一)数据挖掘的主要方法

常用的数据挖掘方法主要有决策树(DecisionTree)、遗传算法(GeneticAlgorithms)、关联分析(AssociationAnalysis)、聚类分析(ClusterAnalysis)、序列模式分析(SequentialPattern)以及神经网络(NeuralNetworks)等。

(二)数据挖掘的基本步骤

SAS研究所提出的SEMMA方法是目前最受欢迎的一种数据挖掘方法,其描述的数据挖掘的大致过程包括取样(Sample)、探索(Explore)、修改(Modify)、模型(Model)和评价(Assess)。

1.数据取样

在进行数据挖掘之前,首先要根据数据挖掘的目标选定相关的数据库。通过创建一个或多个数据表进行抽样。所抽取的样本数据量既要大到足以包含有实际意义的信息,同时又不至于大到无法处理。

2.数据探索

数据探索就是对数据进行深入调查的过程,通过对数据进行深入探察以发现隐藏在数据中预期的或未被预期的关系和异常,从而获取对事物的理解和概念。

3.数据调整

在上述两个步骤的基础上对数据进行增删、修改,使之更明确、更有效。

4.建模

使用人工神经网络、回归分析、决策树、时间序列分析等分析工具来建立模型,从数据中发现那些能够对预测结果进行可靠预测的模型。

5.评价

就是对从数据挖掘过程中发现的信息的实用性和可靠性进行评估。

三、数据挖掘在管理会计中的运用

(一)数据挖掘在管理会计中运用的重要意义

1.提供有力的决策支持

面对日益激烈的竞争环境,企业管理者对决策信息的需求也越来越高。管理会计作为企业决策支持系统的重要组成部分,提供更多、更有效的有用信息责无旁贷。因此,从海量数据中挖掘和寻求知识和信息,为决策提供有力支持成为管理会计师使用数据挖掘的强大动力。例如,数据挖掘可以帮助企业加强成本管理,改进产品和服务质量,提高货品销量比率,设计更好的货品运输与分销策略,减少商业成本。

2.赢得战略竞争优势的有力武器

实践证明数据挖掘不仅能明显改善企业内部流程,而且能够从战略的高度对企业的竞争环境、市场、顾客和供应商进行分析,以获得有价值的商业情报,保持和提高企业持续竞争优势。如,对顾客价值分析能够将为企业创造80%价值的20%的顾客区分出来,对其提供更优质的服务,以保持这部分顾客。

>3.预防和控制财务风险

利用数据挖掘技术可以建立企业财务风险预警模型。企业财务风险的发生并非一蹴而就,而是一个积累的、渐进的过程,通过建立财务风险预警模型,可以随时监控企业财务状况,防范财务危机的发生。另外,也可以利用数据挖掘技术,对企业筹资和投资过程中的行为进行监控,防止恶意的商业欺诈行为,维护企业利益。尤其是在金融企业,通过数据挖掘,可以解决银行业面临的如信用卡的恶意透支及可疑的信用卡交易等欺诈行为。根据SEC的报告,美国银行、美国第一银行、联邦住房贷款抵押公司等数家银行已采用了数据挖掘技术。(二)数据挖掘在管理会计中的应用

1.作业成本和价值链分析

作业成本法以其对成本的精确计算和对资源的充分利用引起了人们的极大兴趣,但其复杂的操作使得很多管理者望而却步。利用数据挖掘中的回归分析、分类分析等方法能帮助管理会计师确定成本动因,更加准确计算成本。同时,也可以通过分析作业与价值之间的关系,确定增值作业和非增值作业,持续改进和优化企业价值链。在ThomasG,JohnJ和Il-woonKim的调查中,数据挖掘被用在作业成本管理中仅占3%。

2.预测分析

管理会计师在很多情况下需要对未来进行预测,而预测是建立在大量的历史数据和适当的模型基础上的。数据挖掘自动在大型数据库中寻找预测性信息,利用趋势分析、时间序列分析等方法,建立对如销售、成本、资金等的预测模型,科学准确的预测企业各项指标,作为决策的依据。例如对市场调查数据的分析可以帮助预测销售;根据历史资料建立销售预测模型等。

3.投资决策分析

投资决策分析本身就是一个非常复杂的过程,往往要借助一些工具和模型。数据挖掘技术提供了有效的工具。从公司的财务报告、宏观的经济环境以及行业基本状况等大量的数据资料中挖掘出与决策相关的实质性的信息,保证投资决策的正确性和有效性。如利用时间序列分析模型预测股票价格进行投资;用联机分析处理技术分析公司的信用等级,以预防投资风险等。

4.顾客关系管理

顾客关系管理是提升企业竞争优势的有力武器。首先,要对顾客群体进行分类。通过对数据仓库的分类和聚类分析,可发现群体顾客的行为规律,从而对顾客进行分组,实行差别化服务;其次,对顾客的价值进行分析,根据帕累托定律,20%的客户创造了企业80%的价值。针对这种情况,公司可以从客户数据库中挖掘出这部分顾客,对这部分顾客的行为、需求以及偏好进行动态跟踪和监控,并根据不同的顾客群的不同特点提供相应的产品和服务,从而与顾客建立长期的合作关系,提高顾客保持力。如在电信部门,对电信数据进行多维分析有助于识别和比较不同顾客对于产品的不同需求,从而使企业提供更有特色的产品,为顾客提供更优质的服务。

5.产品和市场分析

品种优化是选择适当的产品组合以实现最大的利益的过程,这些利益可以是短期利润,也可以是长期市场占有率,还可以是构建长期客户群及其综合体。为了达到这些目标,管理会计师不仅仅需要价格和成本数据,有时还需要知道替代品的情况,以及在某一市场段位上它们与原产品竞争的状况。另外企业也需要了解一个产品是如何刺激另一些产品的销量的等等。例如,非盈利性产品本身是没有利润可言的,但是,如果它带来了可观的客户流量,并刺激了高利润产品的销售,那么,这种产品就非常有利可图,就应该包括在产品清单中。这些信息可根据实际数据,通过关联分析等技术来得到。

6.财务风险分析

管理会计师可以利用数据挖掘工具来评价企业的财务风险,建立企业财务危机预警模型,进行破产预测。破产预测或称财务危机预警模型能够帮助管理者及时了解企业的财务风险,提前采取风险防范措施,避免破产。另外,破产预测模型还能帮助分析破产原因,对企业管理者意义重大。在20世纪30年代,Smith和Winakor率先进行了破产预测的尝试。随后到了20世纪60年代,Altman利用多维判别式分析(MultivariateDiscriminantAnalysis)方法提出的Z-score破产预测模型取得了很大的成功,预测准确率高达90%以上。此后,数据挖掘技术包括多维判别式分析(MultivariateDiscriminantAnalysis)、逻辑回归分析(LogisticRegressionAnalysis)、遗传算法、神经网络以及决策树等方法在企业破产预测中得到了广泛的应用。

四、结束语

随着我国加入WTO,企业面临的竞争压力也越来越大。充分利用信息技术的最新成果,挖掘企业自身潜力,加强企业内部管理,提升企业竞争力刻不容缓。数据挖掘技术的推广应用虽然受到成本和技术的限制,但是如果能取得企业高层管理者的支持,数据挖掘的应用将会有很大的发展前景。

数据挖掘范文第3篇

[关键词]数据挖掘数据挖掘方法

随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。

一、数据挖掘的定义

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。

二、数据挖掘的方法

1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。

3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

三、结束语

目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。

数据挖掘范文第4篇

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

三、结束语

目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。

数据挖掘范文第5篇

关键词:数据挖掘电子商务数据库

一、引言

电子商务是指以Internet网络为载体、利用数字化电子方式开展的商务活动。随着网络技术和数据库技术的飞速发展,电子商务正显示越来越强大的生命力。电子商务的发展促使公司内部收集了大量的数据,并且迫切需要将这些数据转换成有用的信息和知识,为公司创造更多潜在的利润。利用数据挖掘技术可以有效地帮助企业分析从网上获取的大量数据,发现隐藏在其后的规律性,提取出有效信息,进而指导企业调整营销策略,给客户提供动态的个性化的高效率服务。

二、数据挖掘技术

1.数据挖掘

数据挖掘(DataMining),又称数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD),是从大量的、不完全的、有噪声的、模糊的和随机的数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。数据挖掘是一门广义的交叉学科,它汇聚了不同领域尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的知识。数据挖掘技术从一开始就是面向应用领域,它不仅是面向特定数据库的简单检索查询调用,而且,要对数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指定实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。数据挖掘技术在金融、保险、电信、大型超市等积累有大量数据的电子商务行业有着广泛的应用,如信用分析、风险分析、欺诈检验、用户聚类分析、消费者习惯分析等。

2.数据挖掘过程

挖掘数据过程可以分为3个步骤:数据预处理、模式发现、模式分析。

(1)数据预处理。实际系统中的数据一般都具有不完全性、冗余性和模糊性。因此,数据挖掘一般不对原始数据进行挖掘,要通过预处理提供准确、简洁的数据。预处理主要完成以下工作:包括合并数据,将多个文件或多个数据库中的数据进行合并处理;选择数据,提取出适合分析的数据集合;数据清洗、过滤,剔除一些无关记录,将文件、图形、图像及多媒体等文件转换成可便于数据挖掘的格式等。

(2)模式发现。模式发现阶段就是利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的以及最终可以理解的信息和知识。可用于Web的挖掘技术有路径选择、关联分析、分类规则、聚类分析、序列分析、依赖性建模等等。

(3)模式分析。模式分析是从模式发现阶段获得的模式、规则中过滤掉不感兴趣的规则和模式。通过技术手段,对得到的模式进行数据分析,得出有意义的结论。常用的技术手段有:关联规则、分类、聚类、序列模式等。

三、电子商务中几种常用的数据挖掘方法

1.关联规则

关联规则是数据挖掘研究的主要模式之一,侧重于确定数据中不同领域之间的关系,找出满足给定条件下的多个域间的依赖关系。关联规则挖掘对象一般是大型数据库,该规则一般表示式为:A1∧A2∧…Am=>B1∧B2∧…Bm,其中,Ak(k=1,2,…,m),Bj(j=1,2,…,n)是数据库中的数据项。有Support(A=>B)=P(A∪B),Confidence(A=>B)=P(A|B)。数据项之间的关联,即根据一个事务中某些数据项的出现可以导出另一些数据项在同一事务中的出现。关联分析的目的是挖掘出隐藏在数据间的相互关系。关联规则用于寻找在同一个事件中出现的不同项的相关性,比如在一次购买活动中所买不同商品的相关性。关联分析的典型例子是购物篮分析,描述顾客的购买行为,可以帮助零售商决定商品的摆放和捆绑销售策略。如著名的(面包+黄油→牛奶)例子就属于关联分析:在超市中,90%的顾客在购买面包和黄油的同时,也会购买牛奶。直观的意义是:顾客在购买某种商品时有多大的倾向会购买另外一些商品。找出所有类似的关联规则,对于企业确定生产销售、产品分类设计、市场分析等多方面是有价值的。

2.聚类分析方法

类聚分析就是直接比较样本中各事物之间的性质,将性质相近的归为一类,而将性质差别较大的分在不同的类。对变量聚类计算变量之间的距离,对样本聚类则计算样本之间的距离。它的目的是使得属于同一类别的个体之间的距离尽可能小,而不同类别上的个体间的距离尽可能大。

聚类分析用于把有相似特性的客户、数据项集合到一起。在电子商务中,聚类分析常用于市场细分。根据已有客户的数据,利用聚类技术将市场按客户消费模式的相似性分为若干细分市场,以进行有针对性的市场营销,提供更适合、更满意的服务。如自动给一个特定的客户聚类发送销售邮件,为一个客户聚类动态地改变一个特殊的站点等。通过对聚类的客户特征的提取,电子商务网站还可以为客户提供个性化的服务。

3.分类分析

分类系统是基于遗传算法的机器学习中的一类,它包括一个简单的基于串规则的并行生成子系统、规则评价子系统和遗传算法子系统。分类系统正在被人们越来越多地应用于科学、工程和经济领域中,是目前遗传算法研究领域中一个非常活跃的领域。

分类分析是数据挖掘中应用最多的方法。分类要解决的问题是为一个事件或对象归类,既可以用于分析已有的数据,也可以用来预测未来的数据。分类通过分析已知分类信息的历史数据,总结出一个预测模型,预测哪些人可能会对邮寄广告、产品目录等有反应,可以针对这一类客户的特点展开商务活动,提供个性化的信息服务。

4.序列模式

序列模式挖掘就是要挖掘出交易集之间有时间序列关系的模式。它挖掘的侧重点在于分析数据间的前后或因果关系,找到那些“一些项跟随另一些项”,以预测未来的访问模式。序列模式分析和关联分析类似,其目的也是为了挖掘数据之间的联系,但序列模式分析的侧重点在于分析数据间的前后序列关系。它能发现数据库中形如“在某一段时间内,顾客购买商品A,接着购买商品B,而后购买商品C,即序列A-B-C出现的频率较高”之类的知识。序列模式分析描述的问题是:在给定交易序列数据库中,每个序列是按照交易时间排列的一组交易集,挖掘序列函数作用在这个交易序列数据库上,返回该数据库中出现的高频序列。在进行序列模式分析时,同样也需要有用户输入最小置信度C和最小支持度S。

序列模式便于进行电子商务的组织,预测客户的访问模式,对客户开展有针对性的广告服务或者主动推荐客户感兴趣的页面,以满足访问者的特定要求。

四、结束语