首页 > 文章中心 > 挖掘技术论文

挖掘技术论文

挖掘技术论文

挖掘技术论文范文第1篇

[关键词]数据挖掘客户关系管理应用步骤

根据波特的影响企业的利益相关者理论,企业有五个利益相关者,分别是客户、竞争对手、供应商、分销商和政府等其他利益相关者。其中,最重要的利益相关者就是客户。现代企业的竞争优势不仅体现在产品上,还体现在市场上,谁能获得更大的市场份额,谁就能在竞争中占据优势和主动。而对市场份额的争夺实质上是对客户的争夺,因此,企业必须完成从“产品”导向向“客户”导向的转变,对企业与客户发生的各种关系进行管理。进行有效的客户关系管理,就要通过有效的途径,从储存大量客户信息的数据仓库中经过深层分析,获得有利于商业运作,提高企业市场竞争力的有效信息。而实现这些有效性的关键技术支持就是数据挖掘,即从海量数据中挖掘出更有价值的潜在信息。正是有了数据挖掘技术的支持,才使得客户关系管理的理念和目标得以实现,满足现代电子商务时代的需求和挑战。

一、客户关系管理(CRM)

CRM是一种旨在改善企业与客户之间关系的新型管理方法。它是企业通过富有意义的交流和沟通,理解并影响客户行为,最终实现提高客户获取、客户保留、客户忠诚和客户创利的目的。它包括的主要内容有客户识别、客户关系的建立、客户保持、客户流失控制和客户挽留。通过客户关系管理能够提高企业销售收入,改善企业的服务,提高客户满意度,同时能提高员工的生产能力。

二、数据挖掘(DM)

数据挖掘(DataMining,简称DM),简单的讲就是从大量数据中挖掘或抽取出知识。数据挖掘概念的定义描述有若干版本。一个通用的定义是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取人们感兴趣的知识,这些知识是隐讳的、事先未知的、潜在有用的信息。

常用的数据挖掘方法有:(1)关联分析。即从给定的数据集中发现频繁出现的项集模式知识。例如,某商场通过关联分析,可以找出若干个客户在本商场购买商品时,哪些商品被购置率较高,进而可以发现数据库中不同商品的联系,进而反映客户的购买习惯。(2)序列模式分析。它与关联分析相似,其目的也是为了控制挖掘出的数据间的联系。但序列模式分析的侧重点在于分析数据间的前后(因果)关系。例如,可以通过分析客户在购买A商品后,必定(或大部分情况下)随着购买B商品,来发现客户潜在的购买模式。(3)分类分析。是找出一组能够描述数据集合典型特征的模型,以便能够分类识别未知数据的归属或类别。例如,银行可以根据客户的债务水平、收入水平和工作情况,可对给定用户进行信用风险分析。(4)聚类分析。是从给定的数据集中搜索数据对象之间所存在的有价值联系。在商业上,聚类可以通过顾客数据将顾客信息分组,并对顾客的购买模式进行描述,找出他们的特征,制定针对性的营销方案。(5)孤立点分析。孤立点是数据库中与数据的一般模式不一致的数据对象,它可能是收集数据的设备出现故障、人为输入时的输入错误等。孤立点分析就是专门挖掘这些特殊信息的方法。例如,银行可以利用孤立点分析发现信用卡诈骗,电信部门可以利用孤立点分析发现电话盗用等。

三、数据挖掘在客户关系管理中的应用

1.进行客户分类

客户分类是将大量的客户分成不同的类别,在每一类别里的客户具有相似的属性,而不同类别里的客户的属性不同。数据挖掘可以帮助企业进行客户分类,针对不同类别的客户,提供个性化的服务来提高客户的满意度,提高现有客户的价值。细致而可行的客户分类对企业的经营策略有很大益处。例如,保险公司在长期的保险服务中,积累了很多的数据信息,包括对客户的服务历史、对客户的销售历史和收入,以及客户的人口统计学资料和生活方式等。保险公司必须将这些众多的信息资源综合起来,以便在数据库里建立起一个完整的客户背景。在客户背景信息中,大批客户可能在保险种类、保险年份和保险金额上具有极高的相似性,因而形成了具有共性的客户群体。经过数据挖掘的聚类分析,可以发现他们的共性,掌握他们的保险理念,提供有针对性的服务,提高保险公司的综合服务水平,并可以降低业务服务成本,取得更高的收益。

2.进行客户识别和保留

(1)在CRM中,首先应识别潜在客户,然后将他们转化为客户

这时可以采用DM中的分类方法。首先是通过对数据库中各数据进行分析,从而建立一个描述已知数据集类别或概念的模型,然后对每一个测试样本,用其已知的类别与学习所获模型的预测类别做比较,如果一个学习所获模型的准确率经测试被认可,就可以用这个模型对未来对象进行分类。例如,图书发行公司利用顾客邮件地址数据库,给潜在顾客发送用于促销的新书宣传册。该数据库内容有客户情况的描述,包括年龄、收入、职业、阅读偏好、订购习惯、购书资金、计划等属性的描述,顾客被分类为“是”或“否”会成为购买书籍的顾客。当新顾客的信息被输入到数据库中时,就对该新顾客的购买倾向进行分类,以决定是否给该顾客发送相应书籍的宣传手册。

(2)在客户保留中的应用

客户识别是获取新客户的过程,而客户保留则是留住老顾客、防止客户流失的过程。对企业来说,获取一个新顾客的成本要比保留一个老顾客的成本高。在保留客户的过程中,非常重要的一个工作就是要找出顾客流失的原因。例如,某专科学校的招生人数在逐渐减少,那么就要找出减少的原因,经过广泛的搜集信息,发现原因在于本学校对技能培训不够重视,学生只能学到书本知识,没有实际的技能,在就业市场上找工作很难。针对这种情况,学校应果断的抽取资金,购买先进的、有针对性的实验实训设备,同时修改教学计划,加大实验实训课时和考核力度,培训相关专业的教师。

(3)对客户忠诚度进行分析

客户的忠诚意味着客户不断地购买公司的产品或服务。数据挖掘在客户忠诚度分析中主要是对客户持久性、牢固性和稳定性进行分析。比如大型超市通过会员的消费信息,如最近一次消费、消费频率、消费金额三个指标对数据进行分析,可以预测出顾客忠诚度的变化,据此对价格、商品的种类以及销售策略加以调整和更新,以便留住老顾客,吸引新顾客。

(4)对客户盈利能力分析和预测

对于一个企业而言,如果不知道客户的价值,就很难做出合适的市场策略。不同的客户对于企业而言,其价值是不同的。研究表明,一个企业的80%的利润是由只占客户总数的20%的客户创造的,这部分客户就是有价值的优质客户。为了弄清谁才是有价值的客户,就需要按照客户的创利能力来划分客户,进而改进客户关系管理。数据挖掘技术可以用来分析和预测不同市场活动情况下客户盈利能力的变化,帮助企业制定合适的市场策略。商业银行一般会利用数据挖掘技术对客户的资料进行分析,找出对提高企业盈利能力最重要的客户,进而进行针对性的服务和营销。

(5)交叉销售和增量销售

交叉销售是促使客户购买尚未使用的产品和服务的营销手段,目的是可以拓宽企业和客户间的关系。增量销售是促使客户将现有产品和服务升级的销售活动,目的在于增强企业和客户的关系。这两种销售都是建立在双赢的基础上的,客户因得到更多更好符合其需求的服务而获益,公司也因销售增长而获益。数据挖掘可以采用关联性模型或预测性模型来预测什么时间会发生什么事件,判断哪些客户对交叉销售和增量销售很有意向,以达到交叉销售和增量销售的目的。例如,保险公司的交叉营销策略:保险公司对已经购买某险种的客户推荐其它保险产品和服务。这种策略成功的关键是要确保推销的保险险种是用户所感兴趣的,否则会造成用户的反感。

四、客户关系管理应用数据挖掘的步骤

1.需求分析

只有确定需求,才有分析和预测的目标,然后才能提取数据、选择方法,因此,需求分析是数据挖掘的基础条件。数据挖掘的实施过程也是围绕着这个目标进行的。在确定用户的需求后,应该明确所要解决的问题属于哪种应用类型,是属于关联分析、分类、聚类及预测,还是其他应用。应对现有资源如已有的历史数据进行评估,确定是否能够通过数据挖掘技术来解决用户的需求,然后将进一步确定数据挖掘的目标和制定数据挖掘的计划。

2.建立数据库

这是数据挖掘中非常重要也非常复杂的一步。首先,要进行数据收集和集成,其次,要对数据进行描述和整合。数据主要有四个方面的来源:客户信息、客户行为、生产系统和其他相关数据。这些数据通过抽取、转换和装载,形成数据仓库,并通过OLAP和报表,将客户的整体行为结果分析等数据传递给数据库用户。

3.选择合适的数据挖掘工具

如果从上一步的分析中发现,所要解决的问题能用数据挖掘比较好地完成,那么需要做的第三步就是选择合适的数据挖掘技术与方法。将所要解决的问题转化成一系列数据挖掘的任务。数据挖掘主要有五种任务:分类,估值预测,关联规则,聚集,描述。前三种属于直接的数据挖掘。在直接数据挖掘中,目标是应用可得到的数据建立模型,用其它可得到的数据来描述感兴趣的变量。后两种属于间接数据挖掘。在间接数据挖掘中,没有单一的目标变量,目标是在所有变量中发现某些联系。

4.建立模型

建立模型是选择合适的方法和算法对数据进行分析,得到一个数据挖掘模型的过程。一个好的模型没必要与已有数据完全相符,但模型对未来的数据应有较好的预测。需要仔细考察不同的模型以判断哪个模型对所需解决的问题最有用。如决策树模型、聚类模型都是分类模型,它们将一个事件或对象归类。回归是通过具有已知值的变量来预测其它变量的值。时间序列是用变量过去的值来预测未来的值。这一步是数据挖掘的核心环节。建立模型是一个反复进行的过程,它需要不断地改进或更换算法以寻找对目标分析作用最明显的模型,最后得到一个最合理、最适用的模型。

5.模型评估

为了验证模型的有效性、可信性和可用性,从而选择最优的模型,需要对模型进行评估。我们可以将数据中的一部分用于模型评估,来测试模型的准确性,模型是否容易被理解模型的运行速度、输入结果的速度、实现代价、复杂度等。模型的建立和检验是一个反复的过程,通过这个阶段阶段的工作,能使数据以用户能理解的方式出现,直至找到最优或较优的模型。

6.部署和应用

将数据挖掘的知识归档和报告给需要的群体,根据数据挖掘发现的知识采取必要的行动,以及消除与先前知识可能存在的冲突,并将挖掘的知识应用于应用系统。在模型的应用过程中,也需要不断地对模型进行评估和检验,并做出适当的调整,以使模型适应不断变化的环境。

参考文献:

[1]罗纳德.S.史威福特.客户关系管理[M].杨东龙译.北京:中国经济出版社,2002

[2]马刚:客户关系管理[M]大连:东北财经大学出版社,2008

[3]朱美珍:以数据挖掘提升客户关系管理[J].高科技产业技术与创新管理,2006,(27)

[4]顾桂芳何世友:数据挖掘在客户关系管理中的应用研究[J].企业管理,2007,(7)

挖掘技术论文范文第2篇

执行记录属于软件工程中的挖掘领域,其主要任务是针对执行记录的挖掘主要针对程序执行路径进行分析,进而找出与程序代码所具有的必然联系,以实现软件系统程序与模块代码相结合共同发生作用的目的,对程序的整体起到维护、验证和了解的作用[2]。究其工作的实质,就是以执行路径为线索实现逆向建模,有助于软件工程系统各个环节的理解、维护、跟踪以及验证。

2检测软件漏洞

作为软件工程领域需要协助的软件工程目标之一,针对软件漏洞的检测固然是挖掘数据技术系统中不可或缺的一环。检测的对象和任务主要包括:软件测试的具体项目,对软件系统漏洞库数据信息的收集、转换和清理,信息系统数据的采集与抽取,选择合适的软件系统数据挖掘信息并对其展开验证、整合与训练,对软件数据系统中存在的缺陷漏洞进行整体的分类、定位与具体描述,以及广泛应用于软件测试项目中的各种工程活动。究其最终目的,就是找出软件系统在开发与应用的具体过程中存在的问题、谬误与漏洞,对业已搜索出的问题和漏洞进行及时的矫正与修复。确保软件系统的有效运作与安然运行。

3版本控制信息

版本控制的挖掘属于软件工程领域中的挖掘对象技术之一,这种软件系统的驾驭手段具有与上述两种应用截然不同的独特作用:有效确保软件工程项目编程人员所编辑与制作的档案得到十分有效的管理,进而对系统全局的更新提供稳定的基础与平台。版本控制信息的技能价值看似“默默无闻”,地位实则非常重要,是所有软件工程项目开发必须采用的一门技术,否则任何软件工程项目的开发都无从谈及与运作。这门技术功能经过不断的发展更新,多以应用版本控制系统实施软件开发工作的保护或者管理的方式著称于世。

4开源软件挖掘

开源软件的挖掘,其项目的开发环境优势可谓得天独厚,主要体现在开放性、全局性、动态性三个特征层面上。既然具有别具一格的开放手段与应用方式,所以对该类软件的开发管理,也要采取与与其他传统软件和异类软件截然不同的原则与策略,形成“具体问题具体分析”的思想实践思路。针对其开放性的特征,需要工作人员的频繁流动与变更;针对其动态性的特征,开源项目必须达到优质管理的水平;针对其全局性的特征,有需要开发人员在开发活动与应用软件的过程中保持一个比较完整的记录,以便于广泛的社会网络的生成。

5结语

挖掘技术论文范文第3篇

[关键词]文本挖掘人 文社科 技术应用

[分类号]TP391

[文本挖掘概述

文本挖掘(text mining)是一个跨学科的交叉研究领域,涉及到数据挖掘、机器学习、统计学、自然语言处理、可视化技术、数据库技术等多个学科领域的知识和技术。目前关于文本挖掘并没有统一的定义,关于文本挖掘的名称亦有“文本数据挖掘(text data mining)”或“文本知识发现(knowledge discovery in text)”等不同说法。一个比较广泛使用的定义是:文本挖掘是指为了发现知识,从文本数据中抽取隐含的、以前未知的、潜在有用的模式的过程。它是一个分析文本数据,抽取文本信息,进而发现文本知识的过程。

一个完整的文本挖掘过程一般包括预处理、模式挖掘、模式评价等多个步骤,其中包含了多种文本处理与挖掘技术,如数据预处理技术中的分词、特征表示、特征提取技术,挖掘分析技术中的文本结构分析、文本摘要、文本分类、文本聚类、关联规则、分布分析与趋势预测等技术以及信息展示中的可视化技术等。

文本挖掘技术拓展了现有的数据挖掘技术,把挖掘的对象从结构化的数值数据扩展到非结构化的文本数据,因此可以帮助我们从海量的文本数据中发现新的模式、模型、规则、趋势等知识,目前在很多领域得到了广泛应用。文献计量的结果表明,近年来国际上文本挖掘的研究论文呈迅猛上升势头。以“text mining”为主题词在Web of Knowledge(WoK)中检索可得与文本挖掘相关的论文3 049篇(截至2010年),且呈逐年上升的趋势。从WoK学科统计来看,目前文本挖掘技术的研究主要集中于计算机科学、计算生物学、数学、医药信息学、生物化学与分子化学、信息科学、医学等自然科学领域,论文总数占文献总量的82%。相比而言,人文社会科学领域的论文则较少,两者之和为18%,其中人文科学仅为1%。

由于互联网时代学术资源生产与传递方式的变化,以新的方法和技术从海量文本中发现隐含的知识和模式,成为情报学中最有前景的领域之一。由于人文社科文献的非结构化特征更加明显,文献中包含的隐性内容更多,能否在人文社科领域成功运用文本挖掘就成为了检验文本挖掘的方法论优势的试金石。本文以文本挖掘的几个关键技术——信息抽取、文本分类、文本聚类、关联规则、模式发现与可视化技术为主要线索,分析发现文本挖掘技术在人文社科研究中的应用特点,以便为人文社科研究中更加自觉地应用文本挖掘方法提供新的思路。

2、信息抽取应用

信息抽取(information extraction)是文本挖掘的前-端技术,它从文本对象中抽取预先指定的实体、关系、事件等信息,形成结构化的数据并输入数据库。信息抽取所获得的结构化信息片段从一个角度反映了文本内容的内在特征,因此通过机器学习等方法可以从中发现知识、挖掘知识,为科学研究提供有力的支持。

信息抽取作为一门独立的内容处理技术,其本身在商业、情报分析、数字图书馆等领域有着广泛的应用,已有较多专门的信息抽取系统投入商用。在人文社科研究中,信息抽取常常作为文本挖掘的一个重要步骤,作为知识发现技术的前端和基础。文献构建了基于信息抽取的文本挖掘模型,均把信息抽取作为文本挖掘的一个重要组成部分,是提高文本挖掘效率的一个手段。不仅讨论了信息抽取对文本挖掘的作用,而且证实了通过文本挖掘得出的规则对信息抽取系统具有指导作用。除了作为文本挖掘的前端技术,信息抽取技术在改善信息检索、辅助知识发现方面在人文社科研究中有着较多的应用。

2.1 改善信息检索

传统的信息检索只能通过关键词与文档的匹配返回与用户需求相关的文档,而信息抽取则可以帮助用户直接定位所需的信息,无需阅读文档的全部内容。由于在处理海量数据时具有出色表现,信息抽取在多个人文社科领域得到了应用。在古典文学研究领域,德国莱比锡大学承担的eAQUA项目从古典文献资料(公元前3000年一公元600年)中抽取特定领域的知识,并通过eAQUA门户免费提供这些知识。在文献中,英国伦敦国王学院的Matteo(2010)介绍了一个信息抽取在古典文学中的应用研究项目,该项目旨在对当代关于古希腊和拉丁文学作品进行研究的二手文献进行实体抽取,并提供与原始文献之间的关联,从而提供更高级的信息展示和检索功能。在社会学领域,英国联合信息系统委员会(JISC)资助的ASSERT E’’项目综合利用信息抽取、文本聚类等技术提供了一个自动生成文献综述的系统。信息抽取技术与信息检索技术互相融合渗透,为人文社科领域海量信息资源的获取提供了极大的便利。

2.2 辅助知识发现

挖掘技术论文范文第4篇

【关键词】Web挖掘、网络舆情、分析处理

0 引言

网络舆情作为一种十分重要的舆情表现形式,是公众在互联网上对某种社会现象或社会问题公开表达的具有一定影响力和倾向性的共同意见。要加强对网络舆情信息的分析,及时发现舆情热点,及时对民意走势做出正确引导。在此情况下,我们引入Web数据挖掘技术来提高对舆情的处理和分析的效率以及质量,实现网络舆情的分析。

1 Web挖掘

Web挖掘是数据挖掘在Web上的应用,它是一种综合使用自然语言处理、数据挖掘、人工智能、机器学习等技术的智能分析方法。根据挖掘对象的不同,Web挖掘可以分为Web内容挖掘、Web结构挖掘和Web使用挖掘三个方面。相比于传统的网络舆情分析方法,Web挖掘可以用更短的时间了解网络舆情的状况和走向以及与之相关联的热点问题,为网络舆情的深入分析提供了技术支持。

1.1Web内容挖掘。Web内容挖掘是指从Web文档的内容或者Web搜索的结果中获取知识的过程。由于网页的内容错综复杂不易于计算机理解,Web内容挖掘可以有效的对大量的Web文本集合进行总结、分类、聚类、关联分析,以及利用Web文本进行趋势预测。在网络舆情分析中,Web内容挖掘可以发现与事件主题相关的知识内容和语义关联模式。

1.2Web结构挖掘。Web结构挖掘是指对Web组织结构、Web页面的链接关系等进行挖掘并从中提取出潜在的有用的知识的过程。Web链接信息包括了大量的关于Web内容相关性、质量和结构方面的信息,为网络舆情的分析的提供了重要资源。通过Web结构挖掘,可以获得与舆情主题高度相关的链接以及链接逻辑结构的语义知识,从而帮助舆情分析人员确定重要舆情源和中心页面,有助于深入挖掘舆情信息。

1.3Web使用挖掘。Web使用挖掘是指通过挖掘Web服务器上的日志信息来提取浏览者的访问记录,获取有价值的信息的过程。这些信息包括网络服务器访问记录、服务器日志记录、浏览器日志记录、用户信息、注册记录、用户对话或交易信息、用户提问等。通过上述信息可以发现用户的访问模式以及行为偏好,可以更好地理解用户行为从而提供智能化的服务。通过Web使用挖掘,可以确定舆情热点和焦点,从而更准确地预测网民行为。

2 基于Web数据挖掘的网络舆情分析

2.1数据层。舆情信息采集的主要任务是提取与热点相关度高的信息,为下面的舆情挖掘和分析做好准备工作。舆情信息采集由以下5步完成。

(1)确定主题和选择采集地点。为了使采集效果更好,必须以主题的形式对信息需求进行描述。

(2)利用自动采集软件采集数据。数据采集软件可以自动采集相关信息,并下载到本地进行分析。

(3)页面分析。采集完页面之后,对页面进行分析,提取重要信息,以便进行后续的过滤和处理。

(4)URL与主题的相关性判断。在采集过程中增加过滤机制以便提高采集数据的质量。

(5)页面过滤。对采集页面进行主题相关性评价,去除相关性低的页面,从而提高采集页面的准确性。

2.2 挖掘层。挖掘层主要由语义信息集成和Web挖掘引擎两部分组成,而且语义信息集成为Web挖掘引擎提供经预处理后的结构化信息,简化并加速 了Web挖掘处理。

(1)语义信息集成。由于数据层的数据来自于不同的媒介,因而在结构和语义上都存在很多的不同,需要对其进行统一处理,并根据需要利用智能信息处理技术进行深入的预分析,从而提高挖掘引擎的效能和健壮性。

(2)Web挖掘引擎。Web挖掘引擎是网络舆情分析的动力部分,执行Web挖掘任务。它定义了Web挖掘模型语言,选取了合适的挖掘算法和工具。其主要目的是从大量的网络舆情信息中提取规律,并预测事件的发展趋势。可根据网络舆情信息源的特点,从多个方面更加深入的进行挖掘处理。

2.3分析层。分析层是核心部分,其主要技术应用于对网络舆情信息的智能分析,该分析从六个层面进行,分别是:主体类聚分析、语义关联分析、概念描述、趋势预测分析、主题识别探测和倾向性分析。其功能主要是将经过挖掘处理后的知识进行描述,并生成网络舆情分析报告来辅助决策机构。

2.4应用层。应用层的出现首先方便了与用户之间的交互。用户可以通过软件来指导网络舆情信息的采集、挖掘和分析处理,从而发现隐藏的规律和发展趋势,同时也更易于舆情信息的理解和分析结果的应用。其次,为后续工作提供接口。由于计算机不能对随机出现的各种警情进行判断,因此需要提供系统交互接口,可以让专家进行分析,实现人机互动,从而提高舆情分析的准确性。

3 基于Web挖掘的网络舆情分析系统实例分析

本文以方正智思舆情预警辅助决策支持系统为例,讨论Web挖掘技术在网络舆情分析中的应用。正智思舆情预警辅助决策支持系统是一款由北大方正技术研究院研发而成的中文智能信息挖掘与处理的平台软件。其核心技术为中文信息处理技术与Web挖掘技术,采用B/S结构,利用J2EE技术框架,实现基于浏览器的瘦客户、服务器模式。它不仅能对舆情信息进行全方位采集,还能对舆情信息进行智能分析处理。其实时响应、智能分析、辅助倾向性判断等特点为相关职能部门全面掌握网络舆论动态,作出正确引导,提供分析依据,从而提高各级政府应对突发事件的能力。

4 结语

Web挖掘是一种综合使用自然语言处理、数据挖掘、人工智能、机器学习等技术的智能分析方法。实践表明,将Web挖掘融入网络舆情分析中,可以充分发挥Web挖掘技术从海量信息中发现隐藏的规律,实现对网络舆情信息全方面深入的分析,从而辅助相关职能部门正确引导民意。在网络舆情中应用Web挖掘技术,可以有效地提高网络舆情分析结果的正确性,也是其未来的发展方向。

参考文献:

[1]付业勤,郑向敏. 国内外网络舆情研究的回顾与展望[J]. 编辑之友,2013,12:56-58.

[2]张玉峰,何超. 基于Web挖掘的网络舆情智能分析研究[J]. 情报理论与实践,2011,04:64-68.

挖掘技术论文范文第5篇

目前国内外信息挖掘的研究主要是以知识发现的任务描述、知识评价与知识呈现为主线,以基于各种理论的有效知识发现算法研究为中心,以及更加广泛的应用研究为主要特点。

结构化数据挖掘技术的研究较为成熟,主要集中在算法的适应性、扩展性和鲁棒性的研究上。围绕统计学方法的数据挖掘算法的研究一直受到关注,用于在具有先验知识的情况下的不确定知识发现。关联规则知识发现算法是众多的应用研究的基础,研究工作集中在算法的改造以及可扩展性和普适性的研究上。序贯模式是R.Agrawal提出的重要的数据挖掘方法。包括单一的概念层次,多概念层次的序贯模式的研究。在不同的概念层次发现序贯模式是十分有价值的。

神经网络是目前常用的数据挖掘技术,广泛应用于分类、聚类、预测建模和混沌模式的知识发现。基于概念格理论的知识发现的理论研究和应用近年来受到重视。复杂类型数据的知识发现是目前国内外知识发现领域的研究热点。空间数据是指同占有一定空间的对象的相关联的数据。空间数据挖掘方法主要包括空间分类和空间趋势分析。

文本挖掘用于基于文本信息的知识发现。文本挖掘是利用智能算法,并结合文字处理技术,分析大量的非结构化文本源,抽取或标记关键字概念,文字间的关系,获取有用的知识和信息。其关键在于文本内容的量化表征。多媒体数据的知识发现的研究主要是特征的抽取。在音频数据挖掘中Fourie变换等用于抽取不变性特征。相应的知识发现方法包括学习矢量量化和多层感知器等神经网络方法。

信息挖掘的理论研究表现出多学科的交叉和多种技术方法的融合及信息挖掘的泛化和统一的特征。知识发现技术逐渐渗透到复杂非线性系统,如社会科学、生物信息科学、商业与金融领域、地震和气象学等领域的信息处理之中。复杂性系统的信息过程表现出显著的非线性动力学特征。

3信息挖掘是商业信息处理技术的关键

商业领域中的海量历史数据与实时数据和广泛的应用需求为信息挖掘的应用和发展提供了一个广阔的空间。信息挖掘与已有信息系统和人工智能技术相结合,为商业与金融数据的分析处理提供了重要的工具和理论方法。这些理论和工具已经被用于解决金融与商业领域的以下各类问题:信用等级的评估;金融和经济预测;证券价格变动的预测;破产和银行倒闭预测;恶性透支和商业欺诈甄别;证券的投资选择和分类;商业行为分析以及销售与客户关系分析等。

在金融与商业领域中,信息挖掘技术的应用表现为范围上的延拓和层次上的深化以及多种技术方法的整合。利用文本挖掘,可以从Internet上的成千上万的与金融相关的Web网页中获取全球金融市场的实时数据、与金融市场相关的市场、宏观经济环境、政策和法规等消息、进行金融分析报告等。利用数据挖掘技术对分布于全球的市场消息和信息的处理来预测全球市场的主要股票指数,并对全球主要外汇交易市场货币交易率的未来走势进行预测和决策分析。

从细微和难懂的数据中识别、发现和抽取各类知识和规律。这样的商业分析每天都在发生:营销管理人员需要为某种产品进行目标市场分析;同时他们要求知道购买竞争对手产品的客户规模、潜在客户对优惠券的相对接受能力、竞争对手的产品在零售商店中陈设的位置、下一个商业周期中对自己的及竞争对手的产品需求预测,等等。基于信息挖掘的商业与金融信息处理技术的价值在于能够为使用者提供从数据集合中发现新关系的能力。极大地加强战术和战略决策以及决策过程的精确性。