首页 > 文章中心 > 数据挖掘学习计划

数据挖掘学习计划

数据挖掘学习计划

数据挖掘学习计划范文第1篇

关键词:数据挖掘;煤矿产业;电子商务;节点特征挖掘

一、引言

数据挖掘是一个年青的、动态变化的、生机勃勃且快速成长的领域,该技术是在当前大量数据日积月累的时代背景下应运而生的[1]。“数据挖掘”一词有广义和狭义两种理解:广义的数据挖掘等同于知识发现过程,共包括数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示七个步骤;狭义的数据挖掘是知识发现过程中的一个基本步骤。本文的“数据挖掘”更像以上步骤中的第五步,但在此之前通常需要对获取的数据进行清理、选择或变换等预处理操作,为挖掘阶段做准备。

随着数据挖掘技术的兴起、发展与成熟,很多研究者已将其运用到互联网、移动互联网、社交网络等各个领域,用于发现海量数据中隐藏的信息。事实上,数据挖掘对于大数据的分析和处理能力同样可以运用在传统产业中[2],本文将从煤矿产业角度出发,介绍数据挖掘技术在传统产业中的应用。首先,本文着重介绍数据挖掘常用的技术;其次,我们以电子商务和用户节点特征挖掘为例,介绍数据挖掘技术在煤矿产业中的应用场景,并总结在具体应用中常见的思路和具体方法。

二、数据挖掘技术综述

现实世界中的数据极易受到许多干扰,如噪声、缺失值、不一致数据等,低质量的数据将直接影响挖掘的结果,因此本章将首先介绍数据挖掘中常用的预处理方法。对数据中隐藏模式的挖掘主要通过监督模型和无监督模型实现。监督模型基于对数据的先验知识,分为分类和回归方法;而无监督模型用于对要挖掘的模式毫无先验知识的情况,分为聚类和关联分析方法。本章将以分类和聚类算法为例,具体介绍数据挖掘的基本思想[3]。

1. 数据预处理

数据预处理方法很多,一般分为四个步骤:

数据清理:包括补全缺失值、光滑噪声、识别离群点、纠正数据不一致性。

数据集成:把多种数据源的数据组合从而形成一个完整的数据集,这里的数据源可能包括多个数据库、数据立方体及一般文件。

数据规约:通过聚集、删除冗余特征或聚类来降低数据规模,得到数据集的规约表示,而使得信息内容的损失最小化。

数据变换:用汇总、聚集等方式,将数据变换为可挖掘的统一形式。

2. 监督模型

分类算法是监督模型中常用的算法,适用于数据集或数据集中的部分数据有标签的情况,它从每个数据元素都包含分类标签的训练数据开始,通过对训练数据的学习建立一个分类模型,用于将新的数据元素自动分类到训练数据提供的类别中。也就是说,数据分类是一个两阶段过程,包括学习阶段(构建分类模型)和分类阶段(使用模型预测给定数据的类别)。常用的算法有决策树、贝叶斯分类和基于规则的分类等[1]。

决策树分类器:是从有分类结果标号的训练数据中学习,从而形成一种类似流程图的树结构,每个内部结点表示在某一个属性上的测试,每个分枝代表该测试的一个输出,而每个树叶结点代表一个分类标号。决策树构造的主要方法是自顶向下递归的分治方式。

叶斯分类器:属于一种统计学分类方法,用于预测类隶属关系的概率。对分类算法的比较研究发现,朴素贝叶斯的分类结果可以与决策树和神经网络相媲美。

基于规则的分类器:规则是表示信息或少量知识的好方法,基于规则的分类器是通过一组IF-THEN规则指导分类结果。IF部分表示规则的前提,THEN部分表示规则的结论。

3. 无监督模型

聚类算法是无监督模型中的常见算法,适用于数据集合不包含任何标签的情况,即每个数据元素的类标号是未知的。聚类是把数据对象集划分成多个组或簇的过程,使簇内对象相似性很高,但与其他簇中对象相似性很低。相异性和相似性是对结果的评估,主要用距离度量。如果数据源包含大量文本内容,对其进行聚类操作时,通常将文本关键词表示为矩阵形式,进而用余弦距离度量文本相似性。聚类算法可从多方面分类,如根据划分标准、簇的分离性、所使用的相似性度量和聚类空间等。下面介绍几种主要的基本聚类方法。

划分方法:聚类分析最简单、最基本的方法是划分,它是把数据对象划分成多个互斥的组或簇的过程。具体来说,划分方法是将目标集合中的n个对象划分成k个分区,每个分区即代表聚类结果中的一个簇(kn)。

层次方法:通过对数据集的层次分解完成聚类,分为凝聚聚类和分裂聚类两种。凝聚聚类是自底向上的,首先认为每个对象各自为一个簇,然后通过迭代逐渐把初始的小簇合并成越来越大的簇,直到所有对象成为一个簇,或满足某种终止条件。分裂聚类是自顶向下的,首先它把所有对象置于一个簇中,然后从根开始递归地把这些簇划分成多个较小的子簇。

基于密度的方法:基于密度的方法在于弥补基于对象间距离的方法只能发现球状簇的缺陷,该方法可用于发现任意形状的簇。基于密度的方法把簇看做数据空间中被稀疏区域分开的稠密区域,当“邻域”中的密度超过某个阈值时,该方法继续增长给定的簇。

基于网格的方法:上述方法都是数据驱动的,它们划分对象集并自动适应嵌入空间中的数据分布。而基于网格的方法采用空间驱动的方法,把嵌入空间划分成独立于输入对象分布的单元。该方法中的网格指多分辨率的网格数据结构,它将对象空间量化成有限数目的单元而形成网格结构,在该结构上进行所有的聚类操作。

三、数据挖掘技术在传统煤矿产业中的应用

传统煤矿产业每天也产生着大量的数据,这些数据中同样隐藏着各类有价值的信息,通过数据挖掘技术可以帮助分析数据中暗含的隐藏价值。本章将以电子商务和用户特征挖掘为例,介绍数据挖掘方法在煤矿产业中的应用场景,并介绍具体求解思路和方法。

1. 煤矿电子商务的数据挖掘场景

当全球资源化越发畅通和普及,网络技术和信息的传播作为数据大幅增长的重要传载体,企业中产生了以电子商务领域为主的大量业务数据。如何满足企业运作的高效要求,是目前电子商务急需解决的问题,将数据挖掘技术完善地应用到企业电子商务中,也显得更为必要[4]。文献[5]从现在电子商务的的概念与特性讲起,介绍了煤炭交易的电子商务活动中的数据分析和运用特点,并针对这些特点引入数据挖掘技术概念,详细分析了煤炭交易中电子商务数据挖掘的类型及相关方法。这里我们将概括该论文的具体思路,论述数据挖掘技术在煤炭交易电子商务场景下的应用。

煤炭交易电子是利用计算机技术、计算机互联网技术和通信技术,实现在煤炭交易的活动过程中的电子化、数字化和网络化。煤炭交易电子商务中产生的是基于计算机和Internet的Web数据,其具有鲜明的数据新特性:动态性、海量性和直接性。在电子商务的实际运用过程中,根据用户访问和顾客或企业访问产生的信息进行数据提取,大致可以分为3种数据挖掘的数据类型,即使用记录数据、内容数据和结构数据类型。相应地,基于Web的数据挖掘技术分为:使用日志或访问记录的数据挖掘模式、内容数据挖掘模式、结构数据挖掘模式。数据挖掘在电子商务的应用实现过程大致分为4个步骤:数据收集、数据预处理、模型评估、解释模型得出结论。

2. 煤矿产业中的用户节点特征挖掘场景

社交网络中有很多关于用户节点特征挖掘的研究,如对用户基本信息的挖掘、对用户行为和人格特征的挖掘、对用户兴趣喜好的挖掘等。这类方法同样可以借鉴到煤矿产业中,具体可以有两类应用:一是将员工看作用户节点,根据已记录的员工基本信息和工作信息,推断员工的工作习惯、兴趣爱好等隐藏信息,从而对员工有更深入的了解,有助于企业人文关怀的开展;二是将煤矿资源看作用户节点,根据已知的煤矿资源位置、属性及特点预测其他煤矿资源的信息,并帮助预测未发掘的煤矿资源位置。

该场景最常用到的方法是统计分析、分类、聚类和推断学习。其中,统计分析是各类方法的基础,几乎所有的研究都需要首先通过一定的统计分析过程发现数据规律,进而根据这一规律建模求解。分类是已知要挖掘的用户节点标签类别时常用的一种方法,除了本文第二章介绍的基本分类方法外,神经网络、SVM支持向量机、遗传算法、瀑布分类器等也都是常用的分类方法。聚类是在要挖掘的用户标签类别未知时常用的一种方法,除本文第二章介绍的基本聚类方法外,实际中常用的还有模糊聚类、基于概率模型的聚类等方法。推断和学习算法是根据其他信息学习目标信息,常用的是基于概率或网络图谱的方法。

四、结语

在当今数据r代下,每天来自商业、社会、科学和工程、医疗以及我们日常生活的方方面面的数兆兆字节或数千兆字节的数据注入我们的计算机网络、万维网和各种数据存储设备。可用数据的爆炸式增长、广泛可用和巨大数量使得我们的时代成为真正的数据时代。急需功能强大和通用的工具,以便从这些海量数据中发现有价值的信息,把这些数据转化成有组织的知识。这种需求导致了数据挖掘的诞生,这一技术已经并将就在我们从数据时代大步跨入信息时代的历程中做出贡献。

很多传统产业也开始利用数据挖掘技术解决生产过程中的实际问题。本文首先介绍了数据挖掘的常用基本算法,然后举例提出了在煤矿产业中可能的应用场景:一是将基于Web的数据挖掘方法应用到企业电子商务中;二是通过统计分析、分类、聚类和推断学习方法挖掘用户员工或煤矿资源的特征。事实上,数据挖掘理论在煤矿产业中的应用远不止这些,对生产资料的调控与分配、安全事故的分析和预警等同样可以通过数据挖掘技术解决。数据挖掘在传统煤矿产业的应用在为传统产业带来新机遇的同时,也为理论算法的进一步完善提出了新的挑战。

参考文献:

[1]韩家炜,坎伯.数据挖掘:概念与技术[J].北京:机械工业出版社, 2001: 232-233.

[2] 董建新.计算机数据挖掘技术在煤矿行业的应用[J].煤炭技术,2012,31(004):87-89.

[3] Barbier G,Liu H.Data mining in social media[M]//Social Network Data Analytics.Springer US, 2011: 327-352.

数据挖掘学习计划范文第2篇

[关键词]数据挖掘 企业 应用

[中图分类号]TP[文献标识码]A[文章编号]1007-9416(2010)02-0079-02

1 前言

数据挖掘能帮助企业减少不必要投资的同时提高资金回报。数据挖掘给企业带来的潜在的投资回报几乎是无止境的。世界范围内具有创新性的公司都开始采用数据挖掘技术来判断哪些是他们的最有价值客户、重新制定他们的产品推广策略,以用最小的花费得到最好的销售。

2 数据挖掘概述

数据挖掘是一种决策支持过程,是一类深层次的数据分析方法。它主要基于AI、机器学习、统计学等技术,高度自动化地分析企业原有的数据,作出归纳性地推理,从中挖掘出潜在的模式,预测客户行为,帮助企业的决策者调整市场策略,减少风险,做出正确的决策。数据挖掘的商业应用可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来做出预测。数据挖掘,还可以称为数据库中的知识发现(Knowledge Discovery in Database, KDD),是从大量数据中提取出可信、新颖、有效并能被人理解的信息的高级处理过程。

2.1 数据挖掘是在数据库技术、人工智能技术、概率与数理统计的基础上发展起来的一种的技术。

2.1.1 数据库技术

SQL统治数据库查询语言标准三十多年这一事实本身就与现在 IT 发展的节拍不符,难道我们“只会查询”吗?所以就有很多专家纷纷转向数据仓库与数据挖掘技术,从数据查询转向数据挖掘、从数据演绎转向数据归纳。传统的数据库系统的体系结构也过于瘦少,只有不协调的两层,这样的结构就造成了只有程序员能编程,老板只能求助于这些“专家”。

2.1.2 人工智能技术

人工智能技术的三大难题:“知识获取、知识表示、缺乏常识”直接制约了它在现实技术市场上的作为。而在与数据仓库技术的结合上,它可以发挥重要作用,这使得它转向数据挖掘技术。

2.1.3 概率与数理统计

数理统计技术是应用数学中最重要、最活跃的学科。但在与数据库技术的结合上作为有限,这从 SQL 中那可怜的几条汇总函数便可看出。随着数据挖掘对查询、归纳对演绎需求的进化,概率与数理统计将获得新的生命力。

2.2 数据挖掘中最常用的技术:

2.2.1 工神经网络(Artificial Neural Networks)

人工神经网络是仿照生理神经网络结构的非线性预测模型,通过学习进行模式识别。神经网络常用于两类问题:分类和回归。在结构上,可以把一个神经网络划分为输入层、输出层和隐含层。而神经网络的知识体现在网络连接的权值上,是一个分布式矩阵结构;神经网络的学习体现在神经网络权值的逐步计算上,为的是防止训练过度和控制训练的速度,如图1所示:

2.2.2 决策树 (Decision Tree)

决策树方法是利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的属性字段,建立决策树的一个节点,再根据概述性字段的不同取值建立树的分支;在每个分支子集中重复建立树的下层节点和分支过程。决策树的基本组成部分:决策节点、分支和叶子。比如,在贷款申请中,要对申请的风险大小做出判断,为了解决这个问题而建立的一棵决策树,如图2所示:

2.2.3 临近搜索方法(Nearest Neighbor Method)

临近搜索方法将数据集合中每一个记录进行分类的方法。

2.2.4 规则推理(Rule Induction)

从统计意义上对数据中的“如果-那么”规则进行寻找和推导。

2.3 数据挖掘步骤

数据挖掘的数据分析过程可以分为三个步骤:

2.3.1 确定业务对象

清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步,挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。

2.3.2 数据准备(Data Preparation)

本阶段又可进一步细分为两步:数据集成、数据选择和预分析。

(1)集成(Integration)。在这一步中,将从操作型环境中提取并集成数据,解决语义二义问题,消除脏数据等等。很明显,数据集成的目的和所利用的技术与数据仓库的数据集成完全一致,都是为了建立统一的数据视图。数据挖掘不一定需要建立在数据仓库的基础上,但如果数据挖掘与数据仓库能协同工作,则必将大大地提高数据挖掘的工作效率。

(2)数据选择和预分析(Data Selection and Pre-Analysis)。这一步将负责缩小数据范围,提高数据挖掘的质量,前面提到的验证型工具长于对数据的细致,深入地观察和表述,在这一步中可以发挥相当的作用。

2.3.3 挖掘(Mining)

数据挖掘(Data Mining processor)综合利用前面提到的四种数据挖掘方法分析数据库中的数据。

2.3.4 表述(Presentation)

与验证型工具一样,数据挖掘将获取的信息以便于用户理解和观察的方式反映给用户,这时可以利用可视化工具。由于用户要求的不同,DM分析的数据的范围会有所不同,这样DM系统会得出不同的结论。这些基于不同数据集合的分析结果除了通过可视化工具提供给用户外还可以存储在知识库中,供日后进一步分析和比较。

2.3.5 评价(Assess)

如果分析人员对分析结果不满意,可以递归的执行上述三个过程,直到满意为止。

3 数据挖掘在企业决策过程中的作用

3.1 数据挖掘的功能

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘就是对海量数据进行精加工。严格地说,数据挖掘是一种技术,从大量的数据中抽取出潜在的、不为人知的有价值信息、模式和趋势,然后以易于理解的可视化形式表达出来,其目的是为了提高市场决策能力、检测异常模式、控制可预见风险、在经验模型基础上预言未来趋势等。数据挖掘技术在商业领域已经不是一个新名词,最早成功应用于高投入、高风险、高回报的金融领域,正在不断向电信、保险、零售等客户资源信息密集的行业拓展。美国财富杂志500强之一的第一数据公司(First Data Corp.)就在为第一国家银行(First National Bank)、美国在线交易(Ameritrade holding Co.)、奥马哈保险公司(Mutual of Omaha Co.)等著名的金融证券和保险公司提供数据挖掘的产品服务,这些企业在风险控制、挖掘客户、降低成本方面的年收益数以亿计。

3.2 在企业决策过程中利用数据挖掘的作用

本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文

目前,商业数据挖掘的应用重点集中在对企业内部信息资源的加工处理,指导企业运营的战术策略的实施。具体地说,就是在以客户需求为价值源泉、进销存为价值链的各环节进行数据增值分析,并将分析结果迅速向链条的上一环节传递,调整链条上游的执行达到改善下游环节执行结果的目的,最终形成以客户终端需求为导向的价值增值。

部分企业资源计划软件中集成了对计划、生产、产品销售进行数据挖掘的模块,能够提供商业智能的分析结果;另外,客户需求的价值链终端是另一个数据挖掘技术应用的重点,客户关系管理的目的就是创造、挽留客户并不断升级对客户的服务,以保证企业利润的持续增长。“以客户为中心”的数据挖掘内容涵盖了客户需求分析、客户忠诚度分析、客户等级评估分析等三部分,有些还包括产品销售。

客户需求分析包括:消费习惯、消费频度、产品类型、服务方式、交易历史记录、需求变化趋势等因素分析。

客户忠诚度分析包括:客户服务持续时间、交易总数、客户满意程度、客户地理位置分布、客户消费心理等因素分析。

客户等级评估分析包括:客户消费规模、消费行为、客户履约情况、客户信用度等因素分析。

产品销售分析包括:区域市场、渠道市场、季节销售等因素分析。

然而,数据挖掘不仅仅用于客户关系管理,ERP更不能够完全覆盖数据挖掘的整个内涵。企业数据挖掘的内容不仅包括企业的内部信息资源,更包括大量的企业外部信息资源。商业数据挖掘的下一个应用热点将建立在两类信息资源充分整合的基础上。

相对于内部信息资源而言,企业外部的宏观政策环境、市场需求动向和竞争对手情报等信息资源左右着企业战略决策与宏观发展规划,也直接决定企业市场战术策略的实施,所以对信息资源的整合利用以及竞争情报分析将成为企业级数据挖掘应用的重点。

以IBM为例,为了导正企业战略决策方向,IBM于1993年提出三项竞争策略:立即加强对竞争对手的研究、建立一个协调统一的竞争情报运行机制以及将可操作的竞争情报运用于公司战略、市场计划及销售策略。其新的竞争策略通过研究市场格局和竞争对手的状况、合理定位并改善自身的产品和服务两个途径有效地提升了企业核心竞争力,采用的竞争情报运行机制及竞争情报规划能够把全公司的竞争情报力量集中于主要的竞争对手和主要威胁,不断地优化现有的情报资源。

随着企业市场竞争的日益加剧,企业竞争情报已经不限于原有意义上的数据采集、整理、分类、的概念,“在线”需求逐步超越“离线”需求,“受动式服务”正为“主动式、自助式”服务所取代,数据挖掘技术已经成为“信息分析”这个企业竞争情报系统中核心模块的技术支撑。“数据在线服务”和“竞争情报个性化服务”将成为企业级数据挖掘应用的新热点需求,也将成为知识经济下新兴的数据服务模式。

4 结语

数据挖掘的核心技术是人工智能、机器学习、统计学等,但一个DM系统不是多项技术的简单组合,而是一个完整的整体,它还需要其他辅助技术的支持,才能完成数据采集、预处理、数据分析、结果表述这一系列任务,最后将分析结果呈现在用户面前。

[参考文献]

[1] 胡百敬,SQL Server 2000 数据转换服务[M],北京:中国铁道出版社,2003.1.

[2] Reed Jacobson,SQL Server 2000 Analysis services 学习指南[M].北京:机械工业出版社,2001.

[3] 韩加炜J.(Han,JiaWei),数据挖掘:概念与技术[M].北京:机械工业出版社,2001.

[4] 陈京民,数据仓库与数据挖掘[M],北京:电子工业出版社,2002.

[5] 李真文, SQL Server 2000 开发人员指南[M].北京:北京希望电子出版社,2001.

[6] 石钧.ADO编程技术[M].北京:清华大学出版社,2001.

[7] Jared Jackson,Jussi Myllymaki,基于Web的数据挖掘[C].网站获取,2001.6.

数据挖掘学习计划范文第3篇

关键词:数据挖掘;决策树;C4.5算法;教学管理;高校教学

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2012)30-7150-04

随着数字信息化社会的飞速发展,计算机技术和数据库管理系统被广泛应用于科学探索、商业、金融业、电子商务、企业生产等各种行业,已逐渐发展成为一种智能管理过程。数据挖掘作为一种新兴的数据分析技术,它的研究成果取得了令人瞩目的成就[1]。利用数据库技术,通过对教务管理的大量数据进行多层次、多维度的加工处理,从而实现人性化管理,为科学决策提供支持。

毕业论文在教学体系中占有十分重要的位置,是本科生培养计划中衡量教学质量的重要指标。提高毕业论文教学质量是一项系统工程,为研究在当前的教学条件下如何提高毕业论文教学质量,本文采用数据挖掘技术对影响毕业论文成绩管理的多方面因素进行了深入分析和挖掘,以期发现对学校毕业论文教学管理有用的知识,将这些知识应用于本科学生毕业论文教学实践中,为学校管理者提供有用的信息,进而获得更好的管理效益,为学校未来的发展提供更广阔的空间,发挥重要的作用。

1 数据挖掘简介

数据挖掘(Data Mining),又称数据库中的知识发现(Knowledge discovery in Database. KDD)[2],是通过分析每一个具体数据,从大量的、有噪声的、模糊的、随机的海量数据中寻找其规律的技术,它是数据库研究中的一个很有应用价值的新领域。

1.1 数据挖掘的定义

H包含如下功能:

综上所述,数据挖掘具有三大特点:其一是处理大型数据;其二应用数据挖掘的目的是发现未知的、有意义的模式或规律;其三是一个对大量数据处理的过程,有特定的步骤[3]。

1.2 数据挖掘的主要方法

数据挖掘是一个多学科交叉领域,它由人工智能、机器学习的方法起步,并与统计分析方法、模糊数学和可视化技术相融合,以数据库为研究对象,围绕面对应用,为决策者提供服务。

数据挖掘的方法主要可分为六大类:统计分析方法、归纳学习方法、仿生物技术、可视化技术、聚类方法和模糊数学方法。归纳学习法是目前重点研究的方向,本文根据给定的训练样本数据集,采用归纳学习法中的决策树技术构造分类模型,将事例分类成不同的类别。

2 决策树算法基本理论

2.1 决策树方法介绍

决策树[4]方法是以事例学习为基础的归纳推算法,着眼于从一组无序的,无规则的事例中推断出类似条件下会得到什么值这类规则的方法,它是一种逼近离散值函数的方法,也可以看作一个布尔函数[5]。决策树归纳方法是目前许多数据挖掘商用系统的基础,可以应用于分析数据,同样也可以用来作预测。建模过程中,即树的生长过程是不断的把数据进行切分,采用“自顶向下,分而治之”的方法将问题的搜索空间划分为若干个互不交叉的子集,通常用来形成分类器和预测模型。如图1所示,为决策树的示意图。

决策树一种类似流程图的树形结构,是一种知识的表现形式。为了对未知样本进行分类,生成具体的分类规则,信息样本的各个属性值要在决策树上进行测试。主要分为两个阶段:在第一阶段中生成树。决策树最上面的节点为根节点,是整个决策树的开始,然后递归的进行数据分区,每次切分对应一个问题,也对应着一个节点;在第二阶段中对树进行修剪,此过程中去掉一些可能是噪音或异常的数据,防止决策树的过匹配,进而保证生成决策树的有效性和合理性。当一个节点中的所有数据都属于同一类别,或者没有属性可以再用于数据进行分割时,分割工作停止。具体的工作流程如图2所示。

2.2 C4.5算法

1986年Ross Quinlan首次提出了ID3决策树算法,它是最早的决策树算法之一。ID3算法运用信息熵理论,选择当前样本中具有信息增益值的属性作为测试属性,对样本的划分则依据测试属性的取值[6]。C4.5算法是在ID3算法基础上发展起来的,它继承了ID3算法的全部优点,并增加了新的功能改进了ID3算法中的不足,可以进行连续值属性处理并处理未知值的训练样本。在应用单机的决策树算法中,C4.5算法不仅分类准确而且执行速度快。

C4.5通过两个步骤来建立决策树:第一阶段树的生成,第二阶段树的剪枝。C4.5算法采用信息增益率来记录字段不同取值的选择,首先计算各个属性的信息增益率,寻找到规则信息的优劣,选出信息增益率最大的属性作为结点,自顶向下生成决策树。C4.5算法构造决策树的基本策略如下:

首先计算出给定样本所需的期望信息,设S为一个包含s个数据样本的集合,对于类别属性,可以取m个不同取值,分别对应于m个不同的类别[Ci(i∈1,2,...,m)]。假设类别[Ci]中的样本个数为[si],期望信息为:

其中,[Pi]是任意样本属于[Ci]的概率,并用[sis]估计。

接着,计算当前样本集合所需用的信息熵,设一个属性A具有n个不同的值[(a1,a2,...an)],利用属性A可以将集合S划分为n个子集[S1,S2,...Sn],其中[Sj]包含了S集合中属性A取[aj]值的样本数据。如果属性A被选作测试属性,设[Sij]为[Sj]中属于[Ci]类别的样本集,根据A划分计算的熵为:

然后利用属性A对当前分支结点进行相应样本集合划分计算信息增益:

最后,求信息增益率,表达式为:

C4.5算法的伪代码如下:

输入:训练样本Samples;目标属性Target—attribute;候选属性的集合Attributes

输出:一棵决策树

1)创建根节点root;

2)If Samples都在同一类C Then;

3)返回label=类C的单结点树root;

4)If Attributes为空Then;

5)返回单结点树root,[label=Samples]中最普遍的Target-Atribute值;

6)Else;

7)For each测试属性列表Attributes中的属性;

8)IF测试属性是连续的Then;

9)对测试属性进行离散化处理,找出使其信息增益比率最大的分割阈值;

10)Else;

11)计算测试属性的信息增益比率;

20)添加子树Generate Tree C4.5;

21)对已建立的决策树计算每个结点的分类错误,进行剪枝,并返回根结点Root。

3 毕业论文成绩管理系统的设计和实现

利用数据挖掘技术对学生的成绩数据进行提炼,所产生的结果和信息会对以后的教学管理工作提供有用的信息,进而获得更好的管理效益。解决问题的重点在于怎样对学生的毕业论文成绩进行全面且深度的分析,从而挖掘出成绩与其他因素之间隐藏的内在联系。本文采用决策树技术挖掘信息时,主要操作步骤如下:

1)确定挖掘来源:清晰地定义挖掘对象,明确挖掘目标是数据挖掘所有工作中重要的一步。本文中应用于挖掘的数据信息是毕业生的毕业论文成绩,旨在通过对大量成绩数据进行各层次的挖掘,全面了解具体影响学生毕业论文成绩的各方面因素,正确的针对问题拟定分析过程。

2)获取相关知识:数据是挖掘知识最原始的资料,根据确定的数据分析对象,抽象出数据分析中所需要的特征信息模型。领域问题的数据收集完成之后,与目标信息相关的属性也随之确定。这些数据有些是可以直接获得的,有些则需要对学生进行调查才能的得到。

3)数据预处理:此过程中是对已收集的大量数据进行整合与检查。因为存放在数据库中的数据一般是不完整的、不一致的,通常还含有噪声的存在。因此就需要对数据库中数据进行清理、整理和归并,以提高挖掘过程的精度和性能。

4)数据转换:对预处理后的数据建立分析模型,对于特定的任务,需要选择合适的算法来建立一个准确的适合挖掘算法的分析模型。本文采用决策树技术进行分类建模来解决相应的问题。

5)分类挖掘知识和信息:此阶段的工作目的是根据系统最终要实现的功能和任务来确定挖掘的分类模型。选择合适的数据挖掘技术及算法,并采用恰当的程序设计语言来实现该算法,对净化和转换过得数据训练集进行挖掘,获得有价值的分析信息。

6)知识表示:将数据挖掘得到的分析信息进一步的解释和评价,生成可用的、正确的、可理解的分类规则呈现给管理者,应用于实践。

7)知识应用:将分析得到的规则应用到教学管理中,教师可以利用所得到的知识针对性的开展毕业设计的教学活动,进一步指导教学工作,提高教学水平和学生的毕业论文质量。

4 结论

最终发现影响学生毕业论文成绩主要的因素不是指导教师的职称,学生的基础及感兴趣程度,而是指导教师的学历高低。根据具体分类规则的结论,学校教学管理工作应加重对教师的素质及能力培养,合理的分配每个教师的毕业论文指导工作,不仅能够有效的完成毕业课题指导工作,更有助于学生整体论文质量的提高。

在高校教学数字化的时代趋势下,利用数据挖掘技术来挖掘提取教学工作中的全面而有价值信息,可以为教育管理者的教学工作提供有效的参考信息,改进教学管理方法,提高教学质量和学生的综合素质,是高校保持良好的可持续发展的有力工具。

参考文献:

[1] 刘玉文.数据挖掘在高校招生中的研究与应用[D].上海:上海师范大学,2008.

[2] 魏萍萍,王翠茹,王保义,张振兴.数据挖掘技术及其在高校教学系统中的应用[J].计算机工程,2003.29(11):87-89.

[3] 刘林东. Web挖掘在考试系统中的应用[J].计算机应用研究,2005(2):150-154.

[4] Tom M Mitchell.(美)卡内基梅隆大学.机器学习[D].曾华军,张银奎,译,北京:机械工业出版社,2003.

数据挖掘学习计划范文第4篇

关键词:数据挖掘;聚类分析;成绩分析

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)21-4778-03

成绩作为学生在校学习情况的主要表现形式,既是教学效果考核的核心指标,也是对学生学习效果和教师教学效果的检验和评定,更是反馈于教学活动、服务于教育决策、为教育科研提供参考资料的重要手段。在高职教育信息化发展的十多年间,各类管理信息系统相继投入使用,基于传统数据库应用技术的学生成绩管理系统在教务管理中取得了很好的效果,其中大量数据日积月累起来,已形成非常宝贵的信息资源。但在大多数院校中,这些数据的主要用途仍局限于提供简单查询和统计报表,反映了过去一段时间和当前的教学情况,对后续的教学及管理工作的指导意义不大,如何利用数据挖掘技术对这些数据进行深层分析,从大量数据中发现潜在规律和内在联系,以提高教师教学的针对性、教学管理决策的科学性,进而提高学校整体教学水平和办学质量,将是高职院校在今后的信息化建设和信息资源管理、开发和利用中的重要内容之一。

1 数据挖掘

1.1 数据挖掘的概述

数据挖掘(Data Mining,DM),又称为数据库中的知识发现,被信息产业界认为是数据库系统最重要的前沿之一。它是从大量的、不完全的、有噪声的、模糊的以及随机的数据中,提取人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘技术在应对各行各业出现的“数据爆炸、信息匮乏”的问题上发挥了很好的作用,该项技术最初多应用于金融业、保险业和商业领域,随着影响力的扩大,逐步扩展到医疗保健、运输业、行政司法、通信业等社会部门以及科学和工程研究单位。近十年间,数据挖掘技术在教育领域也受到越来越多专家和学者的关注,原因是教育领域信息化管理提供了大量的数据资源,但这些资源的利用非常有限,没有对后续教育教学工作发挥应有作用,因此越来越多的组织和大学把教育数据挖掘EDM(Educational Data Mining)作为研究对象,尝试将各种各样的数据挖掘方法应用于教育领域中,目的是从学校的数据中发现新的知识,帮助教师和管理人员改进方法、提高效能。

1.2 分析主题

本文基于实现对某高职院校学生进行成绩综合分析的目的,拟确定以下几个分析主题:

主题一、分析学生成绩与学生的录取专业、生源所在地、性别等学生信息之间的关联,为招生部门制定招生计划,为教学管理部门在设置专业及专业方向等方面提供决策帮助。

主题二、分析学生成绩与公共基础课、专业理论课和专业实践课之间可能存在的各种关联及关联的程度,为教学管理部门和各系制定人才培养方案提供参考依据。

主题三、分析学生成绩与授课教师年龄、学历、职称之间的关联,为各专业师资配置提供合理化建议,进而辅助学校人事和教学部门科学制定教师职业规划、教师培训等一系列师资队伍建设工作。

1.3 数据ETL

由于数据挖掘技术依赖于经过良好组织和预处理的数据源,数据源的好坏直接影响着数据挖掘的效果,因此构建纯粹用于数据挖掘分析的数据仓库的非常重要,该过程从各种数据源中根据分析主题抽取数据,并完成对数据的清洗和转换且最终加载到数据仓库中,为后续的数据挖掘提供了良好的数据环境。数据的这种预处理过程称为ETL(Extract/Transformation/Load),指根据分析主题,从单一或异种数据源中抽取出所需的数据,经数据清洗、转换等,按照预先定义好的数据仓库模型,将数据加载到数据仓库中,为数据挖掘提供数据平台。ETL的设计与实施占据整个工作量的70%,是工作量最大、费时费力最多的环节,这也显示了它在实现数据挖掘过程中的重要性。

本文以2007级各专业学生成绩和学籍信息,共计13个专业,22个班级,932名学生和287名教师的基本信息为分析对象,这些数据在未处理前存在一些问题:比如在教师基本信息中,有较多的外聘教师的学历、职称等信息不详,甚至有部分外聘教师的出生日期以录入的时间的形式存在等等,又比如教务管理系统中存在 “异名同义”的现象,例如课程名称为“计算机平面设计”和“PS图形图像处理”,事实上表示的是同一门课程。数据的清洗就是针对以上这些问题,对数据中的杂质、噪声、不一致、不规范、遗漏等情况加以处理。数据转换在数据预处理过程中也尤为重要,该文拟分析07级各个专业学生的成绩,因不同专业课程不同,且课程的性质、学分以及总学时的差异,在分析前必须进行相应的成绩换算,处理方法是将学生在校学习期间的所有课程分数乘以相应的学分数的求和除以所有课程学分的总和,得到该生的平均学分绩,以期达到客观比较学生在校成绩优劣的效果。

1.4 聚类K-means算法

聚类(Clustering)分析是数据挖掘技术的重要内容之一,它能从潜在的数据中发现有意义的数据分布模式,现已广泛应用于模式识别、数据分析、图像识别以及其他许多方面。聚类是指在事先不规定分组规则的情况下,将数据按照其自身特征划分成不同的群组。它的重要特征是“物以类聚”,即要求同一类的数据对象尽可能相似,而不属同一类的数据对象尽可能相异,随后观察每个类(一类数据集称为一簇)的特点,集中对特定的簇做进一步的分析。

K -means算法,也被称为K -平均或K -均值,是一种得到最广泛使用的聚类算法。它的核心思想是通过迭代把数据对象集划分到不同的簇中,以目标函数最小化为止,从而使生成的每个聚类内紧凑、独立。这一算法不适合处理离散型属性,但是对于连续型具有较好的聚类效果。

K均值算法流程:

1)随机取K个元素,作为K个簇的中心;

2)分别计算剩余元素到各个簇中心的相异度,将这些元素分别划分到相异度最低的簇中。

3)根据聚类结果,重新计算各个簇的中心(计算方法是取簇中所有元素各自维度的算术平均)

4)将全部元素按照新的中心重新聚类。

5)重复第4步,直到准则函数收敛。

6)输出结果。

2 系统设计

3 模型评价

4 结束语

本文首先阐述了将数据挖掘技术引入高职教育学生成绩分析应用的可行性和重要性,并详细介绍了一种常用的数据挖掘方法——聚类分析算法K -means算法。围绕分析主题,以某高职院校07级毕业生在校成绩,以及相关联的师资和综合学籍信息等数据搭建数据仓库,利用Microsoft SQL Server 2008 平台构建基于分析主题的学生成绩数据挖掘模型,最终评价分析模型,找出潜在规律和影响学生成绩的因素,提供有效的教学决策支持。

参考文献:

[1] 黄伟.基于数据挖掘的高校招生管理信息系统的研究[J].硅谷,2009(21):98.

[2] 谢邦昌.SQL Server 2008 R2数据挖掘与商业智能基础及高级案例实战[M].北京:中国水利水电出版社,2011:3-8.

数据挖掘学习计划范文第5篇

[关键词]:数据挖掘 聚类神经网络

数据挖掘,顾名思义就是从大量数据中挖掘出有用的信息,即从大量的、不完全的、由噪声的、模糊的、随机实际应用数据中发现隐含的、规律性的、人们事先未知的,但又是潜在有用的并且最终可理解的信息和知识的非平凡过程。用于数据挖掘的很多方法都来源于两个研究分支,一个是机器学,另一个是统计学,特别是多元的计算统计学。 聚类是数据挖掘中的一种主要技术,是把一组个体按照相似性归成若干类别,即“物以类聚”。它的目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。聚类和分类根本不同的是:分类问题中,我们知道训练例的分类属性,而在聚类中,就需要我们在训练例中找到这个分类属性值。聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法。

在统计方法中聚类称聚类分析,它是多元数据分析的三大方法之一(其它两种是回归分析和判别分析)。它主要研究基于几何距离的聚类,如欧式距离、明考斯基距离等。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。

在机器学习中聚类称作无监督或无教师归纳。因为和分类学习相比,分类学习的例子或数据对象有类别标记,而聚类的例子则没有标记,需要由聚类学习算法来自动确定。机器学习领域中的概念聚类算法通过符号属性来进行聚类,并得出聚类的概念描述。当聚类对象可以动态增加时,概念聚类则称是概念形成。概念聚类由两部分组成:

(1)发现合适的类

(2)形成对每个类的描述。

聚类分析问题可描述为:给定m维空间Rm中的n个向量,把每个向量归属到S聚类中的某一个,使得每个向量与其聚类中心的“距离”最小。聚类分析问题的实质是一个全局最优问题。在这里,m可认为是样本参与聚类的属性个数,n是样本的个数,S是由用户预先设定的分类数目。

数据聚类正在蓬勃发展,有贡献的研究领域包括数据挖掘、统计学机器学习、空间数据库技术、生物学,以及市场营销。由于数据库中收集了大量的数据,聚类分析已经成为数据挖掘研究领域中一个非常活跃的研究课题。

随着数据挖掘研究的深入,出现了很多的聚类算法。常见的聚类算法有五大类。即划分法、分层法、基于密度的方法、基于网格的方法和基于模型的方法。

1、划分方法(partitioning method)

给定要构建的划分的数目k,创建一个初始划分。每个划分表示一个簇, 每个簇至少包含一个数据对象,同时,每个数据对象只能属于一个簇(模糊聚类中可放宽约束)。然后采用一种迭代的重定位技术,尝试通过对象在划分间移动来改进划分,直到以局部最优结束。一个好的划分的准则是:在同一类中的对象之间尽可能“接近”或相关,而不同类中的对象之间尽可能的远离或不同。

最著名与常用的划分方法是K-means、K-medoids以及它们的变种。

2、层次方法(hierarchical method)

层次式聚类算法对给定数据对象集合进行层次的分解,根据层次分解形成的方向又可以分成凝聚式和分列式两种。前者采用自底向上的方法,先将每个对象归为单独底组,然后逐渐合并相近的对象或组,直到所有的组合并为一个,或者达到一个中止条件。后者则采用自顶向下的方法, 初始将所有的对象置于一个组中,然后在迭代的过程中,每个组被分裂楦小的组,直到最终每个对象在单独的一个组中,或者达到一个中止条件。

层次式聚类算法的缺陷在于,一旦完成一个合并或分裂的步骤后,即使是错误的,也无法被撤销,且影响其后的聚类过程。

CURE算法就是采用了层次聚类算法,解决了绝大多数聚类算法偏好球形和相似大小的问题,在处理孤立点上也更加健壮。但CURE不能处理分类属性。

3、基于密度的方法(density-based method)

基于距离的聚类方法只能发现球状的簇,而在发现任意形状的簇上遇到了困难,为此提出了基于密度的聚类。其中心思想是:只要临近区域的密度(对象或数据点的数目)超过某个阀值就继续聚类。也就是说,对类中的每个数据点,在一个给定范围的区域中必须至少包含某个数目的点。这种方法可以用来过滤噪声数据,发现任意形状的簇。

Ester Martin等人提出的DBSCAN算法是一种基于密度的空间数据聚类算法。该算法利用基于密度的聚类(或者类cluster)概念。这一算法的显著优点是聚类速度快,且能够有效处理噪声点(outliers)和发现任意形状的空间聚类。但是它又两个比较明显的弱点:(1)当数据量增大时,要求较大的内存支持,I/O消耗也很大;(2)当空间聚类的密度不均匀, 聚类间距离相差很大时,聚类质量较差。

4、基于网格的方法(grid-based method)

基于网格的方法把对象空间量化为有限数目的单元,形成一个网格结构,所有的聚类操作都在这个网格结构(即量化空间)上进行。

CLIQU算法综合了基于密度和基于网格的聚类方法,利用自顶向上方法求出各个子空间的聚类单元,主要用于找出高维数据空间中存在的低维聚类。但为了求出K维空间聚类,则必须组合给出所有K-1维子空间的聚类,导致其算法的空间和时间效率都很低,而且要求用户输入两个参数,数据聚值空间等间隔距离ξ和密度阀值τ。这些数据与样本数据紧密相关,用户一般难以确定。但它对数据的输入顺序不敏感。

5、基于模型的方法(model_based method)