首页 > 文章中心 > 正文

聚类分析在远程教育的作用

聚类分析在远程教育的作用

聚类分析在远程教学中的应用

基于聚类的数据挖掘技术则可以根据学生的平时及期末考试成绩,挖掘出内在的影响因素,如学生的学习态度、学习习惯、薄弱章节、课后练习等环节。得到的总结分析应用于指导学生学习及日常教学,既节省了大量的练习时间又能够获得良好的学习效果。图2描述了一个基于聚类分析算法的远程教育系统的基本结构。其中在成绩分析模块中,加入了基于聚类的智能辅导功能模块,用于对学生的测试成绩进行分析。分析结果包括选课建议,推荐书目,组卷参数,所在类别特性及成绩特性等。系统根据上述结果给出学习建议和指导,同时修改组卷参数以给出符合学生学习水平和特性的试题;学生也可以根据分析结果进行有针对性的学习,从而提高了整个系统的智能性。

K-均值聚类分析算法改进研究

为加快聚类算法的计算速度,在K均值聚类算法中加入了基于密度阈值的网格聚类方法,利用网格聚类的速度优势,先对样本空间进行网格划分,通过平滑过滤噪声,完成第一次聚类。密度阈值较小的离散数据应用K均值聚类法实施二次聚类直至条件满足。

基于网格聚类的K均值算法改进令有界定义域集合P={X1,X2,…,Xn},n维空间S=X1×X2×…×Xn,算法的输入则是一个n维空间的点集Q{q1,q2,…qn},q1={qi1,qi2,…,qin},qij表示第i个点的第j维分量。每个网格单元的密度值D(Ci)设定为单元中所有点的数量;在密度阈值的设定上,文献[4]中对传统DB-SCAN算法的改进,选取网格单元中密度最高的N个点的密度值D(Ci)。通常情况下聚类按照D(Ci)降序排列,如果D(Ci+1)与D(Ci)之间的差值较大则认为发生了跳变,此时设N=i。算法具体步骤为:(1)将n维空间的每个维划分成r个不相交且大小相等的区间,形成Rn个网格单元。每个网格单元在第i维的长度计算δi=(hi-li)/p,则有第j个区间段Iij=[li+(j-1)δi,li+jδi]。(2)将数据集中的点映射到单元集中,计算每个网格单元的密度D(Ci)。(3)根据设定的密度阈值对网格单元进行分类:密度大于Minpts的高密度单元被直接标记,密度小于Minpts的低密度单元中的点作为孤立的离散数据等待下一步处理。(4)重复选取聚类未结束网格单元与其相邻单元进行合并直至所有高密度单元聚类完毕,按照公式(2)计算出K个聚类中心的值Gi(0)作为初始聚类中心。(5)对于低密度单元中的离散数据,分别计算其与初始聚类中心的距离dis(a,Ci),当其获得最小值时有a∈Ci,重复这一操作至所有离散数据聚类完成。(6)重新计算二次聚类重心Gi(1),如满足|Gi(1)-Gi(0)|<ε则聚类完毕,否则再次循环K均值聚类方法直到满足条件|Gi(m)-Gi(m+1)|<ε。

实验分析及结论实验采用UCIMachineLearningRepository中的经典数据集Iris,每个样本有4个属性,分为3个类别共150个样本。本文算法GKC(Grid-basedandK-meansClusteringMethod)与DBSCAN和传统K均值聚类法分别进行测试。GKC算法的时间主要为定位数据密集区域以及初始聚类中心的计算。其时间复杂度分别为O(2d×r)和O(K×I×M),I和M代表迭代次数和离散数据数量。表1显示了3种算法在聚类运行时间上的比较,可以看出本文方案在收敛速度上优于另外两种算法。聚类性能采用纯度值进行衡量,某一簇的纯度值Eij等于簇i与类j的交集。从图3中可以看出,GKC在纯度上优于K-means及DBSCAN算法,且纯度值曲线波动较小,具更好的稳定性。

结束语

为使远程教育的教学资源得到更好利用,达到按需教学的目的,深入研究了聚类分析算法以及该技术在学习评价中的作用,给出了一个聚类算法在远程教育教学中具体应用实例。利用网格聚类的思想对K均值聚类算法进行改进,克服了K值随机性带来的不确定性以及传统网格聚类方法造成的簇丢失缺陷。该技术的应用有利于提高远程教学系统的智能性,取得良好的教学效果。

作者:张晓芳单位:武汉民政职业学院