首页 > 文章中心 > 聚类分析论文

聚类分析论文

聚类分析论文

聚类分析论文范文第1篇

摘 要:基于因子分析和聚类分析法,对重庆市40个区、县的经济发展状况进行了定量化综合评价。在分析重庆市经济发展不平衡的特点和原因的基础上,探讨了经济全面协调发展的对策和思路。 论文关键词:重庆市;因子分析;聚类分析;经济发展状况 重庆是典型的大城市、大农村,其经济发展仍然处于非均衡发展的历史进程,各区县经济发展水平具有明显的地域差异。随着城乡综合配套改革试验区这一重大战略决策的实施,重庆的发展迎来了千载难逢的机遇。重庆各区、县只有对当前的经济发展状况有一个客观、全面的了解,才能更好地实现有效的区域整合。 近年来,社会统计分析软件在社会经济统计、工程技术以及教学科研等领域的研究已取得广泛应用。本文以重庆市内40个区县为研究对象,结合重庆市地域特点,综合运用多元统计中的因子分析和聚类分析,较大限度地避免人为因素所产生的偏差,对全市经济发展状况进行了定量化综合评价。在分析重庆市经济发展不平衡的特点和原因的基础上,探讨了经济发展的对策和思路,以期对未来经济发展状况的改善起参考作用。 1 经济发展状况评价指标体系的构建 国内外学者对城市经济发展状况的评价指标体系进行了不少研究,但由于城市经济系统本身的复杂性,以及城市经济发展状况评价指标体系的理论尚有待深入,所以目前还没有一种公认的、可靠的评价方法。本文在遵循科学性、全面性、可操作性原则的基础上,参阅相关文献并结合重庆市现状,构建了以下影响城市经济发展状况的8项指标作为评价指标体系:地区生产总值(万元),工业总产值(万元)、公路货运量(万吨)、建设与改造投资(万元)、社会消费品零售总额指数(上年=100)、城乡居民储蓄(万元)、城镇居民最低生活保障人数(人)、专业教师数(人)作为分析样本,数据来源——重庆统计年鉴[2006]。所采用的分析软件是SPSS13.0。 2 模型方法概述 2.1 因子分析 因子分析属于多元分析中处理降维的一种统计方法,它是主成分分析的推广和发展,它也是将错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类。 Z因子分析的数学模型。 通常针对变量作因子分析,称为R型因子分析,另一种对样品作因子分析,称为Q型因子分析。R型因子分析写成数学的形式,就是下面的模型:假定随机向量X满足: X=A•F+ε 其中A是p×m的常数矩阵,称为因子载荷矩阵;F=(F1,…,Fm)是不可观测的向量,F称为X的公共因子;ε称为X的特殊因子,通常理论上要求ε的协方差阵是对角阵,ε中包括了随机误差,且 ⅱ)Cov(F,s)=0 即F和ε是不相关的; ⅲ)D(F)=Im即不相关且方差皆为1。 因子分析的目的就是通过模型X=AF+ε以F代替X,由于m 2.2 聚类分析 聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法,在统计分析的应用领域已经得到了极为广泛的应用。 聚类分析至今,有许多种不同的聚类方法,其中应用得最多、最成熟的方法为系统聚类法,也是本文将采用的方法。其思路为:首先将每个数据对象各视为一类,根据类与类之间的距离或相似程度将最相似的类加以合并,再计算新类与其它类之间的相似程度,并选择最相似的类加以合并,这样每合并一次就减少一类,不断继续这一过程,直到所有数据对象合并为一类为止。 3 实证分析 3.1 因子分析结果 运用因子分析法,借助SPSS对以上数据进行分析处理,在处理过程中采取以下步骤:(1)遵循系统性、科学性、可操作性的原则,对所有指标的原始数据进行标准化,消除量纲的影响。由标准化后的数据求协方差矩阵,即原始数据的相关矩阵,判断能否进行因子分析;(2)根据公共因子在变量总方差中所占的累计百分比例,一般为大于85%规则,确定描述数据所需要的公共因子数;(3)公共因子的命名和意义解释。运行结果如下: 在表2中,按照提取原则即特征值大于1,选入3个主成分,其方差累计贡献率达 88.08%,即反映了原始信息的88.08%,这三个因子就可以解释原始数据的大部分信息了。我们将这3个主成分作为评价重庆市40个区、县经济发展状况的综合参量。 从表3可以看出,地区生产总值、工业总产值、城乡居民储蓄、公路货运量等四个指标与第一主成分的相关系数较高,主要反映了经济总量状况及其环境状况;专任教师数在第二主成分上的载荷较大,即与第二主成分相关程度较高;消费总额指数在第三主成分上的载荷较大,即相关系数较高。因此我们可将主成分命名如下: 第一主成分:产出主成分; 第二主成分:教育主成分; 第三主成分:消费主成分。 把我市40个区、县的经过标准化的数据(X1,X2,…,X8)代入对应的线性模型,可以得到各地区的主成分值,并以各主成分的方差贡献率为权重进行加权汇总,得到综合得分F(其中F=0.0113×F1+0.1412×F2+0.7821×F3)。 3.2 聚类分析结果 运用SPSS的系统聚类法,根据各个地区的综合得分值进行分类,共将重庆市40个区、县划分为三类:第一类渝中、九龙坡、江北、双桥、沙坪坝、大渡口、南岸、渝北、万盛、长寿;第二类巴南、北碚、梁平、永川、黔江、大足、铜梁、合川、荣昌、南川、潼南、江津、酉阳、武隆;第三类壁山、万州、巫溪、巫山、忠县、丰都、开县、秀山、綦江、石柱、涪陵、奉节、彭水、云阳、垫江、城口。 4 结论和对策 通过上述分析,不难看出: (1)重庆市40个地区社会经济发展存在着明显的差异:第一类区县大部分分布在都市发达经济圈,第二、三类区县几乎均处于渝西经济走廊与三峡库区生态经济区。 (2)渝中区综合经济实力得分远远高于其他9个,这说明渝中区已成为整个重庆经济的发展极。其中江北、沙坪坝、九龙坡、南岸、渝北五区在地理位置上和渝中区相临,受经济辐射作用应影响,经济综合实力较强;巴南区、北碚区虽然位于都市发达经济圈,有着特殊的区位优势,但是由于受周边江北、沙坪坝等五区的经济回波效应影响,抵消了经济的辐射作用,所以综合实力得分较第一类地区低;壁山、万州等l6个区县大多为边远山区和少数民族地区,由于这些地区的交通不发达,这些地区的专业优秀人才大多流向一、二类地区,因此使得这些地区与第一、二类地区间经济发展差距有扩大的趋势。 (3)基于较大地区间经济发展的差距,重庆市要对以往三大经济圈的发展战略加以完善、发展和提升,切实贯彻并实施“一圈两翼”的新战略。努力增强一小时经济圈的带动辐射能力,加快以交通和水利为重点的基础设施建设,增加区域发展潜力。积极发展特色产业,加快区域经济社会发展,逐步缩小市域的城乡差距和区域差距,形成大城市带大农村的整体推进格局。 参考文献 [1]陈道平,刘伟.基于微小型汽车市场的影响消费者购买行为的消费者特性分析[J].消费经济,2005,(6). [2]唐敏,陈道平.上证A股与B股协整关系的实证研究[J].当代经济,2008,(2). [3]赵喜仓,吴梦云.江苏城市社会经济发展状况实证分析[J].统计研究,2003,(3)

聚类分析论文范文第2篇

[关键词]学术期刊 评价指标分类 因子分析 聚类分析

[分类号]G304

1 引 言

学术期刊是国家科技发展水平的重要窗口,是知识创新、科技成果转化为生产力的重要桥梁,在推动社会科技进步方面发挥着不可替代的作用。期刊评价是文献计量学研究的重要组成部分,它通过对学术期刊的发展规律和增长趋势进行量化分析,揭示学科文献数量在期刊中的分布规律,为优化学术期刊的使用提供重要参考,同时可以提高学术期刊的内在质量,促进学术期刊的健康成长和发展。对期刊评价指标进行分类是期刊评价的基础和前提,目前期刊评价方法有几十种,有些评价方法不需要对期刊评价指标进行分类,如主成分分析、灰色关联、TOPSIS等方法,但是有些评价方法必须建立在期刊评价指标分类的基础上,包括层次分析法、专家打分法、突变理论等。层次分析法是根据子指标对父指标的重要性程度进行两两判断,指标分类尤为重要。专家打分赋权类评价方法是在指标众多的情况下进行的,更需要分类。

Weiping Yue、Concepcion s.Wilson(2004)利用结构方程的原理建立了一个期刊影响力的分析框架,并对期刊评价指标进行了系统的分类。苏新宁(2008)在构建人文社会科学期刊评价指标体系时,将一级指标分为期刊学术含量(篇均引文、基金论文比、机构标注、地区分布数)、被引数量(总被引频次、学科论文引用数量、他引率)、被引速率(总被引速率、学科引用速率、它刊引用速率)、影响因子(总影响因子、学科影响因子、他引影响因子)、被引广度等。盖红波(2006)将期刊评价指标分为定量评价指标(被引量、被索量、载文量、被摘量、影响因子)、定性评价指标(双高、双效、双奖、双百)、质量考核指标(政治、学术、编辑出版、效益)、同行评议指标。赵惠祥、张弘等(2008)将科技期刊评价一级指标分为影响力指标(总被引频次、影响因子、5年影响因子、相对影响因子、即年指标、他引率、引用刊数、扩散因子、学科影响指标、学科扩散指标、被引半衰期、h指数)、文献指标(载文量、参考文献量、平均引文量、平均作者数、地区分布数、机构分布数、基金论文比、海外论文比等)、载体指标(文献书目信息完整率、编排规范化、差错率、装帧质量、印刷质量、网络通畅率、平均发表周期、平均出版时限等)、管理指标(期刊社体制、编委会状况、管理规章完备性、版权制度、发行体制、信息平台、人员状况、营业总额、资产总额、利润总额)。邱均平、张荣等(2004)将期刊评价指标分为技术性指标(影响因子、总被引频次、即年指标)、效益指标(直接效益、间接效益、社会效益)、标准规范化指标(编校质量、装印质量、现代化建设)。黄河胜(2000)将期刊内涵指标分为引文参数(影响因子、总被引频次、自引率、被引半衰期、外文引文率、SCI文献引用率)、稿件特征参数(基金论文比、学位稿)、稿流特征参数(平均时滞量、平均载文量)。潘云涛(2007)”将期刊一级指标分为学术质量指标、国际竞争力力指标、可持续发展潜力指标。庞景安、张玉华等(2000)将科技期刊评价指标分为经营管理水平指标、学术水平、编辑水平三大类。

由于评价目的不同,期刊评价的指标选取不同,当然分类也不一样。对于大多数评价指标而言,不同学者的分类基本相同,但由于学术期刊评价指标的特点,对于少数指标,不同学者分类截然不同,如基金论文比指标有的作为学术质量指标,而有的作为文献特征指标;即年指标有的被作为时效性指标,有的被作为影响力指标。这些难以分类的指标主要有基金论文比、地区分布数、海外论文比、即年指标等。此外,目前学者主要采用主观分类法进行分类,没有采用客观分类法。

本文以中国科学技术信息研究所的医学期刊评价为例,采用聚类分析与因子分析等客观分类法进行分类和比较,试图确定学术期刊评价指标的分类方法,从而为进一步的期刊评价打下基础。

2 方法

2.1 聚类分析(Cluster Analysis)

聚类分析是多元统计分析的一种,它把一个没有类别标记的样本集按某种标准分成若干个子集(类),使相似的样本尽可能归为一类,而不相似的样本尽量划分到不同的类中。聚类分析被广泛地应用于模式识别、数据挖掘和知识发现的许多领域。聚类的目的是要使各类之间的距离尽可能地远,而类中点的距离尽可能地近。并且分类结果还要有令人信服的解释。在聚类分析中,人们一般事先并不知道应该分成几类及哪几类,全根据数据确定。

对一组数据,既可以对变量(指标)进行分类,也可以对观测值(事件,样品)来分类,对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类,它们在数学上是无区别的。在学术期刊评价中,可以应用R型聚类分析来进行学术期刊评价指标的分类。

2.2 因子分析(Factor Analysis)

因子分析是从多个变量指标中选择出少数几个综合变量指标的一种降维的多元统计方法。该方法的基本思想是通过变量的相关系数矩阵或协方差矩阵内部结构的研究,找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系。然后根据相关性大小把变量分组,使得同组内的变量之间相关性较高,不同组的变量之间相关性较低。每组变量代表一个基本结构,这个基本结构称为公共因子。对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。

建立因子分析模型的目的是找出主因子,解释每个主因子的实际意义,以便对实际问题进行分析。由因子模型矩阵得到的初始因子载荷矩阵,如果因子负荷的大小相差不大,对因子的解释可能有困难,因此,为得出较明确的分析结果,往往要对因子载荷矩阵进行正交旋转或斜交旋转。通过旋转坐标轴,使每个因子负荷在新的坐标系中能按列向0或1两极分化,同时也包含按行向两极分化。如果不对因子载荷矩阵进行旋转,就是主成分分析,因此,主成分分析实际上是因子分析的一种特殊情况。主成分分析只要求所提取出的主成分能包含主要信息即可,不需对其含义作准确解释;因子分析要求所提取出的因子有实际含义,因此采用因子分析进行变量的分类较好。

因子分析是根据现有的指标寻找公共因子,因此,可以借用因子分析进行指标的分类,与主观分类不同的是,由于因子分析是完全根据数据进行的客观分析,

因此不能首先确定一级指标的名称,而应该根据因子分析的结果对公共因子进行命名。

3 数据

本文数据来自于中国科学技术信息研究所CSTPC数据库,以医学类期刊为例进行分析。中国科学技术信息研究所从1987年开始对中国科技人员在国内外数量和被引情况进行统计分析,并利用统计数据建立了中国科技论文与引文数据库,同时出版《中国学术期刊引证报告》。本文数据是2006年的医学学术期刊数据,共518种医学期刊,如表1所示:

由于要对期刊进行评价,所以必须对数据进行标准化处理,每项指标最大值设为100,然后按比例进行调整。此外,被引半衰期和引用半衰期是两个反向指标,必须进行适当处理,方法是用100减去其标准化后的结果后再做标准化,这种处理方式是线性处理方式,比反向指标取倒数的非线性处理方式要科学一些。

4 指标分类结果

4.1 聚类分析

采用层次(hierarchical method)R聚类,第一步把最近的两个指标合并成一类;度量剩余的指标和小类间的亲疏程度,并将当前最接近的指标或小类再聚成一类;再度量剩余的指标和小类间的亲疏程度,并将当前最接近的指标或小类再聚成一类,如此循环,每次都少一类,直到最后只有一大类为止。越是后来合并的类,距离就越远。采用SPSS 15.0进行数据处理,选择组内联系最大法(within-groups linkage),结果见图1。总被引频次(x1)与学科扩散因子(X5)被划为一类,都是期刊影响力的指标;影响因子(x7)与即年指标(X8)被划为一类,还是期刊影响力的指标。在此基础上将以上4个指标划为一类,是可以解释的。然后以此为基础,依次增加平均引文数(X11)、海外论文比(X14)、基金论文比(X9)、学科影响指标(X4),关联性相对较弱,如平均引文数与期刊的影响力关系并不是很大,海外论文比和基金论文比与期刊影响力有一定关系,但基于聚类分析的角度,似乎又比较远。

平均作者数(10)和引用半衰期(12)被分为一类,几乎无法从理论上找到这种关系,在此基础上又和扩散因子()(3)聚类,更是无法解释。

被引半衰期(x6)和地区分布数(X13)被分为一类,从理论上也无法解释,在此基础上和他引率(x2)聚类,也无法解释。

由于期刊评价指标的特殊性,如果采用聚类分析对指标进行分类,结果可能是不能令人信服的,本文是基于大量数据分析得出的结论,应该是比较可靠的。

4.2 因子分析分类

同样采用SPSS 15.0进行因子分析,首先进行KMO与Bartlett检验。KMO是对样本充分度进行检验的指标,一般要大于0.5。本文采用SPSS进行数据处理,KMO值为0.680,也就是说,符合因子分析的条件;Bartlett值为3319.828,P

第一因子是总被引频次(x1)、学科影响指标(x4)、学科扩散因子(x5)、影响因子(x7)、地区分布数(X13),前4个指标都是与被引相关的指标,可以用影响力加以概括,地区分布数也是影响力的一种体现,影响力越大,论文地区分布越广。

第二因子包括基金论文比(X9)、平均作者数(XIO)、平均引文数(X11)、海外论文比(X14)、即年指标(x8)、前4个指标都是期刊特征指标,即年指标比较特殊,在第一因子中的系数为0.34,说明它也是影响力指标;在第四因子中的系数为0.424,第四因子包括引用半衰期和被引半衰期,也与引用相关,但第二因子系数最大,为0.531,所以认为其是期刊特征指标。

第三因子包括他引率(x2)和扩散因子(x3),也与被引相关,是影响力的体现,因此可以将第三因子和第一因子合并。

第四因子包括被引半衰期(x6)和引用半衰期(X12),它其实主要反映的是期刊的时效性情况,因为引用半衰期较短的论文,一般比较新,其参考文献也相对较新

因此,根据以上分析,可以将学术期刊指标分类如下:①影响力指标:总被引频次(x1)、他引率(x2)、扩散因子(x3)、学科影响指标(X4)、学科扩散因子(x5)、影响因子(x7)、地区分布数(X13);②期刊特征指标:即年指标(x8)、基金论文比(x9)、平均作者数(XIO)、平均引文数(x11)、海外论文比(X14);③时效性指怀:被引半哀期(x6)和引用半衰期(X12)。

聚类分析论文范文第3篇

关键词:通话行为;数据挖掘;模糊聚类;模糊C均值(FCM)聚类

中图分类号:TP301文献标识码:A文章编号:1009-3044(2008)14-20926-03

1 引言

近年来电信事业蓬勃发展,随着市场竞争的充分展开和电信资费的不断下降,对于客户的消费行为分析显得越来越重要。对用户呼叫行为进行有效分析和辨识,是对客户分群及市场细分的必要手段。本研究希望能应用模糊数学理论和数据挖掘领域中的聚类技术,对客户呼叫行为进行分析,为电信市场细分和营销策略计划的制订提供有效工具。

要分析电信用户的呼叫行为,需要从用户通话记录中找出使用电话多和少,或是电信消费高和低的用户分群。本研究采用模糊集理论[4]作为技术基础,只关心如何能够从用户的通话记录中剖析出有意义的信息,尚有其他许多种分类方法不在我们讨论范围之内。某些通话行为特别怪异的电信用户,需要在后续研究中加以调整改进其分类。

2 相关研究

在本章节中,我们将针对本论文研究范围的相关领域进行探讨,第一部分为聚类技术介绍;第二部分为本文采用的模糊C均值(FCM)聚类算法的原理介绍。

2.1 模糊聚类技术(Fuzzy Clustering)

2.1.1 聚类分析的基本概念

聚类就是将数据对象分组成多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大[1] 。聚类与分类不同,前者是一种无指导的学习,而后者是一种有指导的学习。在分类时对于目标数据中存在哪些类,事先已知,只需将每个数据点属于哪一个类识别出来;而聚类事先未知有多少类,以某种度量为标准,将具有相似特征的数据对象划分为一类,同时分离具有不同特征的数据对象。聚类需要考察所有的个体才能决定类的划分,并由算法自动确定。

大多数对象没有严格的属性,他们在性态和类属方面存在着中介性,具有亦此亦彼的性质,因此适合进行软化分。模糊集理论的提出为这种软划分提供了有力的分析工具,即模糊聚类分析。

2.1.2 聚类分析的分类

从实现方法上分,模糊聚类分析方法可大致分为四种类型:谱系聚类法、基于等价关系的聚类方法、图论聚类法和基于目标函数的聚类方法等。前三种方法不适用于大数据量的情况,难以满足实时性要求较高的场合,因此在实际中应用并不广泛。受到普遍欢迎的是第四种方法――基于目标函数的聚类方法,该方法把聚类分析归结成一个带约束的非线性规划问题,通过优化求解获得数据集的最有模糊划分和聚类。设计简单、解决问题的范围广,还可以转化为优化问题而借助经典数学的非线性规划理论求解,易于计算机实现。因此,基于目标函数的模糊聚类算法成为新的研究热点。

2.2 模糊C均值(Fuzzy C-Means,FCM)聚类算法

模糊C均值(FCM)聚类算法首先由Dunn于1974年提出,并由Bezdek于1981年改进。这种算法能自动对数据对象进行分类并求出聚类中心和每个数据点的隶属度,使得非相似性指标的目标函数达到最小,从而决定每个数据点的归属。

初始化:给定聚类类别数c,2≤c≤n,n是数据个数,设定迭代停止阈值ε,指定加权指数m;用值在[0,1]区间的随机数初始化隶属矩阵U,使其满足约束条件式(1);

步骤一:计算c个聚类中心ci,i=1,…,c;

步骤二:计算目标函数式(2)。如果J小于ε,或相对于上一次J值的改变量小于ε,则停止;

步骤三:重新计算隶属矩阵U,返回步骤一。

整个计算过程就是反复修改聚类中心和分类矩阵的过程。该算法的收敛性已经得以证明[3]:FCM算法能从任意给定初始点开始沿一个迭代子序列收敛到其目标函数Jm(U,P)的局部极小点或鞍点。

2.2.2 聚类有效性控制

利用Matlab 2006a提供的模糊逻辑工具箱(Fuzzy Logic Toolbox)中的fcm函数对通话记录进行聚类,只需要输入一个初始变量,即分类数c,就可以很快得出结果。但是,关于初始变量c的给定,不同的c值,会产生不同的聚类结果;即使是同一c值,有时也会产生不同聚类结果。这是由于算法结果一般地依赖于初始值,而初始值的给定在计算过程中是随机的,有时候会不可避免地陷入局部最优而非达到全局最优,关于这方面的研究,可以参考文献[2]。聚类有效性问题一般通过建立有效性函数来解决。这种函数用于衡量聚类的紧密度和分离度,以此来判定聚类的有效性。

其中,n为样本数,中的下标表示FCM算法中的加权指数为2,dij表示样本i与第j类聚类中心的距离。XIE-BENI指标可以解释为(U,V)的总方差与V的分离性指标的比值。分类效果好时,各类中心间的距离应该最大,即分离性指标比较大。由此当对应最佳类数n*时,应该最小。

根据函数确定最佳类数n*的步骤如下:

(1) 给定c的范围是。这是根据很多研究者的使用经验和一些理论依据给出的;

(2) 计算当2≤c≤时每个整数c所对应的V值;

(3) 比较各V的值,取V最小时所对应的c值即为所求。

3 研究设计

3.1 分析数据构成

对电信用户通话行为进行分析,可以利用大量的通话清单记录经过整理出分析特征维度,采用FCM聚类进行分析。分析特征的选择确定工作可以由专家凭经验完成,也可以由散布矩阵迹、J-M(Jeffries-Matusita)距离和变换散度等参量为类别可分性准则的最佳特征子集的选取方法[2]。一般情况下特征数目多了会产生维数灾难,但太少的特征将反映不出分析模式的总体信息。为便于实施,本研究采用专家选定的方式确定分析特征。

本文采用的聚类数据是随机选择了某地电信2006年6月至8月三个月共120个电话的通话特征数据,考虑到客户的隐私权,将客户的姓名及电话号码略去,赋以识别号ID代之。

这是一个六维的高维度数据空间(客户识别号ID非分析特征,不列为分析维度),特征属性分别为长途呼叫总次数、长途呼叫不同被叫号码个数、长途平均单次呼叫时长、市话呼叫总次数、市话被叫次数以及市话被叫不同主叫号码数,如表1所示:

3.2 程序及结果

本文使用Matlab 2006a版中的矩阵运算判定聚类有效性,并用FCM函数对以上数据进行聚类,部分源代码如下:

load analysisdata.dat

[center,U,obj_fcn] = fcm(analysisdata,4);

maxU = max(U);

index1 = find(U(1,:)==maxU);

……

line(analysisdata(index1, 1), analysisdata(index1, 2), 'linestyle','none','marker', 'o','color','g');

……

plot(center(1,1),center(1,2),'ko','markersize',15,'LineWidth',2)

plot(center(2,1),center(2,2),'kx','markersize',15,'LineWidth',2)

……

运算后得到以下结果:

对聚类有效性函数式(3),确定类数c。

一般地,取m=2,分母权值均为1,当类数2≤c≤10时,有效性函数V取得如下结果:c=4,V=3765.7414。

可以确定,当c=4时V取得最小值,因此可分为4类,聚类中心矩阵为:

聚类结果投影在维度“市话呼叫总次数”、“市话被叫总次数”上 的示意图如图1。

聚类中心点在各维的取值表征了该类的特征,因此客户分类如表2所示。

3.3 简单的模式识别

聚类完成后,可以用以下方法进行模式识别验证:

(1) 按与中心距离的识别

算出聚类中心center后,新样本可根据距离判定属于哪一类,对于一个新样本xk,如果,则xk属于cj类。

(2) 按最大隶属度原则来识别

如果,则xk属于cj类。

由前面程序输出可以得到隶属度矩阵U,U为一个4×120的矩阵,表示120个样本的在四类的隶属度。

由于样本数较多,截取一段结果图示如图2:

可以看到,矩阵U每一列之和为1,即是每一样本的各类隶属度之和为1。取每一列的最大值,最大值在第几行,该样本就属于第几种类型。

在此简单抽取两个样本查看确认分类是否正确,如样本:

样本16属于第一类“主叫活跃,被叫少”,而样本89属于第二类“主叫不活跃,被叫活跃”。经过查核某地电信IBSS系统及计费帐务系统,样本16登记的属性为“个体商铺”;样本89登记的属性为“住宅”。客户属性的使用习惯与聚类结果相符。

4 结束语

电信用户呼叫行为分析中聚类分析是一个新的研究领域,与之相似的研究可以追溯到市场营销中的市场细分,市场细分与客户聚类功能相同,都是将产品或服务的销售对象进行分类。但两者是有区别的,市场细分的分析数据来自企业外部,比如消费者的人口特征、区域特征、行业性质等等,用的只是一种“普遍适用”的策略,很难真正做到个性化服务。而客户通话行为聚类分析的数据源自于企业内部掌握的通话记录,根据客户本身的使用行为、消费倾向,保证每个客户的消费行为的连续性与一致性,有利于对现有客户进行管理,如发现优质客户,对不良客户进行预警等。因此,对企业有很重要的意义。

应用模糊C均值聚类算法得到比较满意的客户聚类结果,主要体现在:区分出了优质客户和普通客户;找到了每一类客户的特征。本文提出用FCM算法作为客户通话行为(消费行为)聚类的方法,为企业提供分析的量化依据。

参考文献:

[1] HSU T H. An application of fuzzy clustering in group-positioning analysis[J]. Proc Natl Sci, Counc ROC(C),2000,10(2):157-167.

[2] 高新波. 模糊聚类分析及其应用. 西安:西安电子科技大学出版社,2004,1:37-54.

[3] Bezdek J C. A convergence theorem for the fuzzy ISODATA clustering algorithm. IEEE Trans. PAMI, 1980, 1(2):1-8.

[4] Zadeh L A. Fuzzy logic. IEEE Trans. On Control System Magazine, 1988. 83-93.

聚类分析论文范文第4篇

硕士学位论文一般都具有专深的理论和卓越的见解,具有内容新颖、信息量大、专业性强、学术价值高等特点,其发表状况被认为是衡量学科发展水平和科技产出的一项重要指标。本文应用共词聚类的方法,对近几年的图书馆学情报学硕士学位论文进行定量分析,找出当前我国图书馆学情报学硕士研究生的研究热点,并进行比较分析。

1.图书馆学硕士学位论文的研究热点分析

1.1数据来源

《CNKI中国优秀硕士学位论文全文数据库》是目前国内相关资源最完备、高质量、连续动态更新的中国硕士学位论文全文数据库收录了1999年至今全国652家硕士培养单位的优秀硕士学位论文。本文选择中国知网的《CNKI中国优秀硕士学位论文全文数据库》的免费题录数据库于2007年6月8日以“学科专业名称”作为检索途径,输入“图书馆学”作为检索词,时间选择2002年到2006年共检索到316篇学位论文。对检索结果用Excel进行数据统计,得到934个关键词。选择词频数不小于7的关键词作为高频关键词进行分析,同时去除对反映主题意义不大的“比较研究”(词频为7)得到15个高频关键词,如表1所示。

1.2数据分析

1.2 1构造共词矩阵

对表1中的高频关键词两两配对,统计它们在316篇文献题名中共同出现的频次,形成15X15的矩阵,如表2所示,对角线上的数字即为各高频关键词的词频。

1.2.2构造相异矩阵

为了消除频次悬殊造成的影响,用Ochiia系数将共词矩阵转换成相关矩阵,即将共词矩阵中的每个数字都除以与之相关的两个词总频次开方的乘积,其计算公式是:

对角线上的数据表示某词自身的相关程度,经上式计算均为1。为方便进一步处理,用“1”与全部矩阵相减,得到表示两词间相异程度的相异矩阵由于篇幅限制,此处仅列举部分相异矩阵如表3所示。

1.2.3利用SPSS进行聚类分析将表3所示相异矩阵导入SPSS进行层次聚类分析,选择“组间平均链锁(Between—grouplink-age)距离”,即个体与小类中每个个体距离的平均值。此种方法利用了个体与小类的所有距离的信息,克服了极端值造成的影响得到的凝聚状态表如表4所示。

凝聚状态表中,第一列表示聚类分析的第几步;第二、三列表示本步聚类中哪两个样本或小类聚成一类;第四列是个体距离或小类距离;第五、六列表示本步聚类中参与聚类的是个体还是小类,0表示样本非0表示由第几步聚类生成的小类参与本步聚类;第七列表示本步聚类的结果将在以下第几步中用到。例如,第一步中,1号关键词(数字图书馆)与9号关键词(元数据)聚成一类,它们的个体距离是0.985,这个小类将在第10步中用到。同理可得其它聚类。这个聚类过程可以从图1所示聚类树状图中直观地展现出来。树状图以躺倒树的形式展现了聚类分析中的每一次类合并的情况。SPSS自动将各类间的距离映射到0—25之间,并将凝聚过程近似地表现在图上。例如,1号关键词(数字图书馆)与9号关键词(元数据)距离最近,首先合并成一类,其次是2号关键词(图书馆)和5号关键词(网络环境),以此类推。可见,该聚类过程与表4所示的凝聚状态表是一致的。

    1.3 聚类结果分析结合高频关键词的共词矩阵和上述聚类过程,可以将图书馆学硕士学位论文的研究热点归纳为如下几个方面。

(1)元数据在数字图书馆中的应用,包括关键词1(数字图书馆)、9(元数据)。全球数字图书馆建设的实践证明:元数据在各类数字化资源的收集、整理'存取和服务中起着至关重要的作用口。在我国数字图书馆的建设中,应切实重视和加强元数据的研究和应用,尽快研究、开发出专门针对中文数字文献和网络信息兼容的元数据。

(2)网络环境下图书馆事业的发展及图书馆信息服务、知识管理和信息资源的开发、利用、建设等问题,包括关键词2(图书馆)、5(网络环境)、4(信息资源)、3(信息服务)、8(知识管理)。网络环境为图书馆事业的发展带来了前所未有的机遇。图书馆的信息交流突破时空障碍伸向世界的各个角落,图书馆界长期以来追求的资源共享目标在很大的范围内得以实现,信息技术在图书馆中的应用渗透于图书馆的各个微观和宏观工作中,使图书馆工作发生了巨大的变化。在把握网络环境所提供机遇的同时,更重要的是迎接挑战,及时发现和解决由此而带来的各种问题,才能使图书馆事业的发展进入健康、持续发展的轨道。

(3)本体在知识组织中的应用,包括关键词7(知识组织)、14(本体)本体作为一种能在语义和知识层次上描述信息系统的知识组织工具,自提出以来就引起了国内外众多科研人员的关注,并在许多领域得到了广泛应用。数字信息资源的特殊性为知识组织增加了难度,需要不断创新知识组织工具,提高获取知识的效能。本体的应用研究必然改善这一特定领域的知识组织水平。

(4)高校图书馆的知识服务,包括关键词6(高校图书馆)、15(知识服务)。高校图书馆在各个历史时期都为满足用户的知识需求而探索和进行着用户服务工作的实践。面对知识经济的到来和现代信息技术的飞速发展,高校图书馆原有的信息服細不能满足用户日益增加的知识需求,因此,最能与用户知识需求相匹配的知识服务成为高校图书馆用户服务发展的主流趋势。

(5)网络信息资源的知识产权问题,包括关键词10(网络信息资源)、11(知识产权)在网络信息迅猛发展的今天,既要保护好权利人的合法权力又要兼顾社会公众利益,仅以目前的知识产权保护策略是远远不够的。这就需要建立和健全网络信息知识产权的保护体系,增强网络的可信赖度,在信息所有者和使用者以及传播者之间形成一个真正公平、公开、安全、友好、互动与互信的网络信息交流平台。

(6)信息组织理论下的搜索引擎技术,包括关键词12(信息组织)、13(搜索引擎)Internet的迅速发展使得网络空间成为重要的信息源。在信息组织理论的基础上网络信息组织技术有了飞速发展,其中搜索引擎就是对网络资源管理和检索技术的一个重要发展,而且网络信息搜索引擎的开发与利用已经取得显著成绩并且成为一个新兴产业。

2.情报学硕士学位论文的研究热点分析

情报学硕士学位论文的分析过程与图书馆学硕士学位论文的分析过程相同。笔者曾于2007年4月9日用相同的检索方式,检索到624篇情报学硕士学位论文,选取20个高频关键词进行分析。高频关键词如表5所示。

相应的共词矩阵、相异矩阵和凝聚状态表,可参见“情报学硕士学位论文的共词聚类分析一文,此处只引用了最终的树状图及相关结论。层次聚类分析的树状图如图2所示。

情报学硕士学位论文的研究热点可以概括为以下几条。

(1)图书馆的信息服务,包括关键词(信息服务)'(图书馆)、(信息)。网络环境下图磁究生的关注。

书馆的信息服务更加体现出其个性化特点。主要围绕信息服务实现的技术、系统、对策及信息服务能力的评价展开。同时也有涉及专业图书馆的信息服务研究,像医学图书馆和军事图书馆等。

(2)企业竞争情报和企业信息化,包括关键词(企业)、(竞争情报)、(信息化)关于企业竞争情报的研究主要集中在竞争情报系统的构建及应用、企业竞争情报需求分析、人才培养及反竞争情报等方面。企业信息化的研究主要是关于企业信息化的经济效益评价、项目风险评估和控制、信息化对策等的研究。

(3)网络信息的组织和检索,包括关键词(网络)、(信息资源)、(信息组织)、(信息检索)(信息)以信息构建、Web、本体、XML、统计语言学模型等各种理论为基础的信息组织和检索是研究的热点。还涉及一些企业、医学等专业方面的信息组织和检索,以及检索系统的设计。

(4)数据挖掘在客户关系管理及电子政务中的应用,包括关键词5(数据挖掘)(客户关系)、(电子政务)数据挖掘技术是实施客户关系管理的关键技术之一。企业在收集大量的客户基本资料和详细交易数据的基础上,利用数据挖掘发现客户特征、购买模式等有价值的知识,从而有效指导客户关系管理的实践。将这种思维运用到电子政务中,同样具有重要的意义.

(5) 人力资源与信息系统,包括关键词(人力资源)、(信息资源)。企业、高校、银行等领域的人力资源管理系统的设计及实施是其研究重点。

(6) 本体与数字图书馆,包括关键词(数字图书馆)、(本体)。本体是近几年的研究热点,主要用于知识检索、信息系统建模、领域本体建模和信息服务系统等方面。而这些问题又是数字图书馆建设和运作过程中所不可忽视的。

(7) 电子商务、知识管理及信息技术的关系,包括关键词1(电子商务)、(信息技术)、(知识管理)。电子商务和知识管理是出现最多的两个关键词,它们涉及的范围比较广泛。知识管理主要是针对企业和图书馆,大多研究知识管理系统的设计与实现;电子商务的模式选择、税收问题、消费者信任度以及信息流、信息安全等问题是研究热点。当今网络环境下,知识管理和电子商务的实现都与信息技术有着不可分割的联系。

3.图书馆学与情报学硕士学位论文研究热点的比较分析

从层次聚类分析的树状图中可以看出,情报学高频关键词类间距离较小,聚类过程相对集中,在距离0—10以内,就完成了绝大多数的聚类。而图书馆学高频关键词的类间距离大多相距较远,聚类过程比较分散,一直到接近20的地方才完成聚类。因此,情报学高频关键词的共词聚类效果比图书馆学高频关键词的共词聚类效果要好,这说明情报学高频关键词形成的研究热点的类间关系更为密切。比较两个专业学位论文的研究热点,可以发现以下特点。

(1)图书馆仍是图书馆学和情报学硕士研究生的研究重点,随着信息技术的发展,加强了对数字图书馆,以及建设数字图书馆所需技术一本体、元数据等的研究。图书馆传统的信息服务、信息组织,以及知识经济发展所产生知识管理等关键词,也频繁地出现在近几年的图书馆学情报学硕士学位论文中。但是图书馆学的知识管理大多只是针对图书馆进行研究,而情报学研究的知识管理除面向图书馆外,还有对企业知识管理相关理论与实践的研究。同时,两者都较为关注信息资源,特别是网络信息资源的开发、组织、检索、利用等方面的发展,

(1) 图书馆学的研究热点大多还是限制在跟图书馆有关的领域。只是跟原来相比,更多地带有了信息和网络的色彩。但是,对图书馆的知识服务以及网络信息资源知识产权方面的研究,则是图书馆学独特的研究热点。

聚类分析论文范文第5篇

关键词:spss软件 能力素质 结构方程模型

中图分类号:G434 文献标识码:A 文章编号:1674-098X(2014)02(c)-0255-02

1 SPSS软件类聚分析相关理论

聚类分析又称为群分析,是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程,是一种多元统计分析方法,其分析方法可以分为系统聚类法、K一均值聚类法、模糊聚类法、有序样品聚类法等,下面介绍一下K一均值聚类法与系统聚类法[1]。

K-means:算法的工作原理:算法首先随机从数据集中选取K个点作为初始聚类中心,然后计算各个样本到聚类中的距离,把样本归到离它最近的那个聚类中心所在的类。计算新形成的每一个聚类的数据对象的平均值来得到新的聚类中心,如果相邻两次的聚类中心没有任何变化,说明样本调整结束,聚类准则函数已经收敛。

具体的算法至少包括以下3个步骤:

(1)将所有的样品分成K个初始类,并计算各个初始类的中心坐标;

(2)通过欧氏距离将所有的样品重新分类,分类的原则是将样品划入离中心最近的类中,然后重新计算中心坐标;

(3)重复步骤2,直到所有的样品都不能再分配为止。

SPSS软件中K一均值法具体的操作步骤为:打开统计分析菜单中聚类分析中的K-均值法,将原始变量与标志变量分别移入右侧的列表框中,选取迭代方式与聚类数。在保存按钮中选中聚类成员与聚类中心的距离。在选项中将statisties中三个复选框全部选中,运行SPSS程序即可得到K一均值法聚类分析结果。

2 高中生能力素质筛选

2.1 能力素质与能力素质模型

能力素质(也叫胜任力)(Competency),

指特质、动机、自我概念、社会角色、态度、价值观、知识、技能等能够可靠测量并可以把高绩效者与一般绩效者区分开来的任何个体特征[2]。

能力素质模型(Competency Model)是从组织战略发展的需要出发,以强化竞争力,提高实际业绩为目标的一种独特的人力资源管理的思维方式、工作方法、操作流程。

基于能力素质相关理论基础,国内外学者做了相应的研究工作并构建出针对各种行业、各种部门、不同管理水平的通用和特定的能力素质模型。

2.2 李克特五点量表法

李克特量表(Likert scale)是属评分加总式量表最常用的一种,属同一构念的这些项目是用加总方式来计分,单独或个别项目是无意义的。它是由美国社会心理学家利克特于1932年在原有的总加量表基础上改进而成的。该量表由一组陈述组成,每一陈述有“非常同意”、“同意”、“不一定”、“不同意”、“非常不同意”五种回答,分别记为5、4、3、2、1,每个被调查者的态度总分就是他对各道题的回答所的分数的加总,这一总分可说明他的态度强弱或她在这一量表上的不同状态。

其基本步骤如下:

(1)收集与测量的概念相关的陈述语句;

(2)将每个测量的项目划分为“有利”或“不利”两类(一般测量的项目中有利的或不利的项目都应有一定的数量);

(3)选择部分受测者对全部项目进行预先测试,要求受测者指出每个项目是有利的或不利的,并在方向-强度描述语中进行选择(一般采用所谓“五点”量表:a.非常同意、b.同意、c.无所谓(不确定)、d.不同意、e.非常不同意);

(4)对每个回答给一个分数(一般有利项目按5、4、3、2、1分,对不利项目的分数就为1、2、3、4、5);

(5)根据受测者的各个项目的分数计算代数和,得到个人态度总得分,并依据总分多少将受测者划分为高分组和低分组。

(6)选出若干条在高分组和低分组之间有较大区分能力的项目,构成一个李克特量表。

3 高中生能力素质验证及其与成绩关系研究

3.1 研究对象

在应试制的高中学生培养模式下,评价高中生是依靠分析其考试的成绩。因此,本文以高中生个人能力素质与对成绩影响为出发点,研究采用调查问卷的方式进行实证分析,对海淀区某重点高校学生进行了调查研究。调查对象为某高二普通班级的学生具有一定的代表性。问卷具体方式采用纸质问卷的形式。共发放问卷50份,回收问卷40份,问卷回收率为80%。问卷设计借鉴之前的研究,制定了包含7项学生个人能力素质的量表,采用上述的李克特五点量表法对被试者的个人能力素质进行测量,并抽取该班学生某次考试语文、数学、外语成绩,应用SPSS 软件的进行分析研究[3]。

3.2 高中生能力素质的确定

个性素质即一个人内在的特质,影响着个体的行为表现。高中学生成绩的好与坏涉及到很多方面,不仅有来自自身心理素质的影响,更与自身思维能力、知识量和运用知识的熟练度有关。在对高中生能力素质文献分析、培养目标和培养模式分析的基础上,经过一系列归纳总结,确定了自信心、坚韧性等7项高中生能力素质 [4]。

3.3 高中生能力素质研究模型

该文基于能力素质及能力胜任力模型相关理论,并在文献分析和调研的基础上,提出了包含3个维度,7个要项的高中生能力素质能力模型(图1),用于分析高中生能力素质以及其与成绩的影响关系,以期对于高中生培养提供建设性启示[5-7]。

3.4 数据信度和效度检验

(1)数据信度

研究需要对数据以及结构从信度、效度几方面进行考评,才能做到完善。本文的研究运用内部一致性系数α值即克朗巴赫α系数(Chronbach’s α coefficient)法对研究生的调查问卷进行信度检验。克朗巴赫α系数表示量表的内在一致性,是最常用的信度考评指标。一般认为α系数需要达到0.7以上。克朗巴赫α系数法克服了分半信度的缺点,它对量表的内部一致性进行了更为慎重的估计,因为它相当于将任一条目的结果同其他所有条目的结果作了比较。

SPSS软件中一致性系数法具体的操作步骤为:打开统计分析菜单中度量中的可靠性分析,将需要的变量移入右侧的列表框中。在模型按钮中选中α系数,运行SPSS程序即可得到数据可信度分析结果。

结果如(表1)所示。α值愈高,则表示问卷信度愈高。

从(表1)中检验结果显示各分量的Cronbach’s α值均高于0.7,说明问卷信度较高,可知问卷的内部结构较为良好。

(2)数据效度

效度:主要考核内容效度、结构效度、内部相关系数、区分效度。内容效度主要涉及语言表达的准确性问题,所能代表主题的多少。

KMO(Kaiser-Meyer-Olkin)检验统计量是用于比较变量间简单相关系数和偏相关系数的指标。KMO统计量是取值在0和1之间。当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时,KMO值接近1。KMO值越接近于1,意味着变量间的相关性越强,原有变量越适合作因子分析;当所有变量间的简单相关系数平方和接近0时,KMO值接近0。KMO值越接近于0,意味着变量间的相关性越弱。Kaiser给出了常用的KMO度量标准:0.9以上表示非常适合;0.8表示适合;0.7表示一般;0.6表示不太适合;0.5以下表示极不适合。

Bartlett球形检验用于检验相关阵是否为单位阵,即检验各个变量是否各自独立,在因子分析中,若拒绝原假设,则说明可以做因子分析,若不拒绝原假设,则说明这些变量可能独立提供一些信息,不适合做因子分析。

SPSS软件中一致性系数法具体的操作步骤为:打开统计分析菜单中降维中的因子分析,将需要的变量移入右侧的列表框中。在描述按钮中选中KMO值和Bartlett球形度检验,运行SPSS程序即可得到效度分析结果。

该文运用KMO值和Bartlett球形检验,其系数分析结果如(表2)所示:

有上表可知高中生数据的KMO值均大于0.7,P小于0.05,表明适合做因子分析,问卷具有良好的结构效度。

3.5 高中生能力素质验证

运用SPSS软件对能力素质数据进行重要性程度得分情况如(表3):

由上表统计结果可以看出,其中“坚韧性”、“理论知识”、“科普知识”、“解决问题”均值都大于3.8,说明这四项能力素质对高中生来讲都是很重要的,是高中生在学习中所应该具备的能力素质。

(1)高中生K-均值聚类分析

由于本文研究对象是高二的学生,因此,使用主科考试成绩来评价高中学生的“绩效”是比较合适的。本文运用SPSS软件的K-均值聚类分析,针对语文、数学、外语成绩将该班的学生分为一般学生和优秀学生两个部分[9-10]。进行聚类分析可得聚类分析结果。由聚类结果分析得出:第二类中心各变量得分均高于第一类,故认为第二类为优秀高中生,第一类为一般高中生。显著性分析表明,Sig值小于0.005,故聚类效果好。由每类例数得出:一般高中包含20个样本,优秀高中生包含20个样本。

(2)高中生能力要素分析

该文针对一般与优秀高中生的能力评分进行对比分析,分析得出,在自信心、坚韧性、理论知识、科普知识、思维能力、解决问题、心理调适等7项能力素质特征上,优秀高中生与一般高中生具有明显差异,即优秀高中生的能力素质分量评分均比一般学生要高。通过上述7项能力素质特征能够把优秀生和一般生区分开来。由此验证了本文提出的高中生能力素质特征项具有良好的有效性。学校应该依据上述7项对学生做出有针对性的教育培养方案。

4 结语

该文借助能力素质相关理论,筛选出7项高中生能力素质,并基于理论分析提出了高中生能力素质和成绩影响的关系模型。通过SPSS软件进行分析,可以得出下面的结论:

通过实证研究验证了该文提出的能力素质模型的有效性;

优等生与一般生在7项能力素质上差异很大,学校可以通过对上述几项能力特点对高中生进行有序的训练。

该文研究对于当前应试的高中生培养具有借鉴意义。

参考文献

[1] Zhang Su mei.The Application of SPSS in Student Evaluation of Teaching Quality[J].Springer,2010:978一981.

[2] Mohan S, Rajah T, Spencer SM. The Indian CEO competency model:Keys to Outstanding Indian Corporate Leadership in our time[J].The Journal of Business Perspective,2008 (3):201-203.

[3] 何琳.SPSS软件在广西教育科学研究领域的应用分析[J].广西教育,2011(9):99-101.

[4] Lyle M.Spencer,Signe M. petence at work Models for superior performance[M].Wiley, John&performanceS-ons Inc. Pub, 1993.

[5] 邓修权,康云鹏,席俊锋,等.高校科研团队资源能力模型构建及其应用研究[J].科学学研究,2011(1):102-110.

[6] 鲁娅妮,段磊.教学研究型大学研究生胜任特征的模型构建[J].网络财富,2010(10):178-179.

[7] 候杰泰,温忠麟.结构方程模型及其应用[M].北京: 教育科学出版社,2004.

[8] 刘菊香.用SPSS统计软件对学生综合成绩的因子分析[J].统计教育,2006,16(1):53-56.