首页 > 文章中心 > 正文

关于融合主成分及聚类的粮食主产区

关于融合主成分及聚类的粮食主产区

摘要:为探索我国粮食主产区农业经济发展水平的区域差异性,采用主成分和聚类相结合的综合分析方法,对我国13个粮食主产区2015年的农业经济发展水平指标数据进行分析。根据发展指标评价因子之间存在明显的相关性特征,用主成分分析方法获得各个地区的主成分得分,由分析所得的评价模型计算出13个粮食主产区农业经济发展水平的综合排名,并经系统聚类将其划分为4个类别,发现各类别的农业经济发展水平存在很大的差异。这可为我国粮食主产区农业经济发展结构的进一步调整提供理论支撑。

关键词:主成分;聚类分析;粮食主产区;农业经济

0引言

我国属于农业大国,“三农”是我国社会主义现代化建设初期的一项重要工程[1]。从改革开放以来,伴随着社会生产力水平的显著提升,我国的农村经济得到了显著的发展,但是仍然存在一定的问题,例如我国农业发展整体不协调,农村区域经济发展不平衡等。很多学者认为我国农业区域发展差异化主要由地区间自然资源等自然地理因素和区域间经济发展过程不同的经济因素引起的,具体表现为:区域GDP非均衡发展、区域城镇化程度和工业化进程不一以及区域资本市场发育存在差距[2]。上个世纪90年代以来,我国13个粮食主产区粮食生产对我国粮食安全做出了重大贡献。2014年13个粮食主产区的粮食产量占全国的75%以上,库存量占全国的71%,13个粮食主产区的农业经济具有同质性,但也存在很大的差异性。随着我国农业经济发展水平的提高,区域差距成为一个不可回避的现实问题,如何处理好地区之间的协同发展,如何解决农业现代化发展存在的问题,是当下研究的热点[3-5]。因此,为了分析我国粮食主产区农业经济发展水平的区域差异,本文拟基于2016年中国统计年鉴公布的13个粮食主产区2015年的数据,选取17个具有代表性的指标构成现代农业发展水平评价指标体系,采用主成分和聚类相结合的综合方法,开展粮食主产区现代农业发展水平的主成分和聚类分析,进而获得各地区农业经济发展水平的综合得分排名,从而得到农业经济相似的地区,以相互借鉴先进发展经验,取长补短,相互促进,加快发展步伐。

1分析原理与方法

主成分-聚类分析方法的核心思想是将主成分分析和系统聚类分析融合在一起。在实际应用中,算法首先进行主成分分析,确定分类阈值;然后,根据主成分得分对样本再进行聚类分析,给出各类别的综合得分排名。

1.1主成分分析主成分分析是一种基于相关系数或协方差矩阵、对高维变量进行空间降维的分析方法,即研究具有一定相关性的多个指标之间的若干个线性组合,且这几个线性组合所构成的新指标互不相关、且尽可能多地保留了原有指标的信息。本质上,主成分分析借助于一个正交变换,将指标数据进行标准化处理,然后再根据指标之间的相关性判定分类,确定主成分的个数,最后解释主成分所包含的意义[6-8]。设有n个样本,每个样本观测有p个指标,(1,2,...,;1,2...,)ijxi=nj=p为观测值,所构成的矩阵为()ijnpXx×=。主成分分析的流程如下:(1)原始数据集的标准化:*(),(1,2,...,;1,2,...,)ijijjjxx=?xsi=nj=p(1)其中:jx是第j个变量的样本均值,js是样本的标准差。经过标准化处理后的数据矩阵为***12,*nX=[x,x,...x]。(2)根据标准化数据矩阵计算协方差矩阵?Σ:11()(),(,1,2,...,)1nilijljlppxxxxijpn∧=×??=??=?????∑∑(2)(3)计算协方差矩阵?Σ的m个特征值,及每个特征值对应的特征向量,记为12(,,w)jjjmjw=ww???,从而获得主成分jY的线性表达式:*1,(1,2,)pjkjkkYwxjm==∑?=???(3)(4)计算累积贡献率,获得满足要求的r个主成分。通常,要求选取的主成分的方差累积贡献率达到85%以上。(5)计算所选择的r个主成分的得分。将原始数据的中心化值代入前r个主成分的表达式中,分别计算出各样本在r个主成分上得分。

1.2聚类分析即根据样本的观测指标,选择特定的相似性度量,把相似的样本聚为一类[9-10]。对于类与类之间的距离,在样品固有特征的基础上选用组间联接法,能够较好地刻画样品(粮食主产区)之间的区域差异。系统聚类分析是在样品距离的基础上选用组间联接法,开始将n个样品聚成一类,然后每次将具有最小距离的两个类合并,合并后用组间联接法重新计算类与类之间的距离,再并类,这个过程一直持续到将所有的样品都并为一类为止。1.3主成分-聚类分析主成分-聚类分析是主成分分析和系统聚类分析融合在一起的一种方法,具体算法[11]如下:(1)确定聚类数。先用主成分分析,得到r个主成分,在此基础上,用系统聚类法进行聚类分析。最后设置阈值,根据方差分析的思想确定聚类的个数s。(2)计算各个类别的综合得分;先计算每个样本的综合得分1rF?:11rrkkkFwY?==∑?(4)其中:kY是第k个主成分得分,kw是第k个主成分的系数。再计算各个类别的综合得分()()()()12...,sF=F,F,F,其中(i)F是第i(i=1,2,...,s)类的所有样本的综合得分平均值。

2实验结果与分析

以我国13个粮食主产区2015年的数据为对象,选取17个具有代表性的指标构成现代农业发展水平评价指标体系,具体包括:第一产业地区生产总值比重(%)、人均粮食产量(公顷/人)、城市化率(%)、农村居民人均可支配收入(元)、单位面积农业机械总动力(万千瓦/千公顷)、有效灌溉面积(千公顷)、单位面积投入化肥(吨/公倾)、谷物单位面积产量(公斤/公顷)、农用化肥施用量(万吨)、粮食作物播种面积(千公顷)、粮食产量(万吨)、农林牧渔业总产值(亿元)、水库数(座)、公共财政支出农林水事务(亿元)、木材产品产量(万立方米)、大牲畜年底头数(万头)、水产品产量(万吨),对这17个指标进行主成分-聚类分析,通过聚类结果产生的粮食主产区区域划分与我国实际情况的对比分析,一方面验证算法聚类的有效性,另一方面,为有关业务部门制定合理的农业经济发展决策提供科学的依据。

2.1主成分分析结果鉴于选取的17个指标之间具有明显的相关性,首先对我国13个粮食主产区的数据进行主成分分析,如果用主成分分析方法对原有17个变量提取所有特征值(17个),原有变量的所有方差都可被解释,变量的共同度均为1。若提取6个主成分,得到公因子方差分析表如表1所示,可以看到这17个指标的绝大部分信息都能被这些提取的因子解释,信息丢失极少,因此可以说因子提取的总体效果较佳。成份得分系数矩阵及其贡献率的结果,如表2所示。从表2中可以看出,前6个主成分的累计贡献率达到91.1%,说明前6个主成分包含了全部指标91.1%的数据信息(未被解释的只有8.9%),且前6个主成分的方差贡献率分别为:28.3%、26.0%、15.4%、9.9%、5.4%。因此,可以提取前6个主成分来评价13个粮食主产区农业经济的发展水平。通过公式17*1(1,2,3,4,5,6)jkjkkYwxj==∑=?可得第一、第二、第三、第四、第五和第六主成分表达式,将经过标准化处理后的原始数据代入主成分表达式,可得各个地区在这6个主成分上的得分,如表3所示。结合6个主成分各自的方差贡献率,以各个主成分的方差贡献率作为权重进行加权汇总,得到各个地区农业经济发展水平指标的综合评价模型,即:1123456F=0.283Y+0.260Y+0.154Y+0.099Y+0.061Y+0.054Y(5)各个地区的综合得分如表4所示。从表4可以看到,江西和辽宁的综合得分仅为-1.19、-1.23,它们的综合得分在13个粮食主产区中综合得分较低,说明江西和辽宁的农业经济发展相对于其它地区来说整体情况较差,而河南的综合得分为1.50,高于其它地区的综合得分,说明河南的农业经济发展相对于其它地区来说整体情况较好。

2.2聚类结果在完成主成分分析的基础上,利用系统聚类分析方法对主成分得分表3进行系统聚类,得到如图1所示的聚类谱系图。由聚类谱系图可以很直观地看出各个地区的亲疏和归类情况,如果选用某固定距离作为阈值,则由谱系图可将13个地区划分成若干个相似群类。本文在充分考虑各个地区农业经济状况和综合得分的情况下,确定分类阈值为4,相应的分类结果为:第一类包括:河南和黑龙江;第二类包括:山东、江苏;第三类包括:江西、湖南、湖北、安徽、四川、河北;第四类包括:辽宁、内蒙古、吉林。最后计算各个类别的综合得分,得分越高,表示农业经济的水平越高,并按照得分的多少对分类结果从大到小排序,具体结果如表5所示。从表5可知,Ⅰ类地区(河南、黑龙江)、Ⅱ类地区(山东、江苏)的综合得分系数为正,Ⅲ类(江西、湖南、湖北、安徽、四川、河北)和Ⅳ类(辽宁、内蒙古、吉林)地区的综合得分系数为负,说明Ⅰ类、Ⅱ类地区的农业经济的发展水平明显高于其它两类。从分析可知,13个粮食主产区之间的农业经济发展水平是存在差异的,为了缩小地区之间的差距,应该加大对Ⅲ、Ⅳ类地区的农业投入,增加农业机械的使用量,引进最新农业科技,调整农业生产结构,提高农民生活水平。

3讨论

本文针对农业经济发展指标评价因子之间的相关性,运用主成分-聚类分析方法,对我国13个粮食主产区的17个农业经济发展指标进行综合分析。根据标准化后的数据计算出各指标的评价权重,然后根据特征值选出主成分,最后对各个地区在主成分上的得分进行系统聚类,根据各个地区和类别之间的得分对地区进行综合排名,将13个粮食主产区分为4类,各类包含的地区数量不尽相同,可以清晰地对比分析哪几个地区的农业经济发展的相似性以及各个地区的农业经济发展的差异状况。第一类包括河南和黑龙江。河南是我国的粮食生产大省,具备丰富的资源和农业发展经验,是粮食农作物的优势产区,经济发展水平相对较高;黑龙江拥有连续广袤的平原,利于大型机械作业,第一产业地区生产总值比重比其它地区的第一产业地区生产总值比重大。这两个地区的粮食作物面积大,产量高,化肥施用量高,人均粮食产量高,农产品商业化程度高。第二类包括山东和江苏。这两个地区的农业经济水平相对较高,农林牧渔业总产值和农民人均可支配收入相对较高,当地政府也注重农业发展,为农业科技研发水平的不断提高创造了良好的外部环境。不过仍要兼顾发展资源节约型技术,提高农业信息化和标准化水平,从而进一步提高农业经济发展水平。第三类包括江西、湖南、湖北、安徽、四川、河北。这几个地区的农业科技化水平较高,生产效率较高。但是农业经济发展水平相对于以上两类地区较低,粮食产量较低,这几个地区的农林牧渔业总产值有待进一步提升,需加强农业经济建设,增加投入,提高农业机械化水平。第四类包括辽宁、内蒙古、吉林,这三个地区的现代机械水平有较大的提升空间,提高技术减少要素投入和农业科技水平,降低农产品生产成本,增加农业总产值和农民收入,进而推动农业经济发展。我国粮食主产区的农业经济发展水平存在很大差异,主产区的地理区域分布与我国的实际情况基本一致,因此,增加农业机械的使用量,引进最新农业科技,调整农业生产结构,减少要素投入,增加农业总产值和农民收入,许是农业经济发展水平欠发达地区追赶高水平发展地区的有效途径。

参考文献:

[1]崔玉蕾.农业现代化建设中的经济管理问题与对策思考[J].农业经济,2016(6):6-8.

[2]董俊迪,夏更寿.农村区域经济发展不均衡的文化成因及消解策略[J].商业经济研究,2016(7):151-152.

[3]刘影,肖池伟,李鹏,等.1978-2013年中国粮食主产区“粮-经”关系分析[J].资源科学,2015,37(10):1891-1901.

[4]杨鑫,穆月英.我国农业区域发展差异分析及政策选择[J].经济问题探索,2017(2):168-176.

[5]潘世磊.粮食主产区农业现代化发展研究[D].重庆工商大学,2016.

[6]赵蔷.主成分分析方法综述[J].软件工程,2016,19(6):1-3.

[7]SharpeaJ,FiellerbN.Uncertaintyinfunctionalprincipalcomponentanalysis[J].JournalofAppliedStatistics,2016,43(12):1-15.

[8]LiL,LiuS,PengY,etal.Overviewofprincipalcomponentanalysisalgorithm[J].Optik-InternationalJournalforLightandElectronOptics,2016,127(9):3935-3944.

[9]XuR,WunschD.Surveyofclusteringalgorithms[J].IEEETransactionsonNeuralNetworks,2005,16(3):645-678.

[10]金建国.聚类方法综述[J].计算机科学,2014,41(S2):288-293.

[11]辛华辉,盛禄,邓曦,等.主成分—聚类分析方法在城市交通发展指标评价中的应用[J].价值工程,2016(24):76-79.

作者:吴丽萍,林甲祥 单位:福建农林大学计算机与信息学院