首页 > 文章中心 > 正文

小议多元统计分析方法的运用

小议多元统计分析方法的运用

1回归分析

回归分析(regressionanalysis)是统计学中一种常用的分析数据的方法,旨在研究一个变量Y与其他若干变量X之间的相关关系,实际应用较为广泛。根据涉及自变量的个数,可将其分为一元回归分析、多元回归分析;根据自变量与因变量之间的关系类型,可将其分为线性回归分析、非线性回归分析。当回归分析中仅包含一个自变量、一个因变量,且二者关系可用一条直线近似表示,该回归分析为一元线性回归分析。当回归分析中包含两个或两个以上的自变量,且因变量与自变量之间是线性关系,则称为多元线性回归分析。回归分析常用于观测数据,目的是获得因果结论。回归分析的结果是最佳拟合直线的数学方程,该方程的用途之一是预测[5-6]。曾宪昌等[7]较早运用通径分析原理对贵州省58头不同年龄、性别的沿河山羊的体尺和体质量关系作出较为系统深入的分析。借助通径图解简明地表达各变量之间的关系,并在区分各自变量在多元回归中的相对重要性后,剔除影响不大的自变量,在偏回归系数显著性检验合格的基础上,建立最优回归方程,直接用体长和胸围估计体质量和屠宰率对山羊产肉性能进行预测。陈永军等[8]运用SPSS14.0分析成年大足黑山羊体尺与体质量的相关关系、体尺对体质量的直接和间接作用以及决定程度,最后建立体质量与体尺的最优回归模型。结果表明:胸宽和管围是影响公羊体质量最主要的体尺指标,胸围是影响母羊体质量最主要的体尺指标。公羊最优回归模型为:Y=19.630-0.940X6+4.346X7,母羊最优回归模型为:Y=-17.942+0.661X4。(注:Y指体质量、X6指胸宽、X7指管围、X4指胸围)王高富等[9]采用SAS软件CORR对重庆黑山羊成年羊体尺、体质量指标与胴体净肉率进行相关分析,并以成年重庆黑山羊体高、体斜长、胸围、胸宽、胸深、成年体质量为自变量,胴体净肉率为应变量,采用REG过程BACKWARD(后退法)的多元回归分析方法,构建估测重庆黑山羊胴体净肉率的最优回归方程,结果表明:胸围、胸宽和胸深可以作为选择胴体净肉率的间接指标。韩学平[10]采用逐步回归的方法对随机抽测的青海省河南县40只欧拉型藏羊成年公羊和104只成年母羊的体质量和8个主要体尺指标进行回归分析,得到欧拉型藏羊成年公羊体质量和主要体尺指标的最优回归方程为Y=0.88X2+13.64X6-4.35X7+1.28X4-114.51(P<0.01)(R=0.889);成年母羊体尺与体质量的最优回归方程为Y=0.49X1+0.46X2+0.30X3+0.43X4-43.51(P<0.01)(R=0.649)。(注:Y指体质量、X2指体长、X6指管围、X7指尾宽、X4指胸深、X1指体高、X3指胸围)冯平等[11]采用相关分析、通径分析和回归分析的方法研究不同年龄段陕北白绒山羊体尺、体质量、绒长、毛长和产绒量的最优回归模型。结果表明:陕北白绒山羊在4岁时处于最佳生长阶段,产肉和产绒性能最好;产绒量和体尺、体质量、毛长、绒长的最优回归模型为Y=0.559X10+0.391X4-0.176X9+0.196X7-0.169X8。(注:Y指产绒量、X10指绒长、X4指胸围、X9指毛长、X7指管围、X8指腰角宽)陈碧红等[12]运用SAS软件分析戴云山羊体尺与体质量间的相关、体尺对体质量的直接和间接影响以及体尺对体质量的决策程度,最后建立体质量与体尺的最优回归模型。结果表明:各体尺性状因素都在不同程度上影响戴云山羊的体质量。选育戴云山羊时应以胸部为主并兼顾体高,以取得较好的选育效果。

2主成分分析

主成分分析(principalcomponentanalysis)是由K.皮尔森对非随机变量引入的,用于分析数据及建立数理模型,尔后H.霍特林将此法推广应用于随机变量中。主成分分析又称主分量分析,是将多个变量通过线性变换以选出较少个重要变量的一种多元统计分析方法。在实际课题的研究中,为了全面系统地分析问题,常会涉及众多与此有关的变量,每个变量在不同程度上反映该课题的部分信息。信息的大小通常用离差平方和或方差来衡量。主成分分析可设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中取出几个较少的综合变量尽可能多地反映原来变量的信息,是数学上处理降维的一种方法。主成分分析是多元统计中的重要内容,是当前许多研究的主题,其原则是将多个相关指标简化为少数不相关指标,它能够在不损失过多遗传信息的基础上进行多性状的方向性选择,同时提高选择效果[13]。近年来,该方法已被广泛应用于牛、羊、猪等家畜性状的选育工作中。姜加华[14]于2004年对波尔山羊杂交二代(F2)羔羊各阶段体质量和体尺指标进行主成分分析,建立F2的生长模型,为制定新品种培育方案、饲养管理方案提供理论依据,为确定综合选育指标奠定基础。刘铮铸等[15]采用主成分分析法,分析波尔山羊与唐山奶山羊的级进杂交三代羔羊不同年龄阶段体高、体长、腿臀围、胸围和体质量等与生长相关的性状,综合为几个主成分,并由此确定衡量波唐三代羔羊生长发育性状的指标,探讨评估个体羊的生长发育状况。结果表明,在波唐三代羔羊l周龄时,体质量对主成分影响最大,随着年龄增长,在1月龄、2月龄和4月龄对主成分影响最大的是体长和腿臀围,在1月龄和2月龄,第二主成分主要反映羔羊的体高信息。白俊艳等[16]对成年大尾寒羊的体长、体高、体质量、胸围、尾长、尾宽进行测量,利用SPSS软件对以上6个体尺指标进行主成分分析。结果表明,第一主成分的贡献率较高为59.043%,其中高载荷的指标有体高、体长,这些体尺决定大尾寒羊体形的长短高矮,将其命名为高度因子。第二主成分的贡献率为16.919%,其中高载荷的指标有尾长、尾宽,其反映大尾寒羊尾巴形状的变化特征,将其命名为尾形因子。第三主成分的贡献率为11.081%,其中高载荷的指标有体质量、胸围,这些体尺与大尾寒羊体形结构均衡性密切相关,反映大尾寒羊躯体大小程度,将其命名为躯体因子。若取前3个主成分,其特征根值可使累积贡献率达到87.043%,即用这3个主成分可解释6个体尺指标总体信息,且信息损失部分较小,信息损失仅占12.957%。

3因子分析

因子分析(factoranalysis)是研究从变量群中提取共性因子的统计技术。因子分析的模型最早由J.Penrson和C.S.Pearman提出,首先应用于心理学研究。由于这种研究收到较好的效果,因而引起科学界的注意。数十年来许多统计学家以及其他科学工作者在因子分析的理论、方法和实际应用等方面做大量的工作,使因子分析不断得到充实并成为多元统计学的重要组成部分。与此同时因子分析的应用也逐渐推广到心理学以外的其他学科,如经济学、生物学、植物学、地质学、化学等[17-18]。因子分析与主成分分析都有清理多个原始变量内在结构关系的作用,但主成分分析重在综合原始变量的信息,而因子分析重在解释原始变量间的关系,是比主成分分析更深入的一种多元统计方法[19]。因子分析旨在从许多变量中找出隐藏的具有代表性的因子,并将相同本质的变量归入公因子,通过建立公因子与原变量之间的数量关系来预报公因子的状态,帮助发现隐藏在原变量之间的某种客观规律性。因子分析可减少变量数目,还可检验变量间关系的假设。在因子分析过程中,因子数的准确确定是极其重要的。由于分析数据(通常由试验测得)存在误差,这就给确定因子数带来很大困难。如何在掺和误差的试验数据中准确地找出影响原始分析数据的因子数,是因子分析研究中的一个特别重要也很困难的研究课题。多年来,不少致力于因子分析理论研究的工作者在这方面作了很大的努力。然而,迄今还没有现成的准确确定一套试验数据中有多少有意义的因子的严格的方法。不过,已有不少判据在确定因子数时是行之有效的,其中被应用得较多的有E.R.Malinowk等提出的判据(如RE、IND等),用交互校验和频串分布等方法确定因子数也是相当有效的,这一方面的研究尚有待进一步的深入[17]。叶昌辉等[20]应用主因子分析的方法对广东省96头雷州山羊成年母羊的8个主要体尺性状进行研究分析,结果显示,雷州山羊成年母羊的8个体尺性状之间的相关系数均为正值,为正相关,可区分为相对独立的3个主因子。其中,第一主因子的贡献率最大,为60.00%,其中腰角宽、胸宽、胸围和胸深的因子载荷值较高,考虑其生物学意义,称第一主因子为躯体因子。同时,山羊躯体大小与屠宰率相关联,故躯体因子是山羊产肉率的一个间接指标。此外,第二主因子的贡献率为16.59%,称为高度因子;第三主因子的贡献率仅为7.64%,称为肢体因子。第一主因子的方差解释量最大,是雷州山羊变异的主要来源,故在今后的选育工作中应给予足够重视,以主因子为单位进行选种,结合其他性状的选择,提高雷州山羊的选育效率。

4聚类分析

聚类分析(clusteranalysis)又称集群分析,它是研究“物以类聚”的一种数理统计方法。聚类分析可将一些观察对象依据某些特征加以归类,在生物学和医学分类问题中有着广泛的应用[21]。聚类分析的基本思想是:所研究的样品或指标之间存在着程度不同的相似性。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标间相似程度的统计量,以这些统计量为划分类型的依据,将相似程度较大的样品聚为一类。聚类分析的目标就是在相似的基础上收集数据并分类,关系密切的对象聚为一个小的分类单位,关系疏远的对象聚为一个大的分类单位,最终把所有的样品或指标聚类完毕,即可形成一个由小到大的分类系统。聚类结果体现数据的分布特征,聚类方法多种多样,针对不同的问题应该采取不同的方法[22]。聚类分析有不同的分类[23-24]:按聚类变量可分为样品聚类(caseclusteranalysis,又称Q聚类),和指标聚类(variableclusteranalysis,又称R聚类);按聚类方法可分为系统聚类(joiningclusterprocedures)和动态聚类(iteractivepartitioningprocedures);按数据的欧几里得距离的远近进行分类分析,常用的有谱系聚类法(hierarchicalcluster)和分类聚类法(disjointcluster)。赵宗胜等[25]对3种不同类型杂交肉用羊的体尺指标进行聚类和主成分分析,将所分析的17项体尺指标分为三大类:特征类、围度类、高长度类。运用这两种方法,所得结果基本一致,但对于不同的杂交组合,结果有一定的差异。根据3种杂交组合的体尺与主成分分析结果,3种羊的第一、二主测指标略有不同,表明其对于不同类型杂交系各种指标的度量应有不同的侧重点。从而揭示出不同类型杂交肉羊体尺差异性的规律,为今后的肉羊品种选育、鉴定、评价提供新的思路和依据。侯洪梅[26]采用SPSS软件对62只7月龄青海加什科公羔体尺和体质量指标进行聚类分析,分为4类,并对各类羊只的各项指标计算类内均值和标准差,根据均值差异确定4类各项指标区间,得出更具操作性和实用性的加什科羊品种鉴定结果。

5判别分析

判别分析(discriminantanalysis)是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。进行判别分析时通常根据已知样本的分类及所测的指标,筛选出能提供较多信息的指标,从而建立判别方程,使其错判率最小。其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。据此即可确定某一样本属于何类。判别分析的目的是建立一个判别函数式,建立判别函数式的法则主要有Fisher判别准则和Bayes判别准则。根据已知分类的数目、是否筛选变量和变量间是否有共线性,判别分析可分为二类判别、多类判别、逐步判别和典则判别分析[27-28]。敖学成等[29]经3个点抽样测定,用体尺、体质量性状指标对四川省美姑县58只成年母羊的遗传多样性进行聚类分析和判别分析,表明美姑县高繁山羊类群中存在大、中、小类型,具有选择高产肉用山羊的基础,得出从当前羊群综合性状结构的多样性特点开展有计划的选育十分必要。提出并分析母羊分类的三个判别函数式,其中体高、十字部高、体长、胸围、胸深、胸宽、体质量等性状类别间组内均值相等性检验均达到极显著和显著水平,可从表型值作出判定,因此可作为当前选育的参考依据。陈暖等[30]用SPSS软件对崇明白山羊、海门山羊、徐淮山羊、关中奶山羊的17个体尺指标进行典型判别和逐步判别分析,提供一种基于体尺指标的山羊不同品种和地理类型的量化分析方法。结果表明:该方法总体判别率可达到95.5%,当要求交叉验证正确率>90%时,至少需要9个体尺指标;在品种间两两进行比较时,对判别贡献率最大的指标因品种不同而异。在该研究范围内,角型和胸宽是崇明白山羊区别于其他山羊的两个最具区分度的体尺指标。

6相关分析

相关分析(correlationanalysis)是研究变量之间密切程度的一种常用统计方法。两个变量之间的变化关系,既表现在变化方向上,又表现在密切程度上。相关分析旨在研究变量之间是否存在某种依存关系,且对存在依存关系的变量探讨其变化方向、密切程度。若两个变量变化方向一致则为正相关,若两个变量变化方向相反则为负相关。简单相关系数(由KarlPearson提出,有时也称作Pearson相关系数)用来度量变量间的线性相关关系的强弱程度。相关系数的符号(+或-)代表着变量间相关关系的方向(正相关或负相关)[31-32]。狄江[33]对中国美利奴羊(新疆型)体大品系育种群的2岁母羊进行体尺与主要性状的相关及通径分析。结果表明,体大品系羊体长、胸围与体质量呈显著的正相关(P<0.01);体高、体长、胸围通过提高净毛率而间接增加净毛量;毛长对污毛量、净毛量无直接影响;净毛率与污毛量是极显著的负相关(P<0.01)。刘金福等[34]在昌黎和卢龙两地测定89只唐山奶山羊成年母羊的体尺和体质量,并利用国际上通用的SAS统计分析软件对所测的各项资料进行统计分析,得出唐山奶山羊成年母羊体质量和体尺性状间的生长发育存在着较强的内在联系,在性状的选择方面可以利用这些较强的相关关系达到育种目的。贾存灵等[35]运用SAS软件分析萨福克×(无角陶赛特×小尾寒羊)三元杂交组合3月龄公羔体尺与体质量间的表型相关、体尺对体质量的直接和间接影响,并建立最优回归模型。萨福克×(无角陶赛特×小尾寒羊)三元杂交组合3月龄羔羊体尺各指标均与体质量有极显著的相关关系(P<0.01),其中胸深和胸围是影响三元杂交公羔体质量的主要因素。在选择三元杂交公羔体质量的同时,应加强对胸深和胸围的选择力度。吴平等[36]采用MicrosoftExcel2007和SPSS16.0软件进行基本处理和相关分析,用全回归法(Enter)对体质量和体尺指标进行回归分析。研究主要针对关中奶山羊羔羊在3月龄内的体质量与体尺的生长发育情况而进行。研究表明,从初生到4月龄,羔羊生长发育迅速,尤其表现在初生后的前2个月左右,而此时也是母羊泌乳的最高峰期。通过对体质量与体尺之间相关性的研究得知,体质量与体长、胸围、体高之间都存在极显著的相关。在进行饲养培育时这3个指标都很重要,可作为此阶段选育的依据。

7综合分析

综合分析是指同时引用多种多元统计方法进行分析。较常见的是相关分析和回归分析的综合运用。扎西卓玛等[37]应用相关分析的方法,对83只柴达木绒山羊(互交羊)周岁母羊的胸围、抓绒前体质量、绒层厚度、粗毛量4个性状与产绒量性状的关系进行分析。结果表明这4项性状与产绒量均具有显著的相关性,用这4项性状估测产绒量的回归方程:Y^=114.7689-3.3302X1+5.6125X2+0.1935X3+1.1142X4。经F检验得该回归方程具有一定的可靠性。(注:Y指产绒量、X1指胸围、X2指抓绒前体质量、X3指绒层厚度、X4指粗毛量)王欣荣等[38]采用多元逐步回归分析方法,对随机抽测的甘肃省甘南州草地型藏羊225只成年公羊和290只成年母羊的体质量和主要体尺指标进行相关性分析。结果表明:甘南草地型藏羊成年公羊体质量和主要体尺指标的最优回归方程为Y=0.118X1+0.652X3+0.196X4(R=0.901,0.01<P<0.05);成年母羊体质量和主要体尺指标的最优回归方程为Y=0.111X1+0.186X2+0.626X3(R=0.849,P<0.01)(注:Y指体质量、X1指体高、X3指胸围、X4指管围、X2指体长)。回归模型显示,胸围和体高是影响甘南草地型藏羊体质量的主要体尺指标,建议在今后的选育工作中加大对胸围和体高的选择力度,以提高藏羊的平均体质量。梁学武等运用SPSS13.0软件[39-40],分别用Logistic、Bertalanffy和Gompertz模型对波尔山羊的体质量性状进行非线性拟合,并对体质量与体高、体长、胸围的相关性进行分析[41]。得出波尔山羊生长曲线采用Logistic模型拟合效果最佳,公母羊生长模型分别为:W=51.59×(1+6.15×e-1.82)-1(R2=0.9815)和W=52.56×(1+7.15×e-2.08)-1(R2=0.9834)(注:W指体质量)。公羊的生长拐点为14月龄,体质量25.80kg,成熟体质量为51.59kg;母羊的生长拐点为16月龄,体质量26.28kg,成熟体质量为52.56kg。在山羊的生长拐点前,加强饲养,可充分发挥其生长潜力,提高生产性能。波尔山羊体质量与胸围性状呈极显著正相关(P<0.01),与体高性状呈显著正相关(P<0.05),体质量与体高及胸围的二元回归方程为:Y=0.279Btg+0.893Bxw-19.28(注:Y指体质量、Btg指体高、Bxw指胸围)。生产实践中,可利用此回归方程估测体质量。

8小结

综上所述,利用多元统计分析深化对羊体质量与体尺方面的研究,许多研究人员已经作出较好的研究成果。以上介绍的运用多元统计方法对羊的体质量体尺各项指标综合分析,结果较好地反映体质量体尺性状信息与研究对象的关系。多元统计分析方法应用于畜牧统计分析,具有较强的科学性,生物数学、统计学的发展为动物医学的现代化研究提供新的方法和理论思考。值得一提的是,多元统计分析是研究多因素和多指标问题的统计方法,各种具体的分析方法在实际应用中各有优缺点,其中有些缺陷通过两种或多种方法联用可以克服,但有些缺陷却是克服不了的,在生产实践中需要灵活掌握。

作者:张帆颜亭玉杨佐君郭勇杜晓林单位:北京农学院动物科学技术学院基础教学部