首页 > 文章中心 > 正文

大数据时代统计学专业教学改革探索

大数据时代统计学专业教学改革探索

从狭义上来讲,大数据的构成包括两方面,一方面是大样本,在统计学上要达到需要的精度就必须采取抽样的办法降低样本数量;另一方面是高维度变量,对于这一问题则需要采取压缩、分解以及降维等方法。

一、大数据及其意义

大部分传统的统计方法只适合分析单个计算机存储的数据。而目前大数据的环境包括以下要素。1.流数据:数据快速地不断涌来,现有存储设备和计算能力难以应付这种数据流(比如欧洲高能粒子对撞机所产生的数据,每秒钟可以达到500TB)。2.磁盘存储限制:数据已不能完全存储在内存中,需要硬盘存储。3.分布存储状态:数据分布存储在多个计算机中。4.多线条状态:数据存储在一个计算机中,多个处理器共享内存。大数据的发展就是对数据产生的机制进行探索,将所产生的数据转变为人们所需要的知识,进而对相关政策的制定产生影响。这个过程是一个漫长的过程。一个小孩子随着年龄的增长可能会掌握更多的单词,但是根据一个孩子的年龄确定他掌握的单词多少则并不科学。进一步来说,大数据有记录保存自然与社会现状的功能。现在大家收集着海量数据,尽管他们还不清楚如何分析大量的数据,但是他们相信需要保存现今社会经济高速发展的过程,期待着今后能够分析和解释这段历史。还有些人将百岁老人的血液和其他各种生物的标本等存放在冰箱里,他们认为当今的技术还不足以测试和分析这些资源,期待今后更先进的测试技术能够做到。大数据就如同自然和社会的血液那样记录着社会的现状和发展过程。17世纪望远镜以及显微镜的发明使人类看到了以前从来没有看到过的宇宙空间和微生物,扩大了人类对自然的基本认识。大数据就像“望眼镜”和“显微镜”那样,使得人们能够通过数据来观察和分析自然、经济、社会的现象。借助于互联网数据,可以及时了解疾病的疫情、科学的动态、社会的动态。谷歌借助频繁检索的词条能及时判断流感从哪传播,哪些人可能已经感染了流感。大数据将形成自然和人文社会的历史长河,不但能用于探索当代的科学问题,将来也可以用于研究人们食用转基因食品对子孙后代的影响等追踪研究问题,为未来留下当前的历史资料。

二、大数据带来的变革

时代的进步有赖于大数据的发展,大数据的发展给时代变革增加了更多的不确定性。就当前研究来看,数据的搜集很大程度上依靠所研究问题的出现来推动其向前发展。不过在不久的将来,随着大数据时代的到来,人们对于问题的研究将会由“数据”来驱动。例如,如果我们想去某地旅行或出差,会首先查询目的地的交通情况、天气情况以及住宿情况等信息,但是将来我们可以根据所查询的数据信息来决定所要去的目的地。在古希腊时代,当时的哲学家无所不知,号称百科全书,到了文艺复兴时代,随着学科的不断细化,不同学科出现了各自的专家。随着大数据时代的到来,大百科全书式的人物将有可能再次出现,而不同领域的专家的权威性将被逐步消弱,随着大数据的不断发展,很有可能会逐渐将学科专家消亡掉。例如,随着计算机专家和统计学家对数据的搜集越来越多并且处理能力不断增强,他们将逐步成为生命科学方面的专家。再比如,如果我们掌握了足够数量的相关专业书籍和日文译本,就算我们对日文一无所知,我们也可以采取有效的方法将所需要的中文翻译成为日文,因为我们有很多非常可靠的翻译软件,如谷歌翻译软件等。大数据已经在各个领域和学科得到了应用,例如医疗领域,大数据可以指导人们健康饮食,适时进行身体检查,并且确定检查项目,帮助医生对患者进行疾病诊断等。

三、大数据时代统计学专业教学现状

随着科技的不断发展和进步,人们获取信息和数据的途径也发生了很大的变化,电子商务的发展和各种多媒体信息技术的飞速发展和应用,给传统的统计学应用和教学带来了机遇的同时也带来了非常大的挑战。一方面,由于各种信息和数据的不断涌入,人们在被动搜集着各种数据。统计学的教学也需要不断探索新的模式。另一方面,人们在被动接受数据的同时也在主动搜集数据信息,不同学科有不同的数据需要。例如经济学领域的专家每天都在搜集各自的调查数据和观察数据,而自然科学领域的专家学者则不仅搜集宏观天文数据,还在搜集微观基因数据。不同的人们搜集数据的方法也各不相同,有的在实验室通过试验进行数据搜集,有的人则通过网络进行数据搜集和研究。对于当前大数据给统计学带来的挑战,美国科学院“大数据分析委员会”给出了分析,他们认为这些挑战在于对不同格式和结构的数据的处理方面、对于数据来源的追踪方面、对于共享数据的安全性问题和完整性问题方面、对于样本异质性和偏倚性处理方面、在对问题进行处理时的决策和分析方面以及对分布式和并行式在开发时的算法方面的问题等。国内相关部门也对这一问题进行了研讨,最早一次是2012年5月在香山召开的“大数据科学与工程”会议,第二次是在2013年5月召开的对于大数据原理以及发展前景的探讨会,并同时制定了相关的科研计划。但关于大数据背景下统计学专业教学的探索还非常稀缺。

四、统计学专业课程改革

针对以上所述大数据时代的特点和变革意义以及目前统计学专业教学的现状,本文进行了相应的初步探索。

(一)改革的总体思路

将现有的统计学顶级杂志或著名文献中的成熟的大数据分析方法逐步凝练,形成教学内容;将使用R软件中的函数包实现这些大数据分析方法。

(二)改革的具体内容

1.在《数据挖掘原理与方法》课程中引入大数据分析方法及其R语言的代码实现。2.在《非参数统计》课程中引入多元非参数统计方法(诸如多元符号、多元秩、多元符号秩等)、非参数回归模型、半参数回归模型及其R语言的代码实现。3.在《回归分析》课程中引入回归树、boosting回归、bagging回归、随机森林回归等用来处理大数据的回归方法、高维回归变量选择方法(比如LASSO回归、动态LASSO回归等)及其R语言的代码实现。4.在《多元统计分析》课程中引入高维统计分析方法及其R语言的代码实现。5.在工科《概率论与数理统计》课程中引入R语言的代码实现。

(三)改革的主要创新点

在传统的统计学专业课程教学中引入最新的大数据分析方法及其R语言实现。其中R语言是区别SAS、SPSS等傻瓜软件的结构化程序设计语言,可以灵活实现傻瓜软件所不能实现的各种高级数据分析功能。其非常适应于大数据统计分析方法的教学。所以大部分国内外著名大学已经不再使用诸如SAS、SPSS等傻瓜统计软件进行统计分析方法的教学。R语言已经逐步成为统计学系的标准的教学软件。

作者:周茂袁 单位:中国民航大学理学院