首页 > 文章中心 > 正文

大数据时代统计学发展研究

大数据时代统计学发展研究

统计学在现实的生活中应用十分广泛,以至于如今很多人把统计学的范围扩展为用数据表示的现象。在如今的经济发展中一些金融分析师会利用一系列的数据对客户提供咨询服务,证券分析师可以利用数据来分析股市的信息,然后对股市的行情进行预测。在与我们息息相关的农业领域,水稻的产量以及有机物的培养环境都可以利用数据进行探究。以上都是与我们相关的实例,这些实例都是与统计学分不开的,这些实例都是统计学中的应用实例。总之统计学的运用可以贯穿各行各业。统计学的发展与大数据之间有着很密切的关系。如今随着信息时代的发展,很多信息都是利用数字来进行表述的,因此可以看出来数据其实就是信息的载体,也是数据学分析的对象,如今的统计学工作实际就是收集数据、整理数据、分析数据、解释数据。如果没有数据统计学就像植物失去土壤一样难以存在,同样离开了统计学以后,数据就会显得没有意义。数据在如今的大环境下变得越来越广泛,其增长也是漫无边际的。随着社会的不断发展,以及信息时代的不断进步,人们开始意识到了数据的重要性。目前最为实用的数据很多,不但可以提高生产力的发展水平,还能够利用数据的分析来解决国家的民生问题,因此这种大数据下的统计学发展十分重要。

一、大数据时代的内涵及其意义

(一)大数据时代的内涵

大数据其实就是一个大样本和高维便利的数据集合,针对一些样本的问题,利用统计学原理进行抽样、分析,来达到所需要的精度,但是对于一些维数高的问题需要运用统计学原理进行选择降维、压缩、分解。从另一种角度讲大数据包含很多方面,它是多领域的数据综合,其中包含自然科学、人文科学等一系列的混合数据,各个学科之间进行融会贯通,相互穿插。一些传统的统计学方法只适合分析单个计算机的数据存储,然而目前的大数据环境下改变了这一现象。如今大数据环境下包括了数据流环境、磁盘存储环境、分布存储环境、多线条环境等。目前大数据环境下最主要的目的就是把数据转变为人们容易懂得的知识,来探索数据产生的源头和机制,从而制定相应的对策。由于要把信息转变为知识需要一个漫长的时间,因此如今有很多人搜集当今社会的大量的数据存放在相应的存储器中,甚至有些人并不知道如何去分析所搜集的数据,但是他们把这些数据当成一段发展的历史,把如今高速发展的过程记录下来,供以后应用。

(二)大数据时代给社会带来的变革

如今大数据环境下给人们带来了很大的变革,目前各行各业的劳动者们都开始利用研究问题来驱动搜集数据,利用搜集来的数据进行分析来解决问题。因此以这种发展的趋势可以看出,在以后人们会慢慢地利用搜集数据来驱动问题的解决,就像我们出门查天气、查交通一样,未来的劳动者们会通过大数据的分析来决策一些研究性的问题。现在国内外很多统计学专家、甚至一些大学教授都开始利用计算机中相应的软件来搜索、分析一些研究性成果。在古希腊哲学家是百科全书式的人物,在文艺复兴时期开始细化了一些单一科学的科学家。如今大数据时代势必会再次产生百科全书式的人物,大数据将慢慢地减弱专家在各个领域的影响,甚至导致专家的消亡,比如,现在很多统计学家、物理学家、计算机专家等开始利用他们敏锐的数据处理和分析能力进入生命科学界,在以后假如我们有成千上万本书和它的外文译本,即使我们不懂外文也能够通过一些翻译软件进行翻译,把它翻译成我们懂得的语言,大数据中包含很多数据集,为我们以后的生活提供很大的便利。

二、大数据的研究动向、信息问题

(一)研究动向

目前美国一些机构开始提出了大数据环境下的一些挑战性的问题,即处理高度分布的数据资源,追踪数据的来源以及核实数据、处理样本等。他们开始把数据处理的方式进行改进,开发并行和分布式的算法。我国也十分重视大数据科学的发展,国家多次组织召开会议探讨大数据科学发展的前景,并且设立了大数据专项研究计划。国家自然科学基金的一些专项科学项目开始设立,在业界以及一些咨询公司都在寻找大数据合作的机会。大数据的分析需要多个领域进行结合,已经不是单一的一个科学领域,统计学家不但要认真研究计算机的实时决策还要把计算机与统计学的相关知识进行紧密的结合。相反计算机专家也要时刻了解统计学的相关知识。

(二)大数据的信息问题

随着大数据信息时代的到来,人们也不断地对大数据进行探究。由于大数据中不只是包含一种数据,它是很多数据的一个集合体。为了能够把搜集到了各个方面的数据融合起来,必须对数据的来源以及数据的获取方式进行探究,利用这些探究的结果来进行数据的分析。如今数据的来源一般都是多方面、多渠道的,难免会产生较大的误差,这样也就产生了一些问题,比如数据搜集的准则与决策不相符,甚至有些数据根本不是原始搜集的数据,而是经过分析推断而来的数据,这种数据更会产生较大的误差。由于数据的量是非常大的,然而并不是数据量越大所包含的信息就越多,如果所获的数据中含有一些偏差较大的信息,就会破坏原始的数据,因此从这一方面我们应该意识到在数据的搜集过程中应该避免得到一些破坏性的信息。在大数据时代中会产生一些缺失的数据,数据的缺失难免会对数据的分析产生影响,不同的研究搜集的数据会有一些重叠的部分,比如经济、社会、保险、医学等研究的问题不同,搜集的变量和集合不相同,但是他们肯定会有一些共同用处的数据。在对数据进行分析时,其中有2种数据需要进行具体的分析,一类是观察的数据,一类是试验的数据,这两种数据包含两种不同的信息,这样依然会导致一些人对数据的认知错误。由于数据的本身是有一定的范围的,数据搜集以后就已经确定了它的这一属性,因此如果想需要范围以外的含义就必须进行推断。

三、大数据的处理、抽样与分析

(一)数据的预处理

大数据环境下对数据的处理包括很多方面,比如,数据清洗、数据矫正、数据填补等,其中数据矫正是一种非常有效的数据处理方式,它可以大大减少系统的误差。如今互联网领域中数据的获取是非常复杂的,在大量的、复杂的数据进行分析时难免会产生一些差异性,为了尽可能地使得这些数据不产生偏倚性,就必须利用计算机来对这些数据进行矫正。矫正的方法就是把一些从互联网上搜集的数据作为一些补充的资源进行更新,这种更新速度要快,而且是实时的更新。

(二)大数据的分析与整合

在对大数据分析时,针对一些高维的问题需要进行降维、分解。还要探究一些压缩数据的方法,经过压缩的数据可以直接进行传输和操作。这一系列的过程除了可以用常规的方法以外还可以利用一些数据的实时分析以及一些先进的算法进行操作。考虑计算机内存和外存的数据传送问题、分布数据和并行计算的方法。如何无信息损失或无统计信息损失地分解大数据集,独立并行地在分布计算机环境进行推断,各个计算机的中间计算结果能相互联系沟通,构造全局统计结果。研究多个数据资源的融合算法,研究利用数据流寻找模型变化时间点的动态变化模型。

四、结束语

在一个新的事物到来以后势必会对社会的发展带来一定的冲击,会慢慢地把一些传统的关键和技术进行淹没,比如,数码相机的出现取代了传统的胶片相机,使得影像业几乎消亡。在大数据环境下将会对传统的统计学进行严格的考验,统计学会不会像以往的哲学那样,只有一些历史的光环,而不再作为人们分析和利用大数据的资源。目前来看很多的学科都开始慢慢地涌入大数据时代,如果统计学的发展不进行改革的话也会慢慢的被边缘化。目前统计学的主要的目标就是通过大范围的获取数据,然后利用计算机对获取的数据进行分析,来发现真理,统计的方法和理论有过高的要求,在大数据的环境下存在各种随机和非随机的误差,根本无法满足这些要求。大数据已经给统计学带来了很大的机遇,我们不但要洞察到这种机遇,还要看到现在的统计学中的一些基本的分析方法已经不能满足现在的数据分析,如今一些分布式的大数据已经给统计学带来了很大的挑战,由此看来一些统计学家要积极应对目前的这种现状,不应该把传统的数据环境作为目前研究的目的,必须积极地去学习新生的事物,只有这样才能面对未来的挑战有一席之地。

作者:彭先萌 单位:湖北工业职业技术学院