首页 > 文章中心 > 大数据分析论文

大数据分析论文

大数据分析论文

大数据分析论文范文第1篇

关键词:灰色关联分析;高被引文章;高被引作者;被引频次;影响因子

中图分类号:G232 文献标志码:A 文章编号:1673-291X(2016)29-0173-04

论文的被引次数是反映论文学术影响力的重要指标之一。有学者研究认为,高被引论文对影响因子的贡献率普遍较高[1,2]。论文的引用情况也经常被用来评价科研人员的绩效[3-6]。利用论文的被引情况来反映论文的影响力时,一般又认为与作者的名气有关[7],作者的名气越大,发表期刊的级别越高,被引次数应该就越高。有限的期刊资源更倾向于刊用名气大的作者的论文,长此以往,则形成期刊界的马太效应:对一些名家一稿难求,而大量名不见经传的作者的论文就会难以得到及时公开发表。这种主观的判断是否正确?什么条件的作者发表的论文被引频次高?作者如何提高自己论文的被引次数?本文以《灾害学》作为研究期刊,以该期刊的作者作为研究对象,通过2004―2013年10年间刊出的1 286篇论文的所有作者与所被引频次M行相关性分析,同时参考2014年和2015年的数据,以期通过大量的数据,探讨作者论文被引的规律性。通过本论文的研究,也可以为期刊提高期刊的影响因子提供借鉴。

一、研究方法

一般的抽象系统中都包含着许多因素,多种因素共同作用的结果决定了该系统的发展态势。人们常常希望知道在众多的因素中,哪些是主要因素、哪些对系统发展影响大等等,而使用灰色相关性分析可以弥补其他系统分析方法的缺陷,适用于本论文的研究。

灰色系统理论是华中理工大学邓聚龙教授于1982年提出的,该理论利用灰色关联分析来分析因素之间的相关程度[8]。灰色关联分析是根据比较参考序列曲线和比较序列曲线之间的几何相似度来判断二者之间相似程度的,利用灰色关联系数来比较参考序列曲线和比较序列曲线在各点的差异[9,10]。

二、数据来源和统计方法

本研究以《灾害学》期刊作为研究对象。从研究学科来看,《灾害学》是进行综合性研究的学术期刊,它以各种自然灾害,包括自然灾害和人文灾害作为研究内容,通过对各种灾害事件的分析讨论,总结经验,吸取教训。从研究内容来看,广泛交流灾害科学的学术思想、研究方法、研究成果;从研究方向来看,注重关于灾害问题的研究动态和防灾减灾对策、人类抗御灾害的科技水平和能力等等的探讨。因此,通过对该期刊的研究,能够全面筛选出各灾害学相关研究的被引次数。

本研究引用的数据来源于“中国知网”()2004―2015年的数据。其中以2004―2013年的数据作为数据来源,同时参考2014年和2015年的数据。普赖斯认为,科研论文一般在其发表后1―2年即达到被引用最高峰,因此选用2004―2013年10年的数据,2014年和2015年的数据仅作为参考数据。

本研究利用灰色关联分析,以被引次数最多的50篇论文的相关数据作为研究基础,从论文的被引次数与该论文的下载量、论文作者的职称、的时间、论文研究范围四个方面进行分析。

三、被引用率灰色关联度分析

(一)确定比较数列和参考数列

本文选取论文的被引次数作为参考数列,以该论文的下载量、的时间、论文作者的职称、论文研究的区域作为比较数列,如表1所示。

表1 影响因子及变量设定表

其中,职称按照从高往低赋值:设正高=1,副高(博士)=2,中级(硕士)=3,初级=4;研究范围从大到小赋值:设世界性=1,全国性=2,地区性=3,市县等=4,则被引次数最高的50篇论文的相关数据如表2所示。

(二)无量纲化

由于系统中各因素列中的数据可能因计算单位的不同,不便于比较,或在比较时难以得到正确的结论,因此,在进行灰色关联度分析时,一般都要进行标准化 (无量纲化)的数据处理。本文利用公式(1),以P50的数据为基准,对原始数据数列和比较数据数列进行初始化运算,以消除量纲或数量级的影响,得到标准化后的数列(表3)。

(三)产生对应差数列表

将无量纲化后的比较数列与参考数列进行差值计算,并求绝对值,将之列如对应差数列表,内容包括与参考数列值差(绝对值)、每列最大差和每列最小差。然后计算最大差值和最小差值。

四、灰色关联的结果分析

通过灰色关联分析法可知:

1.论文的下载量、的时间、论文作者的职称、论文研究的范围四个方面的相关度都几乎接近于1,说明这四个方面与论文的被引次数相关度非常大。

2.从论文的下载量、的时间、论文作者的职称、论文研究的范围四个方面来说,相关度大小排序为:研究范围>时间>作者职称>下载数量。说明论文被引用率影响较大的还是论文本身研究范围。也说明论文刊出时间越长,关注的学者越多,被引的可能性也越高。作者职称和下载数量低于前两个因素。

3.利用灰色关联度分析法研究结果对把握期刊的服务对象和办刊理念有极大帮助。灰色关联度分析法克服了传统数理统计方法中对样本需要量大、计算量大等缺点,有利于分析期刊研究过程不完全信息中随机因素的显著性和关联性,开拓了期刊研究的新方法。

参考文献:

[1] 刘雪立.10 种国际权威科技期刊影响因子构成特征及其启示[J].编辑学报,2014,26(3):296-300.

[2] 毛国敏,蒋知瑞,任蕾,等.期刊论文被引频次的幂律分布研究[J].中国科技期刊研究,2013,25(2):293-307.

[3] 叶鹰.高品质论文被引数据及其对学术评价的启示[J].中国图书馆学报,2010,36(1):100-103.

[4] 方红玲.我国科技期刊论文被引量和下载量峰值年代――多学科比较研究[J].中国科技期刊研究,2011,22(5):708-710.

[5] 黄鹂.从论文被引频次分析看高校学报在学校科研发展中的作用――以长江大学及其主办的学报为例[J].长江大学学报:社会

科学版,2012,35(9):184-186.

[6] 任胜利,柴育成,姚玉鹏,等.地球科学国际主流期刊的引文分析[J].科学通报,2002,47(1):74-79.

[7] 李斐然.如何创作被引次数最多的论文[J].创新科技,2012,(1):58.

[8] 曹惠玲,黄乐腾,康力平.基本AHP及灰色关联分析法的发动机健康评估研究[J].数学的实践与认识,2015,45(2):122-129.

大数据分析论文范文第2篇

[关键词]学术期刊 评价指标分类 因子分析 聚类分析

[分类号]G304

1 引 言

学术期刊是国家科技发展水平的重要窗口,是知识创新、科技成果转化为生产力的重要桥梁,在推动社会科技进步方面发挥着不可替代的作用。期刊评价是文献计量学研究的重要组成部分,它通过对学术期刊的发展规律和增长趋势进行量化分析,揭示学科文献数量在期刊中的分布规律,为优化学术期刊的使用提供重要参考,同时可以提高学术期刊的内在质量,促进学术期刊的健康成长和发展。对期刊评价指标进行分类是期刊评价的基础和前提,目前期刊评价方法有几十种,有些评价方法不需要对期刊评价指标进行分类,如主成分分析、灰色关联、TOPSIS等方法,但是有些评价方法必须建立在期刊评价指标分类的基础上,包括层次分析法、专家打分法、突变理论等。层次分析法是根据子指标对父指标的重要性程度进行两两判断,指标分类尤为重要。专家打分赋权类评价方法是在指标众多的情况下进行的,更需要分类。

Weiping Yue、Concepcion s.Wilson(2004)利用结构方程的原理建立了一个期刊影响力的分析框架,并对期刊评价指标进行了系统的分类。苏新宁(2008)在构建人文社会科学期刊评价指标体系时,将一级指标分为期刊学术含量(篇均引文、基金论文比、机构标注、地区分布数)、被引数量(总被引频次、学科论文引用数量、他引率)、被引速率(总被引速率、学科引用速率、它刊引用速率)、影响因子(总影响因子、学科影响因子、他引影响因子)、被引广度等。盖红波(2006)将期刊评价指标分为定量评价指标(被引量、被索量、载文量、被摘量、影响因子)、定性评价指标(双高、双效、双奖、双百)、质量考核指标(政治、学术、编辑出版、效益)、同行评议指标。赵惠祥、张弘等(2008)将科技期刊评价一级指标分为影响力指标(总被引频次、影响因子、5年影响因子、相对影响因子、即年指标、他引率、引用刊数、扩散因子、学科影响指标、学科扩散指标、被引半衰期、h指数)、文献指标(载文量、参考文献量、平均引文量、平均作者数、地区分布数、机构分布数、基金论文比、海外论文比等)、载体指标(文献书目信息完整率、编排规范化、差错率、装帧质量、印刷质量、网络通畅率、平均发表周期、平均出版时限等)、管理指标(期刊社体制、编委会状况、管理规章完备性、版权制度、发行体制、信息平台、人员状况、营业总额、资产总额、利润总额)。邱均平、张荣等(2004)将期刊评价指标分为技术性指标(影响因子、总被引频次、即年指标)、效益指标(直接效益、间接效益、社会效益)、标准规范化指标(编校质量、装印质量、现代化建设)。黄河胜(2000)将期刊内涵指标分为引文参数(影响因子、总被引频次、自引率、被引半衰期、外文引文率、SCI文献引用率)、稿件特征参数(基金论文比、学位稿)、稿流特征参数(平均时滞量、平均载文量)。潘云涛(2007)”将期刊一级指标分为学术质量指标、国际竞争力力指标、可持续发展潜力指标。庞景安、张玉华等(2000)将科技期刊评价指标分为经营管理水平指标、学术水平、编辑水平三大类。

由于评价目的不同,期刊评价的指标选取不同,当然分类也不一样。对于大多数评价指标而言,不同学者的分类基本相同,但由于学术期刊评价指标的特点,对于少数指标,不同学者分类截然不同,如基金论文比指标有的作为学术质量指标,而有的作为文献特征指标;即年指标有的被作为时效性指标,有的被作为影响力指标。这些难以分类的指标主要有基金论文比、地区分布数、海外论文比、即年指标等。此外,目前学者主要采用主观分类法进行分类,没有采用客观分类法。

本文以中国科学技术信息研究所的医学期刊评价为例,采用聚类分析与因子分析等客观分类法进行分类和比较,试图确定学术期刊评价指标的分类方法,从而为进一步的期刊评价打下基础。

2 方法

2.1 聚类分析(Cluster Analysis)

聚类分析是多元统计分析的一种,它把一个没有类别标记的样本集按某种标准分成若干个子集(类),使相似的样本尽可能归为一类,而不相似的样本尽量划分到不同的类中。聚类分析被广泛地应用于模式识别、数据挖掘和知识发现的许多领域。聚类的目的是要使各类之间的距离尽可能地远,而类中点的距离尽可能地近。并且分类结果还要有令人信服的解释。在聚类分析中,人们一般事先并不知道应该分成几类及哪几类,全根据数据确定。

对一组数据,既可以对变量(指标)进行分类,也可以对观测值(事件,样品)来分类,对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类,它们在数学上是无区别的。在学术期刊评价中,可以应用R型聚类分析来进行学术期刊评价指标的分类。

2.2 因子分析(Factor Analysis)

因子分析是从多个变量指标中选择出少数几个综合变量指标的一种降维的多元统计方法。该方法的基本思想是通过变量的相关系数矩阵或协方差矩阵内部结构的研究,找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系。然后根据相关性大小把变量分组,使得同组内的变量之间相关性较高,不同组的变量之间相关性较低。每组变量代表一个基本结构,这个基本结构称为公共因子。对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。

建立因子分析模型的目的是找出主因子,解释每个主因子的实际意义,以便对实际问题进行分析。由因子模型矩阵得到的初始因子载荷矩阵,如果因子负荷的大小相差不大,对因子的解释可能有困难,因此,为得出较明确的分析结果,往往要对因子载荷矩阵进行正交旋转或斜交旋转。通过旋转坐标轴,使每个因子负荷在新的坐标系中能按列向0或1两极分化,同时也包含按行向两极分化。如果不对因子载荷矩阵进行旋转,就是主成分分析,因此,主成分分析实际上是因子分析的一种特殊情况。主成分分析只要求所提取出的主成分能包含主要信息即可,不需对其含义作准确解释;因子分析要求所提取出的因子有实际含义,因此采用因子分析进行变量的分类较好。

因子分析是根据现有的指标寻找公共因子,因此,可以借用因子分析进行指标的分类,与主观分类不同的是,由于因子分析是完全根据数据进行的客观分析,

因此不能首先确定一级指标的名称,而应该根据因子分析的结果对公共因子进行命名。

3 数据

本文数据来自于中国科学技术信息研究所CSTPC数据库,以医学类期刊为例进行分析。中国科学技术信息研究所从1987年开始对中国科技人员在国内外数量和被引情况进行统计分析,并利用统计数据建立了中国科技论文与引文数据库,同时出版《中国学术期刊引证报告》。本文数据是2006年的医学学术期刊数据,共518种医学期刊,如表1所示:

由于要对期刊进行评价,所以必须对数据进行标准化处理,每项指标最大值设为100,然后按比例进行调整。此外,被引半衰期和引用半衰期是两个反向指标,必须进行适当处理,方法是用100减去其标准化后的结果后再做标准化,这种处理方式是线性处理方式,比反向指标取倒数的非线性处理方式要科学一些。

4 指标分类结果

4.1 聚类分析

采用层次(hierarchical method)R聚类,第一步把最近的两个指标合并成一类;度量剩余的指标和小类间的亲疏程度,并将当前最接近的指标或小类再聚成一类;再度量剩余的指标和小类间的亲疏程度,并将当前最接近的指标或小类再聚成一类,如此循环,每次都少一类,直到最后只有一大类为止。越是后来合并的类,距离就越远。采用SPSS 15.0进行数据处理,选择组内联系最大法(within-groups linkage),结果见图1。总被引频次(x1)与学科扩散因子(X5)被划为一类,都是期刊影响力的指标;影响因子(x7)与即年指标(X8)被划为一类,还是期刊影响力的指标。在此基础上将以上4个指标划为一类,是可以解释的。然后以此为基础,依次增加平均引文数(X11)、海外论文比(X14)、基金论文比(X9)、学科影响指标(X4),关联性相对较弱,如平均引文数与期刊的影响力关系并不是很大,海外论文比和基金论文比与期刊影响力有一定关系,但基于聚类分析的角度,似乎又比较远。

平均作者数(10)和引用半衰期(12)被分为一类,几乎无法从理论上找到这种关系,在此基础上又和扩散因子()(3)聚类,更是无法解释。

被引半衰期(x6)和地区分布数(X13)被分为一类,从理论上也无法解释,在此基础上和他引率(x2)聚类,也无法解释。

由于期刊评价指标的特殊性,如果采用聚类分析对指标进行分类,结果可能是不能令人信服的,本文是基于大量数据分析得出的结论,应该是比较可靠的。

4.2 因子分析分类

同样采用SPSS 15.0进行因子分析,首先进行KMO与Bartlett检验。KMO是对样本充分度进行检验的指标,一般要大于0.5。本文采用SPSS进行数据处理,KMO值为0.680,也就是说,符合因子分析的条件;Bartlett值为3319.828,P

第一因子是总被引频次(x1)、学科影响指标(x4)、学科扩散因子(x5)、影响因子(x7)、地区分布数(X13),前4个指标都是与被引相关的指标,可以用影响力加以概括,地区分布数也是影响力的一种体现,影响力越大,论文地区分布越广。

第二因子包括基金论文比(X9)、平均作者数(XIO)、平均引文数(X11)、海外论文比(X14)、即年指标(x8)、前4个指标都是期刊特征指标,即年指标比较特殊,在第一因子中的系数为0.34,说明它也是影响力指标;在第四因子中的系数为0.424,第四因子包括引用半衰期和被引半衰期,也与引用相关,但第二因子系数最大,为0.531,所以认为其是期刊特征指标。

第三因子包括他引率(x2)和扩散因子(x3),也与被引相关,是影响力的体现,因此可以将第三因子和第一因子合并。

第四因子包括被引半衰期(x6)和引用半衰期(X12),它其实主要反映的是期刊的时效性情况,因为引用半衰期较短的论文,一般比较新,其参考文献也相对较新

因此,根据以上分析,可以将学术期刊指标分类如下:①影响力指标:总被引频次(x1)、他引率(x2)、扩散因子(x3)、学科影响指标(X4)、学科扩散因子(x5)、影响因子(x7)、地区分布数(X13);②期刊特征指标:即年指标(x8)、基金论文比(x9)、平均作者数(XIO)、平均引文数(x11)、海外论文比(X14);③时效性指怀:被引半哀期(x6)和引用半衰期(X12)。

大数据分析论文范文第3篇

科技档案是指在自然科学研究、生产技术、基本建设等活动中形成的应当归档保存的图纸、图表、文字材料、计算材料、照片、影片、录像、录音带等科技文件材料。2010年以前,由于信息传播速度、信息量以及计算机技术的普及都落后于今天,全国各地的科技情报研究所都是使用人工的手段从科技档案中收集情报,然后再对数据进行筛选、去重、统计,这种方法既费时又费力。随着互联网的发展,数字档案平台、科技报告系统的兴起以及大数据时代的到来,科技情报研究部门对信息的需求量与日俱增,人工检索数据、筛选数据的方法必将被淘汰,取而代之的是利用算机技术自动地对数据进行检索、处理和分析。

从目前的情况来看,完全用计算机代替科技情报研究人员进行情报分析工作是不现实的,因为很多情报的判读需要科技情报研究人员常年累积的经验,计算机可以做的是在最大限度上用计算机代替人工做重复性的工作。此外,情报领域与计算机领域有一定距离,情报研究人员往往不懂计算机技术,甚至对软件的使用都感到棘手。针对上述实际需求,需要开发一个无监督的系统,该系统可以按照需要自动采集数据,并可以对数据进行去重、分析。

基于以上背景,本文计划在钱学森提出的综合集成研讨方法指导下,基于数字档案平台、科技报告系统等数据库设计建立一套以人为主,数据、信息、知识和智慧综合集成,高度智能化的人机结合智慧情报系统,从系统的物理构成来看,包括三部分:一是由参与情报解读的专家组成的专家体系;二是由为情报工作人员和专家提供各种信息服务的计算机软硬件技术组成的机器体系;三是由各种形式的信息资源组成的知识体系。从情报分析过程来看,该系统包括三部分:一是基于专家体系经验判读的定性情报综合集成系统;二是基于数据采集处理工具的定量情报分析综合集成系统;三是从定性情报到定量情报的综合集成系统。总之,该系统的建设不仅需要建立由不同学科、不同领域专家组成,具有能面对复杂巨系统问题所需要的合理知识结构的专家体系,而且还需要设计开发能够有效处理海量数据的工具,实现信息的高效采集与精确分析。从技术构成分析,归类能力、关联性分析能力、辅助解读能力、报告辅助生成能力是该系统应具备的几大核心能力。

文章将主要运用信息智能检索、数据统一结构化、信息抽取、机器学习、自然语言理解等前沿的数据挖掘分析技术,对各数据库的结构化与非结构化文本进行处理,实现对海量信息的数据挖掘,完成数据的关键词输入、引文爬取、数据解析分析、统计。最终形成关于学术专题情报报告雏形。

二、学术专题档案情报快速辅助生成系统功能需求分析与系统设计

大数据时代的数据特征为情报服务过程中数据采集提出了严峻的挑战,档案数据库和科技报告数据库等结构化信息异构、重复,质量参差不齐,时效性不强,使数据整合成为基础数据资源建设的难点;其次是是如何通过大数据时代高度发展的移动互联网技术,充分利用人际网络获得一手数据,并与网络、文献和数据库信息进行整合,也成为大数据环境下数据采集的难点。与此同时,无论何种数据来源,由于数据的价值密度低,数据筛选技术都是关键的技术难题。

本系统通过利用网络环境下的搜索引擎技术、本体库、SVM分类算法、聚类算法和信息筛选技术,构建面向大数据的档案数据库数据、科技报告数据库数据、人际网络数据和信息筛选的大数据采集与筛选工具,为情报服务的数据资源建设提供工具。

(一)系统需求分析

1.搜索需求:互联网数据库信息是情报服务的主要数据来源之一,搜索引擎技术的发展为互联网数据的获取提供了便捷、高效的工具,但是由于算法本身局限性,普通搜索引擎只能采集到约10-30%的信息,只能完成情报大概情况的收集,不能满足情报检索中查全率的要求,对于查准率也只能满足部分要求,这种现状对于情报服务来说,是对互联网信息资源的浪费。本系统需要在普通搜索引擎的基础上通过重点、互动、专业垂直搜索,完成深入的、交互式的、专业的科技情报搜索。本部分的科技情报专用搜索工具是由元搜索系统、重点搜索系统、互动搜索系统、垂直搜索系统和深网接口系统封装在一起构成。

2.大数据筛选:数据库数据具有数据价值密度低的特点,因此,数据的筛选对于情报服务的质量尤为重要。数据来源的广泛性使得大数据难以根据同一标准进行筛选,因而计算机难以独立完成筛选工作。本系统根据研究内容设定采集数据的范围,将采集得到的数据去噪、剔除相似数据后,根据领域词汇距离、情报点关键词录、情报报告关键词录摘录出较具情报价值的信息,力争把以十万计的海量信息压缩到600条以内,同时保存足够的核心信息,并采用人机结合的工作方式,提供专家判读的界面,为数据筛选的准确性提供保障。

3.动态情报跟踪与基于科技主体的社会网络情报需求。搜索引擎完成的是面向互联网数据库数据的静态数据获取工作,然而对于情报服务来说,动态跟踪能够展现情报研究对象的活动轨迹,对于情报分析具有十分重要的价值。根据社会网络理论,完成科技主体(单位和个人)相互关系的表达,从而确定某一主题下各个科技主体的特征,以使我们能从中找到适合进行情报分析判读的行业专家。本系统基于移动网络环境下的情报采集技术,创新情报采集模式,全面采集由情报所所内人员、行业专家、专业情报员,通过科技情报生产的规范化流程、规范化方法,依照科技情报质量控制体系,在情报分析模型方法库和情报分析方法工具包的协助下,完成情报的分析流程。

(二)系统模块设计

本系统根据关键词并行进行科技报告系统网页爬取与数字档案馆中的科技档案爬取,获取有效的网页信息与档案信息,去重、去噪后得到需要的网页信息与档案信息。对数据进行特定的处理,采用特定的算法对获取的数据进行处理分析,生成需要的图表格式并得出结论。具体流程如图1所示。

按照档案情报流程节点的不同,该学术专题情报快速辅助生成系统可以细分为几个大模块:搜索大模块,控制大模块,整理大模块,分析大模块及结论生成大模块。大模块下又可细分为几个小模块。学术专题情报快速辅助生成系统模块划分如图2所示

1.搜索模块:搜索大模块主要有科技报告系统网页搜索模块和数字档案搜索模块两大模块。网页搜索模块致力于在科技报告系统网络上搜索与关键字相关的网页集合,为后续的操作提供初始的科技报告系统网页信息材料来源。数字档案搜索模块是在制定好的数字档案馆中搜索与关键字相关的档案集合,得到与关键字有密切关系的档案集合,为之后的整理分析等工作提供初始的材料来源。

2.控制大模块:控制大模块主要有两个小模块:内存控制模K和线程控制模块。无论是从网页中获取信息还是从档案库中获取信息,系统在获取信息过程中获取的信息容量比较大,所以需要内存控制模块来高效的非配运行此系统的计算机的内存,以提高系统运行效率。由于要获取的信息内容十分多,因此采用并行技术进行获取信息的操作。

3.整理大模块:整理大模块主要有科技报告系统网页内容整理模块和档案库内容整理模块两大模块。科技报告系统网页内容整理模块只要是对获取到的网页进行去重,去噪等处理,得到干净、整齐的网页内容。档案内容整理模块是对已经获取到的档案集合进行去重,去噪等处理,获取格式整齐的档案内容,以便进行后续工作。

4.分析大模块:分析大模块主要有科技报告系统网页内容分析模块和档案内容分析模块两大模块。科技报告系统网页内容分析模块是对前边已经处理过的网页信息采用分类,对比等特定分析方法对这些内容进行分析,以帮助后边的模块得到想要的结果。档案内容分析模块是针对之前通过搜索,处理得到的整齐的档案信息内容采用特定的分类,对比等分析方法对档案内容进行分析,得到分析的结果。

5.结论生成大模块:结论生成大模块主要有科技报告系统网页生成结论模块和档案生成结论模块两大模块。科技报告系统网页生成结论模块使用通过关键词筛选出的网页信息经整理、分析得出的结果采用表格,图表等方式展现给用户,让用户对结论有一个直观的了解。档案生成模块使用通过关键词帅选出的论文信息经过整理、分析得到的记过采用与网页生成结论模块基本相同的样式,如表格、柱状图、饼图等方式向用户展示该关键词搜索的内容的结果。便于用户进行相关的决策等。

(三)系统架构设计

系统结构共包括元搜索模块、垂直搜索模块、URL调度器、数据存储器、多线程控制器、源码解析器和数据分析模块,其中元搜素模块主要是对科技报告系统网页数据进行检索;垂直搜索模块主要是对档案数据库进行检索。由于网页数据与档案库的格式差异较大,故本系统开发两个软件分别对网页数据和档案数据进行处理。从系统结构上来说,除了信息采集模块外,两个软件的结构基本一致,都是通过上述模块进行相互协调控制。用户在系统运行初始化时对相关参数进行设置,如检索的最大页数、检索的时间间隔等,然后输入关键词,系统结合上述功能模块就可以脱离人工自动对数据进行检索和处理,最终实现无监督的信息采集工作。

系统的基本流程:在传统网络爬虫的基础上进行改进对网页信息进行抽取,将下载下来的数据保存到内存中,与之前的一级链接相同,当内存中的数据超过一个阈值时,将它们输出到本地文件中。

当全部数据抓取下来后,数据被分为网页数据与档案数据,由于档案数据是标准的结构化数据,并且科技档案技术方案的重复率并极低,也不存在大量噪声数据,因此可以通过系统的数据分析模块对档案数据进行分析。

三、学术专题档案情报快速辅助生成系统的功能实现

文章以人工智能领域为例,使用本系统进行实验,验证本系统的可行性和有效性。一是本系统可以实现对档案数据库、科技报告数据库的中文数据采集搜索,可以自动实现对档案、科技报告相关词库的搜索,对相关文献详细信息(包标题、摘要、完成人、完成单位、完成时间、项目名称等)进行搜索采集,对相关文献内高频词汇进行统计分析。二是系统对采集到的数据进行归类、去噪、去重处理,筛选出较具情报价值的信息,运用文献计量学方法对筛选完的数据进行统计分析,形成清晰的档案文献相关信息统计分析表格。三是系统可以用来搜索某学术领域相关机构、相关专家,还可以对机构之间的合作关系、专家之间的合作关系、专家学术研究点之间的关系进行可视化展示。

大数据分析论文范文第4篇

关键词:统计测度;统计学;大数据;数据科学;

作者简介:李金昌,男,50岁,浙江义乌人。浙江财经大学校长,统计学教授,博士生导师。研究方向为经济统计学,统计理论与方法,抽样技术,政府统计等。

最近两年,统计学界对大数据问题所进行的理论探讨逐渐增多,视角也各有千秋,引起了一些共鸣。围绕大数据问题,由统计学、计算机科学、人工智能、数学等学科共同支撑的数据科学开始形成。但大数据毕竟是一个新课题,因此远未达到对其有一个系统完整的认识,仍然需要从不同的方面加以研究,其中有一个重要但又容易被忽视的问题,即统计测度问题,值得去探讨。

一、什么是统计测度

汉语上,测度是指猜测、揣度、估计。数学上,测度是一个函数,它对一个给定集合的某些子集指定一个数,这个数可以比作大小、体积、概率等等。通俗地说,测度把每个集合映射到非负实数来规定这个集合的大小:空集的测度是0;集合变大时测度至少不会减小(因为要加上变大的部分的测度,而它是非负的)。

除了数学角度的测度论,查阅国内文献资料,带有测度这个词汇的文献不少,但专门针对统计测度(或测度)内涵的讨论几乎没有。一些对社会经济现象进行分析测度的文献,例如新型工业化进程测度、货币流动性测度、全面小康社会发展进程测度、收入分配公平性测度、技术效率测度、人力资本测度、金融风险测度、产业关联测度等等,所做的测度都是再测度,均不对测度本身进行讨论。查阅国外文献资料(关键词:measurement),也同样存在这样的问题,只能收集到一些比较零散的表述。LudwikFinkelstein(1975)[1]认为,在我们对事物或现象进行描述时,测度可以被定义为对现实世界中某一现象的个体属性或特征进行量化的过程。JamesT.Townsend和F.GregoryAshby(1984)[2]认为,如果按照极端的观点,那么统计分析中的基本测度理论的含义仍然是存在争议的。LudwikFinkelstein(2003)[3]指出,测度在那些原来尚未得到卓有成效或广泛应用的领域,也已取得了明显的进步,社会、政治、经济和行为科学正在更大程度地利用定量技术;测度是现代思维的一种实际有效的工具,是我们借以描述世界的一种方法。GiovanniBattistaRossi(2007)[4]认为,用以表示测度结果的,是数字或者数字符号。LucaMari(2013)[5]认为,测度的基础特征是被公认为世界上获取并正式表达信息的基本方法,这让它成为一种跨学科的工具。LudwikFinkelstein(2014)[6]指出,在自然科学技术中,测度的重要性不可否认,它是科学调查和发现必不可少的工具,它可将宇宙中的复杂现象用精确、简洁和普遍的数学语言来描述。

那么,到底什么是统计测度呢?目前没有一个统一的定义。本文认为,统计测度具有不同于测度的意义,并且大大超越数学上的界定,即它具有数学定义的一般属性,但又不受制于函数表现形式,因为统计测度所要面对的是现实世界,实际问题要比理论上可以定义的问题复杂得多。按照我们的理解,统计测度就是用一定的符号和数字,用一定的形式和载体,对所研究的现象或事物的特征进行量化反映,表现为可用于统计分析的数据的过程。它应该具有这样一些属性:以实际现象为测度对象,测度结果具有实际意义;以量化为目的,把信息转化为数量,提供人们容易理解的定量结论;个体特征的测度符合形成总体定量结论的要求,同时能够体现个体差异。可以发现,统计测度需要借用数学工具,但更重要的是对具体测度现象本质特征的认识和掌握。

统计测度可以从若干不同角度进行分类。邱东教授(2012)[7]曾在“宏观测度的边界悖律及其意义”一文中,从边界的角度对宏观测度进行了分类:一是因事物本身可测度性而形成的边界,即本体论意义上的测度边界;再一是由人的认知能力而形成的边界,即认识论意义上的测度边界;第三则是由统计相关性偏好和投入约束而形成的边界,即操作意义上的测度边界。这三条测度边界,应该以本体论意义的测度边界最大,认识论意义的测度边界次之,而操作意义的测度边界最小。这样的分类,对于我们正确理解统计测度的内涵很有帮助。受此启发,笔者认为统计测度还可以有如下分类:

1.从测度的实现形式看,可以分为原始测度和再测度。原始测度也可以称为直接测度,它通过对测度对象进行直接测度来获取数据,例如清点库存物品数量、丈量作物播种面积、观察培育细菌数目、检测药物成分等获得的数据,以及各种登记、记录的原始数据等等。再测度也称为间接测度,它以其他已知的测度数据为基础去计算、推算或预测所需的未知数据,例如根据GDP和人口数测度人均GDP、根据人口普查分年龄人口数据测度老龄化系数和社会负担系数、根据相关指标数据测度CPI的变化等等。复杂的再测度则需要借助相应的统计模型作为工具,因为它实际上是对相关变量之间的关系进行定量反映。从两者关系上看,原始测度是基础,是根本,没有科学的原始测度就不会有可靠的再测度;再测度则是测度功能提升的必然要求,以解决原始测度不能解决的问题。

2.从测度的计量方式看,可以分为自然测度、物理测度、化学测度、时间测度和价值测度。自然测度是利用现象的自然属性所进行的一种统计测度,例如人口规模、企业数量等的测度,采用自然计量单位;物理测度是利用现象的物理属性所进行的一种统计测度,例如公路长度、作物播种面积、天然气产量等的测度,采用物理计量单位;化学测度是利用现象的化学属性所进行的一种统计测度,例如医学、生物学中化学合成物的成分结构测度,采用百分数、千分数或特定标识为计量单位;时间测度是利用现象的时间属性所进行的一种统计测度,例如劳动用工、闲暇时间等测度,采用时间计量单位;价值测度是利用现象的价值属性所进行的一种统计测度,例如劳动报酬、经济活动成果等测度,采用货币计量单位。在这些测度计量方式中,价值测度因最具有综合功能而应用最为广泛。

3.从测度的方法看,可以分为计数测度、测量测度、实验测度、定义测度和模型测度。计数测度是一种通过观测计数来获得数据的方法,最为简单,一般用于自然测度或时间测度;测量测度是一种根据物理或化学规制对现象进行测量、测算来获得数据的方法,一般用于物理测度或化学测度;实验测度是一种按照科学实验原理、通过观察实验对象在既定条件下的反应来获得数据的方法,一般与测量测度相结合,用于获取科学研究数据;定义测度也可以称之为指标测度,是一种通过探究现象的本质特征和活动规律、归纳出表现其数量特征的范畴、给出统计指标定义(包括内容、口径、计算方法和表现形式等)来获取数据的方法,最常用于价值测度,也用于其他形式的测度。可以说,定义测度方法应用最为广泛,但也最为困难。模型测度是一种根据现象与现象之间的内在联系关系、或者现象自身的发展变化规律,通过建立一定的方程模型来获取数据的方法。前面三种统计测度方法基本上都属于直接测度,定义测度既可能是直接测度、也可能是间接测度,而模型测度都属于间接测度方法。

4.从测度的维度看,可以分为单一测度与多维测度。单一测度是指采用单一的方式方法对所研究现象或事物进行单一角度的测度,获得单一的数据。多维测度是指对所研究现象或事物进行多角度的测度,测度过程中可能需要采用多种测度方法和计量方式,例如多指标综合评价就需要借助统计指标体系对评价对象进行多角度的测度。显然,单一测度是多维测度的基础。

二、统计测度是统计学的立足之本

首先,从统计学的发展历史看,是统计测度使统计学破茧而出。为什么主流观点认为政治算术是统计学的起源而不是国势学?正是因为威廉·配第首次采用统计测度的方式进行了国家实力的统计分析和有关推算,得出了令人信服的结论。威廉·配第在1693年出版的《政治算术》[8]中写道“因为和只使用比较级或最高级的词汇以及单纯作思维的论证相反,我却采用了这样的方法(作为我很久以来就想建立的政治算术的一个范例),即用数字、重量和尺度的词汇来表达我自己想说的问题,只进行能诉诸人们的感官的论证和考察在性质上有可见的根据的原因”,这一观点在统计学的发展过程中产生了非常重要的影响。他的这段话虽然没有出现测度一词,但却道出了测度的本质,即让事物变得明白、变得有根据,因为“数字、重量和尺度”就是测度、就是根据,用“数字、重量和尺度的词汇来表达想说的问题”就是一种测度的思想,尽管测度的方式方法还很简单。相反,国势学虽然提出了归纳法这一统计学的基本方法并首创了统计学一词,但由于没有采用统计测度的方式进行国势问题的研究而难以修成正果。正如邱东教授[7]所说:“在配第之前,统计学的研究对象虽然是国家的态势,但它在方法论上只是定性言说。一个国家的财富总量在本体论意义上是可以测度的。然而只是到了配第时期,人类才想到了要测度它,并发明了如何测度的基本方法。政治算术,即开创期的经济统计学,实现了从无到有的转变,大大扩展了宏观测度的认识论边界,因而才具有了统计学范式创新的革命性意义。”同样,格朗特的《关于死亡表的自然观察和政治观察》也是人口统计测度方面的经典之作,无论是原始测度还是再测度,都给后人留下了宝贵的财富。之后,统计学就是沿着如何更加科学、准确测度世界这一主线而发展的。笔者曾在“从政治算术到大数据分析”一文[9],对数据的变化与统计分析方法的发展进行了粗浅的归纳,其主题实际上就是统计测度问题。

其次,从统计学的研究对象上看,统计测度是体现统计学数量性特征的前提条件。统计学的研究对象是现象的数量方面,或者说统计学是关于如何收集和分析数据的科学。统计数据从何而来?从统计测度中来。数据不同于数字,数字是统计测度的符号,数据是统计测度的结果,这也正是统计学区别于数学之处。所以说,数据的本质问题就是统计测度问题,故此统计测度是统计学的基本问题。这里重点讨论两个问题:一是统计测度与统计指标的关系,二是统计测度面临的新问题。关于第一个问题,本文认为统计测度与统计指标是一个事物的两个方面,这个事物就是数据。统计指标法是统计学的基本方法之一,尽管前面对统计测度从方式方法上进行了分类,但从广义上说所有统计测度都是定义测度,都表现为指标。也就是说,任何统计测度———不论是直接测度还是间接测度,最终目的是获得能够让人明白的数据,而表现数据的最主要形式就是统计指标,其他表现数据的形式都是派生出来的。所以,统计测度就是根据所设定的统计指标去获得所需的数据。关于第二个问题,与后文所要论及的大数据有关,就是定性测度问题。在统计学中,数据可以分为两类———定性数据与定量数据,其中定性数据又包括定类数据与定序数据两种,它们属于非结构化或半结构化数据。相应地,统计测度也可分为定性测度与定量测度。很显然,只有定性测度与定量测度方法得到同步发展,统计学才能更加完善。总体上看,定量数据的统计测度已经比较完善,但定性数据的统计测度还有很多问题尚待解决,难点就在于测度的切入点———如何提取有效的信息、如何最终转化为统计指标。尽管关于定性数据分析的论著已经不少,但还没有从理论方法上建立起定性数据统计测度的体系,因此统计学在这方面的任务依然很重。

第三,从统计学的永恒主题看,通过科学的数据分析、得出有效的结论是其不变的追求,而数据分析过程就是综合的统计测度过程。获得数据的目的是为了发现隐含其中的有价值的信息,即发现数据背后的数据,让数据再生数据,从而满足人们认识事物、掌握规律、科学决策的需要。除了总量、结构等基本信息外,更重要的是通过数据分析来呈现现象的变化规律与相互关系。不难发现,这种数据分析的过程,就是不断进行各种统计测度的过程,所以最终的统计分析结果实际上就是各环节、各方面的各种类型的统计测度的叠加结果,或者说是统计测度不断放大的过程。大量针对社会经济现象进行分析研究的文献(不论是否冠以“测度”两字),只要有数据分析,都是如此。可以说,统计测度贯穿于统计数据分析的全过程。但是,为什么很多统计数据分析并没有得出有效的结论呢?本文认为原因就出在统计测度上,尤其是没有首先解决好原始统计测度问题。应该说,围绕数据分析已经建立起一整套比较完整的统计方法体系,很多方法也都身经百战、行之有效,但一旦原始统计测度有问题、数据不准确或不真实,那么任何方法都只是摆设。仔细研读很多所谓的实证分析文献,其重点均在于构建什么样的模型或运用什么样的方法,虽然有的文献也必须要讨论选择什么样的变量(指标)这个问题,但并不是系统地从测度的角度进行阐述,因此所用的模型越来越复杂,但所得的结论却离实际情况越来越远。学界总是有这样一种观念:变量越多、符号越新奇、模型越复杂的文章才越有水平,似乎这样分析所得的结论才越可靠。殊不知,不以科学可靠的原始统计测度为基础,任何数据分析都会成为无源之水、无本之木,所得的结论也只是更精确的错误而已。本文认为,任何脱离科学统计测度的统计分析都是毫无意义的,充其量是一种数字游戏而已。应该树立这样一种观念:科学的统计数据分析首先取决于科学的统计测度,而不是首先取决于什么样的分析模型,虽然模型也很重要。这也再一次证明,统计测度问题是统计学的根本问题。其实,归根结底看,在统计数据分析过程中,每一步分析都以前一步的测度为原始测度,每一步所用的方法都是统计测度方法,因此所有的统计分析方法都是统计测度方法。甚至可以说,统计学方法体系就是统计测度方法体系。

当然,在实际的统计分析中,统计测度往往遇到一些困难,即有些指标数据由于各种原因无法获得,这就不得不采用替代这种途径。例如,绿色GDP核算的概念已经提出很多年,但为什么还没有哪个国家真正公布绿色GDP数据,原因就是自然资源价值、生态环境价值等的统计测度目前还面临着很大的困难,其背后存在着一系列有待进一步研究和解决的理论与实践问题,因此不少学者进行了替代测度的探讨。这一方面说明统计测度的重要性,另一方面说明统计测度替代的无奈性。但是,替代测度必须遵守相应的规则与逻辑,要经得起推敲。有的文献明明知道有关变量无法测度、有关数据无法获得,却随意地、不符合逻辑地进行所谓的替代,结果是最后的结论不知替代成什么样了,很难理解它的意义。关于替代测度的有效性问题,邱东教授[7]已有精辟的论述,在此不再展开讨论。

三、统计测度是数据科学的基础

笼统地讲,数据科学就是以大数据为研究对象的科学,需要多学科交叉融合、共同支撑。由于大数据是快速增长的复杂数据,因此大数据分析仅有统计思维与统计分析方法是不够的,还需要强大的数据处理能力与计算能力。只有把统计思维、统计方法与计算技术结合起来,才有可能真正挖掘出大数据中的有价值信息。本文认为统计思维、统计方法与计算技术相结合的基础就是科学的统计测度。

首先,大数据技术不能自行解决其计算和分析应从何处着手的问题。现代信息技术与互联网、物联网技术的快速发展,使人类进入大数据时代,也有人说进入到数联网时代,这意味着我们一方面被各种越来越多、越来越复杂的数据所包围,另一方面又被数据中巨大的信息价值所吸引,想从中挖掘出可供决策之用的信息。如何挖掘大数据?人们已经进行了艰苦的探索,发展了很多专门的方法技术,并已尝到了不少甜头,但远未达到充分利用大数据中有效信息的目的,因为已有的大数据分析研究主要集中于计算机科学与技术、软件工程、计算数学等领域,重点是计算能力与算法研究,而很少从统计学的角度进行有针对的探讨,还没有真正进入数据分析的深层。这里面实际上忽略了最基础的统计测度问题。如果说,计算技术的发展能够解决数据储存与计算的能力问题,算法模型的改进能够解决大数据分析的综合能力问题,那么它们仍然不能解决对谁进行计算与分析的问题,也即从何处着手的问题。无论是传统的结构型数据,还是现在的包含大量非结构型数据的大数据,要对它们进行分析都必须找到正确的切入口,即分析的基本元素是什么,或者说需要测度什么。当然,还有如何测度的问题。然后,才能进行分组、综合和构建模型,否则大数据分析不会达到人们的预期。

其次,大数据之所以催生数据科学,就是为了通过多学科交叉融合来共同解决大数据分析中存在的问题,其中包括统计测度问题,这一点对于非结构化数据尤为突出。实际上,大数据的本质就是非结构化数据,一是体量大、比重高(超过95%),二是变化快、形式多,三是内容杂、不确定。通过各种社交网络、自媒体、富媒体,以及人机对话和机器感应记录等产生的各种非结构化数据,例如各种文字、各种表情符号、各种声音、各种图像,到底表示什么?综合在一起能体现什么规律?如何综合各种信息?存在着大量有待研究的问题。其实,文字的长短、用词、表达形式(叙述式、议论式、散文式、诗歌式,等)甚至字体大小与颜色,表情类型与偏好,声音高低、频率与情绪,图像颜色等等,都是有特定意义的,即在特定环境条件下的反应。所以,一句话或一段声音的意义并非文字本身的意思,一个表情符号的意义并非符号表征的意思,一个图像的意义并非图像内容与色彩本身的意思,因为背后有太多的未知。人们浏览检索各种信息的习惯、收看与回复邮件等信息的习惯、参与信息网络的习惯、购物习惯与支付习惯等等,也是如此。更何况,同样的网络词汇在不同的时间代表着不同的语义。这背后隐藏着的是人们的行为与社会关系,既具有个性又具有共性,极其复杂。所以对这样的数据进行分析,首先绝非是计算问题,也不是用什么模型问题,而首先是从何处着手、如何选取关键词、如何选定关联词、可以用什么样的指标来综合、可以用什么样的表式来表现等问题,一句话就是统计测度问题。非结构化数据的统计测度将主要是定义测度,这些问题不解决,分析模型也是难以构建的,或者难以得出令人信服的结论。

例如,关于《红楼梦》前80回与后40回是否同一作者的争论,韦博成[10]进行了综合性的比较研究并提出了自己的观点,他指出已有美国威斯康辛大学华裔学者陈炳藻教授(1980)[11]、我国华东师范大学陈大康教授(1987年)[12]和复旦大学李贤平教授(1987年)[13]等学者从统计学的角度进行过专门的研究,但却得出了不同的结论:陈炳藻教授认为前80回与后40回均是曹雪芹所著;陈大康教授认为前80回与后40回为不同人所著;李贤平教授认为前80回是曹雪芹根据《石头记》增删而成,后40回是曹雪芹亲友搜集整理原稿加工补写而成。此外,还有其他一些学者进行过类似的研究,也有一些不同的结论。为什么都通过提取关联词和统计的方法却得出不同的结论?原因就在于用以分析的关联词不同,即统计测度的切入点不同,当然也有统计方法上的差异,但前者是根本。至少存在几个统计测度上的问题:提取单一维度的关联词还是多维度的关联词?提取什么类型的关联词(例如:关联词是名词、形容词还是动词;是花卉、树木、饮食、医药还是诗词)?这些关联词可以综合为什么样的指标?等等。由此可见,原始统计测度代表着数据分析的方向。

相比《红楼梦》,大数据分析要复杂得多、困难得多。所以,数据科学除了需要数学、统计学、计算机科学与技术、人工智能等学科的交叉融合外,还需要与行为科学、语言学、社会学、经济学等学科相结合,以便能很好地解决作为数据分析之前提的统计测度问题。

第三,数据科学将进一步拓展统计测度的边界,并提出更高的要求。伴随着人类认识世界的范围的不断拓展,统计测度的范围也不断扩大,从自然现象统计测度到人口现象、经济现象统计测度,再到社会现象、环境现象、政治现象等统计测度,几乎已经渗透到了所有可以想象到的领域。相应地,统计数据分析也从少量数据的分析进入到了大数据分析。大数据的复杂性、不确定性和涌现性(王元卓等,2013)[14],意味着统计测度的内容大大增加,原来一些不能测度的数据被纳入到了统计测度的范围,按照邱东教授的说法就是统计测度的边界大大扩展了。统计测度边界的扩大,必须以统计测度能力的提升为前提,即要求统计学借助现代信息技术进一步提升处理和分析数据的能力———对大数据“化繁为简”、“变厚为薄”的能力,这就必须以科学准确的大数据统计测度为前提,既改变统计思维,又创新统计分析方法,其中就包括统计测度思维、统计测度方法与统计测度标准。面对大量繁杂的数据,如果没有更好的统计测度思路与方法,包括个体标志定义方法、最小数据细胞分组与聚类方法、关联词含义的时间影响计量方法、定性测度指标筛选方法、再测度路径与方法、大数据统计测度评价标准等,那么统计学在数据科学发展过程中就难以发挥应有的作用,数据科学也将裹足不前。这就是统计学迈向数据科学的重要挑战之一。

综上所述,统计测度的基础性问题从统计学延伸到了数据科学,是两者的共同基础,并且对于数据科学而言显得更为重要。大数据的复杂性、不确定性和涌现性导致了统计测度的难度猛增,亟需建立面向大数据分析的统计测度理论与方法。要通过研究大数据的复杂性、不确定性和涌现性特征的基本因素,以及这些因素之间的内在联系、外在指标和测度方法,进而研究基于先进计算技术的大数据度量模型,构建寻找面向计算的数据内核或者数据边界的基本方法。总之,建立有效易行的数据表示方法,即科学的统计测度方法,是数据科学必须解决的基础问题之一。

四、创新与完善大数据统计测度方法

如前所述,统计学研究对象已经从结构化数据延伸到了包括非结构化数据在内的一切数据,统计测度边界得到了大大的扩展。按照邱东教授[7]曾经引用过的海德格尔的话:“界限并不表示某一事物的发展到此为止,而是像希腊人所认知的那样,界限是某种事物开始展现的地方”,预示着统计学在数据科学发展阶段的新起点已经展现在我们面前。新的统计测度边界催生统计测度方法的创新,统计测度方法的创新促进统计测度边界的拓展,两者相辅相成,共同推动统计学与数据科学的发展。为此,我们要系统梳理统计测度方法的发展历程,面对大数据提出的新挑战,大胆探索统计测度的新思路、新理论和新方法,为数据科学奠定坚实的统计学基础。为此提出如下几点建议:

首先,要紧密结合现象的本质去探求更科学的统计测度方法。本质决定一切,既然统计测度的目的是获得客观反映现象本质的数据,那么深入到现象本质、认识和掌握现象的本质,是科学统计测度的关键,也是探求新的统计方法的出发点。换句话说,科学的统计测度方法能够体现出数据的真正意义。例如,要探求社交网络数据的统计分析和测度方法,就必须了解社交网络的产生背景、构成要素、表现形式与基本特征,既要研究它的共性问题,又要研究它的个性问题与差异性,同时还要研究它的变化趋势。只有这样,才能掌握社交网络数据的构成要件或元素,才能建立起科学的、能有效体现社交网络数据意义的统计测度方法。再如,要分析研究电子商务数据,也必须先弄清楚什么是电子商务,尤其是弄清楚它与传统的商业模式有什么不同(包括物流、资金流与信息流)、有哪些新生事物(包括时空特征、法律监管)等等,否则统计测度无从下手或者抓不住要害。同时,作为一个新的研究领域,数据科学的理论基础将与计算机科学、统计学、人工智能、数学、社会科学等有关,离不开对相关学科领域知识与研究方法的借鉴,因此对相关领域的知识与研究方法的学习十分重要。否则,就会严重扭曲统计测度方法,胡乱设置测度标志,这需要引起高度关注。

其次,要紧密结合大数据的特点去创新统计测度方法。大数据的特点是复杂性、不确定性和涌现性并存,构成了多维的数据空间,里面蕴藏着丰富的信息资源,这是传统的统计数据不可比拟的。那么该从何处进入这样的数据空间?怎么进去?又怎么出来?这归根结底还是统计测度方法问题。因此,在开展大数据分析之前,首先要研究大数据的基础性问题,包括大数据的内在机理(包括大数据的演化与传播机制、生命周期),数据科学与社会学、经济学、行为科学等之间的互动机制,以及大数据的结构与效能的规律性等等,为创新统计测度方法提供导向。本文认为,再复杂的数据也有共性,再不确定的数据也有规律,再涌现的数据也有轨迹。网络大数据背后的网络平均路径长度、度分布、聚集系数、核数、介数等具有共性的特征与参数,是开展复杂网络数据分析的基础(李国杰、程学旗,2012)[15];大数据在时空维度上的分布形式、内在结构、动态变化和相关联的规律,是找到大数据分析切入口、进而简化大数据表征的前提;大数据的涌现性轨迹(包括模式涌现性、行为涌现性和智慧涌现性),是研究更多的社会网络模型和理解网络瓦解失效原因,理解人们网络行为涌现特征(例如人们发邮件数量的时间分布特征),以及探求大量自发个体语义融合连接形成有特定意义的通用语义之过程的路径(靳小龙等,2013)[16]。也就是说,这些共性、规律和轨迹就是统计测度的主要依据,也是重点内容。发展和创新能够准确发现大数据的共性、规律和轨迹的定量方法,其实就是发展和创新大数据统计测度方法。

第三,要紧密结合现代信息技术以完善统计测度方法。复杂、多变和不断涌现的大数据,不仅需要借助现代信息技术(包括硬件与软件)来解决极其复杂的分析计算问题,也需要利用现代信息技术来解决其繁杂多样的统计测度问题。对于大数据,不论是原始统计测度还是再测度,其复杂性或难度都不是传统的结构化数据所能相提并论的,哪怕是基本的关联词计数、分类与汇总,其工作量之大也超乎想象,不借用现代信息技术几乎是不可能完成的。而事实上,有些统计测度的内容与方法本身也是以数据处理能力的提升为前提的。可以说,脱离现代信息技术,人们难以承受大数据的统计测度与分析任务;要把统计测度思想变为可实现的统计测度方法,必须借助现代信息技术。为此,要充分利用各种信息技术和手段,把统计测度与数据清洗相结合、与数据分析模型相结合、与计算方法相结合,努力建立融自动搜索统计测度、动态演化统计测度和自主优选统计测度为一体的大数据统计测度方法体系。

大数据分析论文范文第5篇

关键词:恶意发帖检测;文本情感分析;SVM;分类;聚类

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2014)07-1403-04

随着互联网( Internet)的蓬勃发展,网络作为一种新的媒介形式,已被人们广泛使用。互联网的发展过程“是一个时时处处有人参与的、不断演化的、自适应的、不断涌现出新的整体特性的过程,是一个开放的、人在其中与社会系统紧密耦合的复杂巨系统[1]”,其业务流量自相似、拓扑结构无尺度等特性的发现为人们正确认识和管理互联网起到了重要作用。

网络论坛是网络舆论形成的一股重要力量,广大网民通过网络来表达观点,一旦遇到社会热点问题,瞬间就能形成巨大网络的舆论。网民通过“发帖”发表意见、参与舆论形成,与论坛网站共同构成了人机结合的虚拟系统[2]。以网络水军为主体的恶意发帖能主导舆论走势,产生错误的舆论导向以及消极的影响,所以对恶意发帖的检测就显得尤为重要。

本文通过对大量论坛发帖信息进行收集分析,形成帖子库,并对帖子内容进行文本情感分析,产生恶意发帖聚类,接着使用支持向量机(SVM)对恶意帖子进行分类,实时产生预警信息,并对发帖源头进行干预。

1 理论背景

基于情感分析的恶意发帖检测系统的分析与研究中,涉及到的理论主要有三个方面,分别是数据挖掘技术,文本情感分析和支持向量机。

1.1 数据挖掘技术

数据挖掘(Data Mining,DM)又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和机器学习领域的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的过程[3]。

数据挖掘的分类、聚类、关联规则、预测算法能很好的应用到恶意发帖的分析检测与追踪之中。主要处理如下:

1) 可以对帖子库中的恶意帖子根据恶意的等级不同进行分类处理;

2) 可以对恶意帖子进行聚类分析,找出它们的团伙关系;

3) 利用关联规则,找出发帖人与不同帖子之间的关联关系;

4) 利用预测技术预测出哪些发帖人有恶意发帖的趋势;

5) 利用帖子间的文本的近似的比对,找出某个人多次改变手法发帖。

1.2 文本情感分类

文本情感分类是指通过挖掘和分析文本中的立场、观点、看法、好恶等主观信息,对文本的情感倾向做出类别判断[4]。文本情感分析使用文本极性分析将帖子分为正面或负面,论坛发帖文本情感分析具体工作流程如图1所示。

1) 观点摘要。从一个或若干包含主观性信息的文本文档中概述出其中主观性信息的主要内容。基于观点的摘要分为两种,一种是单文档摘要,另一种是多文档摘要。

2) 文本极性分类。针对给定的文本,使用情感分类方法,识别其中主观性信息的倾向是正面还是负面的。Naive Bayes、最大熵分类(Maximum Entropy Classification)和支持向量机是常用的情感分类方法。

3) 主观和客观识别或分类。识别文本是对事实的描述(客观的文本)还是包含有意见、评价等主观性信息(主观性文本)。

1.3 支持向量机

支持向量机(SVM)是由Vapnik在1963年解决模式识别问题时提出了支持向量方法,这种方法从训练集中选择一组特征子集,使得对特征子集的划分等价于对整个数据集的划分[5]。

SVM从线性可分情况下的最优分类面发展而来,广泛应用于数据分类、手写识别等领域。SVM考虑寻找一个满足分类要求的超平面,并且使训练集中的点距离分类面尽可能的远,也就是寻找一个分类面使它两侧的空白区域(Margin)最大。

3 系统功能分析

整个系统的设计与实现,包括网络发帖采集系统,网络发帖倾向性分析,恶意发帖分析检测引擎和恶意发帖分析监测与监控追踪系统,下面就四个系统的功能进行分析。

3.1网络发帖采集系统

网络发帖采集系统主要功能是完成网络发帖数据的实时采集整理,其中负责采集数据的是网络爬虫,其运行具体步骤如下:

1) 用户通过配置管理界面配置爬虫的数据源、页面解析逻辑、数据存取逻辑和高级设置,配置数据将保存在爬虫配置数据库中;

2) 用户在数据抓取监控界面开始运行数据抓取任务时,系统通过读取页面表中配置数据利用爬虫装配器组装爬虫执行体,读取高级配置爬虫控制器为爬虫执行体分配执行线程、URL队列等运行时参数,爬虫将在爬虫控制器的管理下运行,可进行任务调度、定时执行、自动更新、实时监控等操作;

3) 爬虫抓取的数据将根据配置自动保存到相应数据库中,用户可以通过数据库管理界面进行查看、导出等操作。

3.2网络发帖倾向性分析

网络发帖倾向性分析主要文本情感分析的方法进行帖子分析,因为一个发帖主体可能在多个评论地点(论坛)上进行评论,本系统在文档情感分析的基础上,结合语义倾向,基于LDA模型,使用SVM方法对恶意发帖进行分类。其具体算法流程描述如下。

1) 文档集合预处理。将每个文档中的文本分割为句子,以句子为单位进行词性标注,得到句子中每个词的词性。

2) LDA构建。将句子集合中的每个句子当作LDA模型中的文档,为整个句子文档集合建立一个LDA模型。

3) 主题重要度计算。根据LDA模型得到句子的主题分布和主题词汇分布,计算每个潜在主题的重要度。

4) 句子重要度计算。根据主题重要度,结合主题词分布和语义倾向,计算主题中每个句子的权重。

5) 语句排序。根据句子权重对句子进行排序,如果权重相同,非停用词在句子占比重大的排在前面。

6) 帖子分类。按照句子排序顺序结果使用SVM方法对帖子的恶意情况进行分类。

3.3恶意发帖分析检测引擎

恶意发帖分析检测引擎为本系统的核心,其主要包括以下功能:热点识别能力、自动分类、聚类分析、倾向性分析与统计、主题跟踪、信息自动摘要功能、截取证据、趋势分析、突发事件分析、报警系统、统计报告。

恶意发帖分析检测的核心技术在于恶意发帖分析检测引擎,涉及最主要的技术包括文本分类、聚类、观点倾向性识别、主题检测与跟踪等技术。恶意发帖分析检测引擎是恶意发帖分析与检测系统的核心,主要功能如下:

1) 热点(敏感)话题识别与追踪。利用关键词布控和语义分析,识别敏感话题。

2) 情感倾向分析。对于每个话题,对每个发贴人发表帖子的观点、倾向性(正负面、褒贬义)进行分析与统计。

3) 主题跟踪。分析新发表文章、贴子的话题是否与已有主题相同。

4) 帖子自动摘要。对各类主题,各类倾向能够形成自动摘要。

5) 发帖趋势分析。分析某个主题在不同的时间段内,网民的关注程度。

6) 突发事件分析。对突发事件进行跨时间、跨空间综合分析,获知事件发生的全貌并预测事件发展的趋势。

7) 实时预警。对突发事件、涉及敏感话题及时发现并发出预警信息。

8) 统计报告。根据舆情分析引擎处理后的结果库生成报告,用户可以浏览、检索。根据指定条件对热点话题、倾向性进行查询,提供决策支持。

3.4恶意发帖分析监测与追踪系统

恶意发帖分析监测与追踪系统主要是对指定网站的帖子进行数据采集存储到数据库中,再对库中的帖子情况进行分析,实现实时监测和追踪。主要功能如下:

1) 对库中的帖子提取关键词,进行文本倾向性分析。

2) 根据极性不一样,利用分类算法为帖子指定不同的恶意等级,并根据等级不一样不同的预警信息。

3) 利用聚类算法对帖子实现自动归类,挖掘出发帖人之间的团伙关系。

4) 文本近似度分析,发现改变手法多次发帖的发帖人。

5) 利用IP地址及发帖人之间的关系定位发帖人,实现对恶意发帖的检测与追踪。

帖子检测是本系统的核心,即帖子按恶意度分级,将一定级别的恶意帖子收集到一个库中,然后进行统计,分为两种情况:

1) 完全相同的人发帖(同一个人用一个账号多次发帖和同一个人用多个账号一次发帖,如果多个账号发的是同一个帖子,那么应该是同一个人)。

2) 类似的人发帖(一个人改变手法,多次发帖),或者可以看成是一个团伙。

恶意帖子检测流程如图4所示。

建立恶意帖子库后,利用相应的字段信息,例如:发帖者,发帖网站,发帖者账号,帖子内容,跟帖者,跟帖内容。利用数据挖掘的关联规则挖掘技术以及其他技术,实现如下功能。

1) 找出同一个账号多次发出同一恶意帖子,进而定位这个账号,进行跟踪,同IT部门和技术部门合作,找出发帖者的IP地址,确认发帖者的位置和身份。

2) 直接根据发帖内容进行比对,如果是内容相同的帖子,来自于不同和和不同账号,根据这些账号是否由同一个IP地址发出,确认是否为同一个人用多个账号发帖;如果IP不同就有可能是一个同伙或组织用多个账号发出同一个帖子。

3) 根据内容的相似度,找出类似的发帖,找出其账号之间的关联,确定是否为一个人改变手法,多次发帖。

4) 找出恶意帖子库中的跟帖关系,建立关系网络图,利用网络理论中子图发现和查询技术,找出密集型子图,发现恶意发帖团伙。

5) 根据密集子图的密集程度和活跃程度,确定发帖信息的危害程度以及突发事件的可能性,以便及时预警。

4 结束语

本系统建立面向主题的、关键词的、行业的、主流网络平台的恶意发帖信息的语料库;搭建了恶意发帖检测分析平台,及时识别恶意发帖信息,使用网络发帖分析检测引擎,对恶意发帖信息进行分析处理;制定通用的恶意发帖分级制度,建立恶意发帖监控预警标准。建立恶意发帖控制处理平台,建立恶意发帖信息的追踪和预警体系。系统运行稳定正常,具有良好的实际价值。

参考文献:

[1] 山秀明.互联网复杂性研究进展[J].北京邮电大学学报, 2006,29 (1): 1-8.

[2] 谢新洲,肖雯.我国网络信息传播的舆论化趋势及其所带来的问题分析[J].情报理论与实践,2006,29 (6) :645-649.

[3] Jiawei Han.数据挖掘概念与技术[M].北京.机械工业出版社,2012.