首页 > 文章中心 > 数据分析方法

数据分析方法范文精选

数据分析方法

数据分析方法范文第1篇

关键词:数据服务;行业集中度;赫希曼指数;对外服务

1电力对外数据分析服务的重要性

在国网公司电力体制改革不断推进的背景下,电力市场的主体开始变得更加多元化,面对愈发多元化的数据来源,探索新型的智能用电服务模式,拓宽电力数据服务市场,进一步提升供电服务能力和水平,转变传统营销服务模式,研究用户智慧用电策略和挖掘智慧服务对电力市场进行有效开发、保护与培育,已成为当前供电企业所面临的迫切任务。这也是池州供电公司未来智能用电服务发展的一个方向。目前池州供电公司在电力大数据公开、政企数据共享和商业模式等方面探索相对缺乏,仍需持续努力,以形成典型成果和可推广模式。如何立足当前工作实际,基于已有海量电力运行数据,利用大数据技术挖掘潜在的电力数据商业价值,构建对外服务场景,更好地践行“电力数据资产服务社会”的理念,是电网公司所共同关心的问题,也是摆在池州供电公司面前急需解决的问题。

2电力对外数据分析服务方法设计

电力对外数据分析服务方法的系统架构主要划分为四大模块,分别为数据源、数据接入层、模型分析层和应用展示层。数据源主要涉及SG186营销系统的台账数据、用采系统的用电量数据。数据接入层的数据接入技术主要利用MySQL-connector作为数据接入基础。本方法的核心业务是模型分析层,采用行业用电集中度指数分析模型分析行业用电各维度的历史用电情况、用电同比/环比情况和增长率等,并融合用电台账管理模型对用电量进行多维展示;同时建立重要行业的用电热力图监控等。应用展示层通过Web端展示模型分析层的分析结果;在应用展示层主要通过H5页面进入,用CSS来规范页面样式,使用JS进行前台业务逻辑和页面控制,向服务器提交的数据以AJAX的方式提交到后台的Controller类进行处理,最终利用Vue前端框架和EChart图表展示组件实现可视化呈现。该方法具体架构如图1所示。这种电力对外数据分析服务的方法利用数据挖掘技术,以池州用电客户海量用电数据为基础,挖掘潜在的数据价值,提供数据对外服务工作。通过建立数据、业务、技术和服务相结合的多维模型及应用,最终提升公司市场竞争水平。具体方法的功能模型如下所示。

2.1用电客户信息管理。该方法通过手动方式集成SG186系统用电客户信息,并基于已有的用电客户信息,为用电客户“打”上行业标签和所属地市标签,保证一个用电客户属于一个行业,为行业集中度分析和区域行业分析奠定数据基础。

2.2用电客户行业集中率(CRn指数)分析。行业集中率主要用于分析该行业的相关市场内前n家最大的企业所占市场份额的总和。行业集中率分析中,CR4是指4个最大的企业占有的相关市场份额。前5个企业集中率(CR5)、前8个企业集中率(CR8)均可通过计算得出。基于行业用电客户的用电量,运用行业集中率分析方法,分析行业发展景气指数,按季度向政府提供行业集中率用电报告,方便政府预测行业宏观经济,支撑政府高效精准决策,主要分析内容如下:(1)以用电客户的用电行业为维度进行分类,分析行业TOP4、TOP8用电客户的用电量占比数。(2)基于用电量分析行业用电行业集中率,可将行业产业市场结构粗分为寡占型(CR8≥40%)和竞争型(CR8<40%)2类。寡占型又可细分为极高寡占型(CR8≥70%)和低集中寡占型(40%≤CR8<70%)。竞争型又可细分为低集中竞争型(20%≤CR8<40%)和分散竞争型(CR8<20%)。(3)基于行业集中率按月向政府有关职能部门提供行业集中率分析报告,为政务决策提供用电可靠性参考依据。

2.3用电客户赫希曼指数(HHI指数)分析。该方法使用企业用电量作为企业的市场份额。赫希曼指数具有数学上绝对法和相对法的优点,使其成为较理想的市场集中度计量指标。其可以衡量企业的市场份额对市场集中度产生的影响,成为政府审查企业并购的一个重要行政性标准。赫希曼指数的计算公式如下:HHI=Ni=1Σ(Xi/X)2(1)式中:Xi为某一企业的用电量;X为某行业下所有企业的用电量总和。赫希曼指数给每个企业的市场份额Si(Si=Xi/X)一个权数,这个权数就是其市场份额的用电量本身。赫希曼指数给予大企业的权数较大,对其用电量市场份额也反映比较充分。赫希曼指数越大,集中度越高,反之越低。基于行业用电客户的用电量,运用赫希曼指数分析方法,基于池州地区行业发展的赫希曼集中度指数,可以了解行业竞争关系变化、行业饱和度等,进而为政府开展招商引资活动提供参考,主要分析内容如下:(1)按行业将所有企业的市场份额平方后再相加,得到的总和为赫希曼指数;(2)基于赫希曼指数对行业进行分类,指数越大,集中度越高,反之越低;(3)基于赫希曼指数分析了解行业竞争关系变化、行业饱和度等,为政府开展招商引资活动提供参考。

2.4多维用电量同比、环比分析。以用电客户的用电量为基础数据源,以行业、产业和用电客户等为维度,分析用电量的同比、环比变化趋势,可以发现增速较快、增速较慢的行业和产业,也可以发现用电客户的异常用电行为,并通过EChart可视化技术,以友好的界面形式渲染。同时系统定期提供手动方式生成的行业用电量分析报告,在报告中,可查看池州市月度总用电量、行业用电量、产业用电量、用电量增幅、用电量降幅、TOP10用电量行业、TOP10用电量客户和TOP10用电量增幅较大客户等,通过报告的形式方便管理部门更好地了解用电变化。

3结语

本文介绍的电力对外数据分析服务方法创新性提出通过海量电力运行数据提供对外价值服务。该方法使用行业集中率、赫希曼指数分析行业用电活跃度的新型服务分析模式,全力推进电力物联网高质量发展,加快制定数据发展战略,常态开展数据价值挖掘。通过提供对外数据服务的电力价值成果,利用电力数据辅助分析不同行业的行业饱和度、行业竞争度等,有助于更好地了解和预测行业的发展情况,为制定、规划行业发展方向提供电力参考依据。

[参考文献]

[1]高金山,张聪聪.基于HHI指数的风电整机行业集中度分析[C]//中国农业机械工业协会风力机械分会专题资料汇编,2017:28-30.

[2]迟景明,任祺.基于赫芬达尔-赫希曼指数的我国高校创新要素集聚度研究[J].大连理工大学学报(社会科学版),2016,37(4):5-9.

数据分析方法范文第2篇

我们在教学的过程中,也比较比较注重案例教学。例如,在讲授神经网络时,我们可以用上海证券交易所中股市中股票随时间变化的数据为例,让学生讨论如何应用神经网络对股票价格进行预测。人工神经网络是一种模仿自然界动物神经网络行为特征,进行分布式并行信息处理的算法数学模型,能够较好地处理具有一定复杂性的数据,在预测、拟合等方面取得了很好的应用效果。让学生采用神经网络进行实际数据分析和处理,可以增强他们学习的积极性,更主动地投入到学习中去。我们也要求他们使用回归分析的方法对股票价格进行预测,然后和神经网络预测的结果进行比较。通过这个过程,可以使学生们不但了解了神经网络与回归分析算法的异同,加深他们对神经网络的认识。

加强实验教学,增强学生动手能力

信息与计算科学专业是以信息领域为背景,数学与信息、管理相结合的交叉学科专业。该专业培养的学生具有良好的数学基础,能熟练地使用计算机,初步具备在信息与计算科学领域的某个方向上从事科学研究,解决实际问题,设计开发有关软件的能力。毕业生适合到企事业单位、高科技部门、高等院校、行政管理和经济管理部门,从事科研、教学和计算机应用软件的开发和管理工作,也可以继续攻读信息与计算科学及相关学科的硕士学位。从信息与计算科学专业的培养目标可以看出信息与计算科学专业的本科生不但需要掌握理论知识,还需要具有将所学知识用来解决实际问题的能力。数据挖掘作为一门应用性较强的课程,需要学生能够运用数据挖掘知识分析和解决实际问题,要求学生能够熟练掌握数据挖掘的程序设计,以便在将来的就业中具有更好的适应性,因此实验环节的教学有着其必要性。基于这些原因,我们在这门课中引入实验环节,并将其纳入考核要求。我们实验所用的基本软件是SAS统计分析软件。SAS软件是一个集统计分析、报表图形、信息系统开发和大型数据库管理等多种强大功能为一体的大型软件系统,是目前国际上主流的统计分析软件之一。我们信息专业在大三时开设这门课程,之前已经学过C语言和JAVA等程序设计方法,有了一定的编程基础,因此学习使用SAS软件并不是特别困难。而且,在SAS软件中,系统自带了许多数据挖掘函数,这方便了同学们的使用。我们在平时的学习中,将一些SAS软件的基本程序设计基础知识先发给同学们,让他们利用课后时间自己在个人电脑上进行熟悉,从而使得他们熟悉基本SAS程序设计方法,这样可以在实验课上直接运用SAS软件进行数据挖掘程序的编写。在实验课上,我们主要将要实验的内容和相关数据资料提供给同学,要求同学自己用数据挖掘的知识和SAS软件进行编程实现,并写出实验分析和小结。另外,在实验中,我们也要求学生尽可能将一些实验结果用图表的形式如崖底碎石图等表示出来,以利于进一步分析。对于少部分学有余力的同学,我们也引导他们自编相关的程序。比如说在SAS软件中进行K-均值聚类用fastclus这个函数就可以了,但是学生对程序具体实现过程可能不是很清楚。如果学生能够将程序K-均值聚类详细程序步骤自己编写出来,就可以表明学生对所K-均值聚类算法也有了较清楚的认识。另外,对于属于数学建模协会的同学,我们也引导他们将数据挖掘的知识和数学建模中某些问题相结合起来,对于以往出现的一些可以利用数据挖掘知识分析的问题让他们利用相关的数据挖掘知识对其进行分析和求解,通过这样的方式,可以这样拓展这些同学的思路,也为数学建模培养了人才。

灵活的课后作业形式,提高学生的综合能力

数据分析方法范文第3篇

1、市场细分概述

2、AID、CHAID概述

3、算法和特征

3.1AID算法

3.1.1变量排序

3.1.2目标函数

3.1.3选择分类变量

3.1.4分割方向的确定

3.1.5确定停止条件

3.2CHAID算法

3.2.1建立交叉分类表

3.2.2X2统计量、似然估计值

3.2.3选择分类变量

3.2.4确定停止条件

3.3AID与CHAID的比较

3.3.1AID与CHAID

3.3.2CHAID的有力特征

3.3.3CHAID的局限性

4、CHAID的应用案例

4.1购物中心使用者的测量

4.2不使用CHAID的调查报告

4.3使用CHAID的调查报告

4.3.1剧院

4.3.2儿童乐园

4.3.3展览中心

4.4使用CHAID――分析者的观点

4.5使用CHAID:购物中心管理者的观点

5、结束语

参考书目“公务员之家”版权所有

1.市场细分概述

1956年温德尔?史密斯提出了“市场细分”的概念,认为一个市场的顾客是有差异的,他们有不同的需要,寻求不同的利益,企业应该对市场加以区分。这一概念在营销实践中已经产生了强大的功能。市场细分有助于营销者确定市场开发重点,制定有效的市场策略,从而在激烈的市场竞争中取得优势地位;另一方面市场细分也有助于企业降低营销成本。当然,这一切的实现需要依靠科学的市场细分方法。

数据分析方法范文第4篇

一、公路管理对大数据分析的需求

从大数据分析技术发展现状而言,我国的大数据产业已经比较成熟,公路在发展中也形成了海量数据,数据量、数据种类等都呈现爆炸式增长,大大增加了公路管理数据存储、数据使用、数据查询的成本。目前很多公路管理部门都无法很好的应用现有数据,也不能直接丢弃,致使数据存储成本逐年增大,难以发挥出数据的价值和作用。而采用大数据分析技术,能够大幅度提升公路管理单位数据综合应用水平,从海量数据中快速、准确地挖掘出有价值的数据,为公路管理决策的制定提供真实有效的数据支撑,从而提升公路管理的信息化、智能化、智慧化水平。因此,公路管理对大数据分析技术有非常迫切的需求。

二、公路管理大数据分析平台设计思路

公路在运营管理中会产生大量数据,为保证这些数据能够被良好的管理和使用,发挥出数据应有的价值和作用,需要公路运营管理单位,组建起一个级别不小于企业级的大数据分析平台,以便对公路管理中的各项数据进行有效的采集、分析、管理和存储。比如:TDH数据管理分析平台就是目前公路管理中比较常用的大数据分析平台,是一种典型分布式结构系统,数据分析、数据存储效率非常高,而且还能实现一站式服务。既能实现公路数据的存储和计算,又可以为数据的处理和应用,提供必要的平台,能够满足公路管理大数据分析的各项要求。当公路运营管理中数据进入TDH企业级一站式大数据分析平台之后,需要通过数据格式转换后,才能将数据汇总到一个平台上进行集中管理。再进行批量化处理,就能形成明细层、汇总层、模型层。历史数据可直接存储到Search搜索引擎中,在使用时只要输入关键字或者关键词,就能快速检索到所需的历史数据。而那些非结构化数据,可直接存储到Hyperbase搜索引擎中进行存储管理。为提升TDH企业级一站式大数据分析平台中的数据分析和处理质量,可借助Governor系统来对各项数据元数据进行集中管理,包括:数据增删、数据更改、新数据录入等,同时还能对不同数据的影响关系进行分析,从而提升各项数据之间的关联性,在数据使用检索中,只要快速找到其中一个数据,其他管理数据也会被检索出来,便于管理人员参考和使用。而对于那些上层数据的应用,可采用标准化的JDBC或者ODBC直接和TDH企业级一站式大数据分析平台相互对接,以满足数据快速挖掘的需求,为公路管理提供必要的参考和指导。

三、大数据分析在公路管理中的应用

(一)在ETC用户和车辆引导管理中的应用

ETC用户和车辆引导管理是公路管理的重中之重,为提升公路管理水平,可选择Apriori算法,来分析各数据之间的关联性,为公路使用用户提供必要的信息服务,比如:可通过大数据分析技术,可按照用户车辆迁徙路线,快速制定出相关的线路信息推送服务。通过分析客户车辆经过的历史地点的历史数据,再利用大数据可视化的特点,推算出用户未来一段时间内的驾驶线路,并为用户提供必要的信息支持和数据服务,提升公路服务管理水平,为客户出行提供更加精准的信息数据服务。

(二)在公路运营优化管理中的应用

运营管理是公路管理的核心内容,其管理水平,直接关系到公路管理企业的经营发展水平,应用大数据分析技术,可通过流式机器自动学习的功能,对公路运营管理情况进行详细的分析,实现提前预警、提前指挥、提前管理,便于统一调度和集中指挥。利用TDH企业级一站式大数据分析平台,对各项数据进行分析,就可以为公路运营管理提供决策依据。利用ST-ResNet大数据分析技术,可对公路上行驶车辆的密度进行预测,主要机理是:将公路先划分成若干个矩形小区域,进行多区域同时分析,就能实现整体性预测,通过分析公路的时间属性、空间数据、外部天气数据等,就能获得公路上行驶车辆的密度。

(三)在稽查分析管理中的应用

在公路管理中应用大数据分析技术还能实现逃费稽查分析、出入口流水对比分析等。主要是利用Inceptor大数据分析技术对原始的交易流水进行全面分析,可快速获得逃费稽查和出入口流量的相关历史特征,包括:车辆一周、一个月、半年的缴费信息诉讼费,各缴费出入口每年各时间段的出入流量信息。可采用融合时序预测模型和异常检测模型相互结合的方法,来提升公路管理稽查分析管理水平,具体的实现过程如下:第1,先通过discover大数据分布式时序预测方法,来预测每个出入口的车辆流量,同时和目前采集到的数据进行对比分析。如果对比结果显示,实际流量低于预测流量,就表明可能存在逃费稽查情况。第2,利用iforest算法和无监督算法来检测各项数据是否存在异常,如果存在异常,则表明车辆存在逃费现象。融合时序预测模型和异常检测模型相互结合的方法,比单一的检测模型,预测逃费稽查的准确性更高,可同时发出两种检测模型的优势。

(四)在联合指挥和应急资源调度中的应用

公路在运行中难免会发生突发事件,如果处理不及时或者处理方法不当,可能会引起更加严重的安全事故。利用大数据分析技术,可将公路运行中形成的各项数据汇总到一个平台上进行分析管理,将突发事件的数据全部呈现在应急事件智慧管理平台上,形成联合指挥。应急事件智慧管理部门可通过“挂图作战”方式,制定科学有效的应急措施,尽快处理解决突发应急事件,尽快恢复公路交通,实现突发事件信息汇总、应急指挥管理、应急资源管理、应急过程管理的信息化和数字化,降低突发事件造成的损失和危害。

四、结语

数据分析方法范文第5篇

【关键词】概率论;数理统计;大数据;数据分析;应用策略

0.引言

在人们的生产生活中,概率学知识在方方面面中得到了广泛的应用,它是我们对世界进行更深刻认识的重要工具,通过概率学与数理统计工具的应用,能够使人们对各种复杂的问题及数据进行冷静科学的分析,从而使人们的生活质量得到显著提高,并且能够根据已有的数据对事物的演变规律及发展趋势进行准确预测。正是因为这些优势,使概率论与数理统计成为许多复杂问题的指引。如今,人们对大数据的分析需求越来越迫切,这也使人们急需一种能够适用于大数据分析的有效方法来解决实际生产生活中的复杂问题。鉴于此,以下便对概率论与数理统计在大数据分析中的相关应用策略进行探讨,希望能为人们在生产生活中的大数据分析提供相应的参考建议。

1.概率论与数理统计的含义

在高等数学中,概率论与数理统计方法一种具备鲜明特征的分析,其在研究对象上具有非常独特的思维特征,并且它和其他学科特别是经济学科存在着非常紧密的联系。概率论与数理统计的内容非常丰富,这也使其成为数学学科中的重要组成部分。现阶段,概率论与数理统计方法在各个领域中都得到了非常广泛的应用。从当前来看,概率论与数理统计可以看作是一种较为独立的学科,它在人们的生产生活当中发挥着巨大的作用,不论是在工业领域还是在其他领域,概率论与数理统计方法对信息技术的要求都非常严格,利用概率论与数理统计方法在大数据分析中具有着无可比拟的优势。同时,其又不属于独立学科,这是因为它和其他学科存在着紧密的内在联系,具有相互渗透的作用,正是因为概率论与数理统计的涵盖范围与应用范围非常广泛,这也使人们难以对其进行逐一解释。因此,本文只对概率与数理统计在其中几个方面中的应用策略进行了探讨,以此明确概率论与数理统计在大数据中的具体应用及作用。

2.概率论与数理统计和大数据分析的密切联系及常用方法

2.1概率论与数理统计和大数据分析的密切联系

大数据时代的来临,使人们能够利用概率论与数理统计来对大数据进行分析,这也使其和大数据分析具备着密切的联系,其联系主要集中在以下四个方面,首先,概率论与数理统计和大数据分析的研究目标是相同的,都是为了对数据结构进行探索与明确,以此找出大数据的内部联系与规律。其次,大数据的不断发展,使大数据分析为统计学开拓出了一个新的应用空间,这也为概率论与数理统计的研究提供了一个全新的课题,通过对大数据的分析,能够极大程度的推动概率论与数理统计的发展。再次,大数据分析并不属于统计学中的一种分支,大数据分析还能够广泛应用于其他领域当中,能够为其他领域提供新的思想、工具与方法,例如利用大数据分析可以使机器进行学习,并能够实现数据存储等。最后,概率论与数理统计是DM中一种应用非常广泛而又较为成熟的解决问题方法与技术,其在DM中占据着极为重要的地位。

2.2概率论与数理统计在大数据分析中的常用方法

概率论与数理统计在大数据分析中的常用方法主要有两种,一种是层次分析法,另一种是蒙特卡罗法,所谓层次分析法是指当人们对某些不确定因素的演变规律及发展趋势进行研究时,必须要对这些因素的影响作用及相互联系进行综合考虑,由于评价指标中的这些不确定性因素是可以按照层次进行划分的,同时,在各个层次中的不确定性因素内还包含着若干要素,这就使整个复杂问题的结构看上去是一种多级递阶结构,在对这类问题进行解决时,就可以采用层次分析法来对这些层次中的不确定性因素对于整个问题的相对重要度进行判断,而这便产生了概率。在应用层次分析法时,应通过四个步骤来建立数学模型,第一个步骤是先对问题中的各个因素进行明确,然后对这些因素进行层次划分,使整个问题的结构属于一种递阶层次结构,然后以上一级的要素作为准则来对下一级的要素实施两两对比,并按照评定尺度来对下一级要素对于上一级要素的重要程度进行确定,并构建出相应的判断矩阵,然后对问题中的各个要素的相对重要度进行计算,同时计算出该问题的综合重要度,进而给决策者带来可靠的决策支持保证。蒙特卡罗法则是在概率论与数理统计的基础上对问题中的不确定性因素进行反复随机的抽样,以此模拟出该不确定性因素的自身变化给问题带来的影响程度,并对问题中的所有不确定因素给问题带来的影响进行计算分析,进而获得科学的分析结果。蒙特卡罗法能够对问题的实际过程进行真实模拟,这也使其在对实际问题的解决上具有十分显著的效果。蒙特卡罗法的数学表达式是Z=k(x1,x2,x3,...,xn),在该数学表达式中,xi(i=1,2,3,...,n)代表该复杂问题中存在n个互相独立的随机变量,例如在对问题产生影响的所有不确定性因素中,这些不确定性因素便是变量且呈概率分布特征,n个变量的函数则是Z,而这也正是需要求解的目标。

3.概率论与数理统计在大数据分析中的应用策略

3.1概率论与数理统计在经济数据分析中的应用策略

在大数据时代,数据对于经济的作用是不言而喻的,而在各种类型的数据当中,经济数据是最为常见的类型,对这些经济数据的分析对于推动社会经济发展具有着十分重要的意义。由于经济数据在互联网中是以低密度形式存在的,这也给人们对经济数据的分析带来较大的难度。而利用概率论与数理统计来对经济数据进行分析,则不失为一种简单而有效的方法。例如,利用正态概率分布方法来对经济数据分析,该方法能够对连续性随机变量的概率进行预测与描述,而这种概率方法也被普遍应用到经济金融管理领域当中。利用该方法能够使人们能过概率论与数理统计来对概率的所有相关信息进行快速而又高效的分析,并按照分析结果来对市场经济状况进行实时掌握,使人们能够了解市场经济规律,并从中分析出更多的经济信息,通过这些信息的帮助来对后续的决策与计划进行灵活的制定与调整。经济市场是变幻莫测的,但在变化上却不会过于离谱,而对经济数据的分析除了要对经济市场的变化规律及发展趋势进行预测,还要考虑经济市场中的风险性,风险的存在是利益的获取并不总是一成不变的,但通过对经济数据的分析能够找出相应的应对措施来避免这些问题。对于经济风险来说,要想避免经济风险的产生,利用概率论与数理统计能够有效降低经济风险的发生概率,而这也是人们最常采用的应对方法。以股票投资为例,利用概率论与数理统计方法来对经济数据进行分析,可以显而易见的看出投资股票的数量越多,则利润的产生概率要比投资股票数量少的要高的多,而这正是通过概率论与数理统计方法得到的,因此,在投资决策中,更多的投资者往往会将资金分散到更多的股票当中来降低风险,而这就使投资者的利润获得概率大大提高,由此可见,概率论与数理统计在经济数据分析中具有显著的作用。

3.2概率论与数理统计在商业数据分析中的应用策略

在大数据环境中,商业数据对于企业的重要性是不言而喻的,商业数据与经济数据存在一定的联系,商业数据属于经济数据的一种,但经济数据却不一定是商业数据。企业在对商业数据进行分析时,概率论与数理统计是最为常用的一种方法。以商业数据中的大客户流失概率为例来对概率论与数理统计在商业数据中的应用策略进行探讨。首先需要建立研究模型,在模型建立时需要确保满足以下条件,其一是大客户的基本属性应当是相近的,并且流失数据能够满足相同的流失函数f0(t)。其二是流失数据的分布条件均来自于流失函数指数项exp(c,zi)T,然后找出哪些因素给大客户的流失概率造成较大影响,对数h0(t)据进行归类并设定特定时段,然后对特定情况中的大客户流失情况进行汇总,并获得流失情况走势图,然后计算出走势图的标准函数,即F(t,ziT)=f0(t)•exp(c,ziT),进而获得某个确定客户在某一时间中的流失概率与所在流失函数中的位置,客户在[0,T]时期内的流失概率为p=exp(-T0乙F(t,ziT)dt),p维回归参数的向量为c,p维协变量向量为ZiT,并将该协变量当作一种影响因素进行定义,进而完成研究模型的构建。其次,在研究模型建立后,便要选择参数与协变量,然后通过最大偏似然函数对这些选择的回归参数进行计算。由于计算过程中对于大客户流失的影响因素有多个,如果将所有因素全部定义成协变量,则会使模型维数更多,进而使参数估计难度大大提升,这也使参数的估计正确率无法得到保证。因此,需要对这些因素进行选择性使用,为了对协变量的数量进行确定,应按照数理统计结果进行筛选,这样才能避免错误的产生。

4.结语

综上所述,概率论与数理统计在大数据分析中的作用是非常明显的,现如今,概率论与数理统计在大数据分析中已经不再是一种辅助分析工具,更是一个简单而又高效的分析方法。通过概率论与数理统计的应用,对于大数据中各类数据的过程、趋势、效果等都已经成为人们进行数据分析时的分析对象。面对大数据的高速增长趋势,应用概率论与数理统计来进行大数据分析,将更有助于推动人们生产生活的发展,促进我国经济的快速增长。

【参考文献】

[1]高侨,周琦.概率论与数理统计在日常生活中的应用研究[J].数学学习与研究,2015,(19):132.

[2]王淑玲.概率论与数理统计在经济生活中的应用[J].科技信息,2009,(21):224.

[3]许可.概率论与数理统计在信息论中的应用[J].科技信息(学术研究),2008,(10):110-111+114.