首页 > 文章中心 > 数据分析设计

数据分析设计范文精选

数据分析设计

数据分析设计范文第1篇

关键词:国土空间基础平台;分布式;数据库;海量数据;HBase

0引言

国土空间基础信息平台按照“共建、共用、互联、共享”的原则,集成整合并统一管理各级各类国土空间数据信息,为统一行使全民所有自然资源资产所有者职责、统一行使所有国土空间用途管制和生态保护修复职责,提升国土空间治理体系和治理能力现代化水平,提供基础服务、数据服务、专题服务和业务应用服务,是国家重要的空间基础设施[1]。部级国土空间基础信息平台采用“1个主中心+N个分中心”的分布式建设模式,如图1所示,数据物理分散、逻辑一体,通过平台集中展现、调度。当前,主中心和部分分中心主要通过数据服务集成的方式实现数据集成和共享,该种方式可以满足大多用户的日常空间数据浏览、查询、统计等基本需求,由于数据异构存储及数据服务方式本身的局限性,难以实现跨数据中心的数据深度融合计算。涉及多数据中心数据的全国国土空间规划纲要编制前期研究、执法督察、全国“三区三线”(指城镇空间、农业空间、生态空间三种类型空间所对应的区域,以及分别对应划定的城镇开发边界、耕地和永久基本田保护红线、生态保护红线三条控制线)划定成果的比对分析等复杂空间计算分析,目前,仍采用数据分中心数据库整库物理迁移到主数据中心统一集中计算分析的方式。为维护数据的现势性,该方式数据库迁移成本较高,因此,开展分布式数据库建设十分必要,通过对各数据中心数据进行统一的分布式存储管理,实现数据可以跨数据中心进行任何形式的高效融合计算。面向部级海量空间数据的分布式存储、管理、计算的实际应用需求,本文提出了基于HBase分布式数据库存储架构。

1基于HBase的分布式存储和管理现状

近年来,分布式海量空间数据的存储和管理成为研究热点[2-3],HBase拥有高可靠性、高性能、可伸缩、实时读写的空间数据管理能力,成为分布式空间数据存储和管理的主流技术之一。HBase既支持多种数据格式存储,又具有较强的数据查询、读写与扩展能力,适用于需要实时读写、随机访问超大规模数据的场景[4]。已有的研究基于HBase开展了分布式空间数据的存储管理、计算等[5-9],相关的云企业和GIS企业也提出和研发了基于HBase的产品。华为云CloudTable提供基于HBase的分布式、可伸缩、全托管的NoSQL数据存储服务,集成OpenTSDB和GeoMesa并提供时序数据库和时空数据库功能,提供了毫秒级的随机读写能力,适用于海量结构化数据、半结构化数据、时序数据和时空位置数据的存储和查询应用,已广泛应用于物联网、车联网、金融、智慧城市、气象等海量数据存储和在线查询的场景[10]。阿里云推出的HBaseGanos是支持空间、时空、栅格、影像一体化管理的时空大数据引擎系统,系统集成GeoMesa和GeoServer,提供海量时空数据查询、分析、共享功能,已广泛应用于互联网出行、实时GIS、IoT等海量时空大数据存储、查询、分析与数据挖掘[11]。SuperMapSDX+引擎,该引擎主要支持UDBX、HBase、PostGIS、HDFS、MongoDB、Elasticsearch等存储数据库,其中,HBase数据库引擎支持多种数据格式和坐标,提供海量数据高并发、高效查询功能,具有高性能、可弹性伸缩及分布式特性,支持PB级大数据存储,同时满足千万级QPS并发,是分布式空间数据存储和管理的首选[12]。本文针对部级国土空间基础信息平台“1个主中心+N个分中心”的分布式架构,提出基于HBase+GeoMesa的分布式数据库存储架构。HBase作为分布式数据库管理系统,负责数据库管理,GeoMesa作为空间数据库引擎,实现空间数据解析和空间索引。本文开发了系统原型,实现了ArcSDE数据库迁移和分布式数据库权限管理,并对关键技术进行验证。结果表明,利用该技术路线可实现跨数据中心的数据高效融合计算。

2总体设计

2.1数据库存储策略设计

2.1.1数据中心数据库设计考虑到数据中心之间的数据共享需求,本文按照“谁生产、谁负责”的原则,将各个数据中心数据库设计为联合的数据库集群,这有利于提升基于跨数据中心的空间大数据分析计算性能。联合的数据库集群设计前提是在部级数据中心之间建立千兆甚至万兆级光纤网络,为分布式数据库提供数据传输支撑。2.1.2数据存储现势数据是指当前或近几年经常访问的空间数据,历史数据是指访问频次较低、年代久远的数据。现势数据和历史数据分开存储在不同的数据库集群中,有利于将优势的计算机资源(硬盘I/O、内存和CPU)分配给访问频次高、性能要求高的现势数据。为提供更高效的数据服务,相比历史数据,现势数据存储较多的副本。2.1.3计算机资源共用空间大数据的查询和计算等任务的性能瓶颈主要存在空间查询方面,纯粹的计算需求相对较少,但在很多场景下,仍然需要借助并行计算框架提高任务并行度。因此,本文采取数据库集群与计算集群共用计算机资源的设计策略,这样既可以满足任务并行计算需求和分布式数据库查询需求,又不会造成CPU等计算资源争用冲突。

2.2数据库逻辑架构设计

分布式数据库逻辑架构设计如图2所示,包括HDFS、HBase、ZooKeeper和数据客户端四个组成部分。HDFS负责存储数据实体文件;HBase负责分布式数据库管理;ZooKeeper作为分布式协调组件,协助HBase做分布式管理;数据客户端通过ZooKeeper连接HBase。2.2.1HBase客户端接口HBase客户端接口包括NativeJavaAPI、HBaseShell、Thrift、REST、Pig、Hive等。本设计方案采用GeoMesa作为空间数据库引擎,GeoMesa是基于NativeJavaAPI封装的HBase客户端,能够实现对HBase空间数据的访问。2.2.2ZooKeeperApacheZooKeeper是HBase集群的一个关键组件,主要作用是保证HBase集群只有一个HMaster节点,存储HBase数据库模式和数据库表的元数据,实时监控RegionServer的上线和下线信息,并实时通知给HMaster存储所有的Region寻址入口。2.2.3HBaseHBase服务端包括1个主服务器HMaster和多个Region服务器RegionServer。主服务器HMaster负责管理和维护HBase表的分区信息,维护Region服务器列表,分配Region,实现负载均衡。Region服务器RegionServer负责存储和维护分配的Region,处理客户端的读写请求。2.2.4HDFSHDFS包括NameNode、DataNode和SecondaryNameNode。NameNode主要用于协调集群中的数据存储,管理HDFS的名称空间和数据块映射的信息,配置文件副本策略和处理客户端的请求。DataNode用于存放具体数据块的节点,主要负责数据读写,定期向NameNode发送心跳。SecondaryNameNode辅助NameNode收集文件系统运行的状态信息,分担工作量。

2.3关键技术

2.3.1空间数据索引空间数据索引是空间数据库性能的关键。空间数据索引主要包括网格索引、四叉树索引、R树索引、Z索引等模型。本文采用Z索引技术通过GeoMesa构建空间数据库。Z索引以一条二维或三维空间填充曲线的点值作为关键字,表达经度、纬度和时间,并将数据记录存储在Key-Value数据库。二维Z索引的二阶曲线如3所示。对于二阶曲线,16个网格单元的地理编码可以用4个比特(xyxy)表达。以左上角的网格单元为例,x值是00,y值是11,Geohash值就是0101。在HBase数据库中,GeoMesa空间数据的Key-Value存储结构如图4所示。在图4中,Z3(x,y,t)利用8个字节存储空间数据索引,即Z索引;VALUE是存储空间数据实体数据的部分。2.3.2负载均衡HBase通过Region数量实现负载均衡。HBase提供全局计划、随机分配计划和批量启动分配计划三种负载均衡技术。全局计划是最常见的负载均衡,贯穿于整个集群的平衡运行期,以特定时间间隔执行负载均衡。随机分配计划适用于为新加入的RegionServer随机分配Region。批量启动分配计划应用于集群启动时,决定将Region分配到哪台机器。2.3.3读写分离通过以下两种方法提高数据库查询响应性能。(1)通过设置hbase.ipc.server.callqueue.read.ratio参数,为数据库读取设置较多的响应线程,优先处理读请求。(2)通过合理设置Key,使得Hbase把当前读取和写入的数据分配到不同的region,实现读写分离。

3系统部署

按照“1个主中心+N个分中心”的设计要求,数据库物理部署设计分为1个主中心和N个部级分中心。数据库物理部署设计如图5所示。主中心部署HDFS集群和HBase集群,其中集群主节点1部署HDFS的NameNode、HBase的HMaster、ZooKeeper集群节点ZooKeeper1,以及HDFS的DataNode和HBase的RegionServer。N个分中心主要部署HDFS的DataNode和HBase的RegionServer。需要强调的是,1个分中心需要设立主节点2,部署ZooKeeper2和HDFS的SecondaryNameNode。另外1个分中心需要在1个节点上部署ZooKeeper3(图5已省略)。主中心和各个部级分中心都可以通过ZooKeeper集群找到分布式数据库地址,将各自的数据存储到分布式数据库。每个数据保留多个副本,副本可存储在本中心的节点,也可存储在其他中心的节点。ZooKeeper集群的3个节点分别部署在主中心和2个分中心的服务器,HDFS的NameNode和SecondaryNameNode也部署在主中心和1个分中心的服务器,集群存储每个数据的多个副本。这样的多项设计策略可最大限度地保障数据库集群的鲁棒性,在1个中心失联或多个数据库集群节点宕机的情况下,仍然能保证数据库集群的正常运行和服务。根据现势数据和历史数据分开存储的存储策略,分布式数据库集群分为现势数据数据库集群和历史数据数据库集群,2个集群均采用图5的物理部署设计。其中,历史数据数据库集群分配的集群节点较少,现势数据数据库集群分配的集群节点较多,历史数据数据库集群节点同时作为现势数据数据库集群节点,这样可以最大限度地利用集群资源。为了避免集群互相干扰,历史数据数据库集群可采用Docker容器部署。

4实验测试

本文为验证基于HBase的分布式数据库存储架构的可行性,利用不同可用区的华为云服务器建立分布式存储环境,进行矢量数据的分布式空间运算应用案例测试。

4.1测试环境

测试环境基于华为云搭建,由1个主节点、2个分节点组成,HBase版本为2.0。主节点和分节点均配置8核、16GB内存、500G硬盘,网络为4.5千兆网。

4.2测试结果分析

该测试采用永久基本农田数据和土地利用数据,相关测试数据通过GeoMesaAPI、GeoToolsAPI实现从OracleArcSDE到Hbase的迁移。永久基本农田数据和土地利用数据均为面状数据,永久基本农田数据约包括1200万条记录,土地利用数据约包括1030万条记录。为验证地域对空间运算的影响,该实验分别利用华为云相同可用区和不同可用区模拟1个数据中心部署分布式数据库和多中心部署分布式数据库的情形,并在两种条件下执行基本农田数据和土地利用数据的求交分析,记录分析计算的完成耗时。实验结果显示,两个图层的相交结果约为1460万条记录。相同可用区求交耗时51分钟,不同可用区耗时52分钟,差异几乎可以忽略。该结果表明,基于HBase的分布式数据库集群节点在地域分布条件下,可以准确高效地完成分析计算任务,网络环境如果达到4.5Gbit/s(4.5千兆)以上,则不影响数据库集群的查询性能和计算集群的计算性能。考虑未来分布式国土空间基础信息平台运行的高效稳定,本文建议各中心采用万兆网相连。

5结束语

数据分析设计范文第2篇

关键词:网络安全防御;感知数据源;防御链条;安全策略

0引言

目前,网络安全防御技术功能单一,防御能力低[1],不同的安全技术只能相应解决一个问题,难以满足安全防御的需求。基于此,提出基于大数据分析的网络安全防御技术设计。网络安全方面,要综合分析信息内容安全和物理安全两方面,确保网络中的物理安全,并保护信息安全,避免信息遭受破坏或者泄露。通过建立网络安全数据库,分析网络数据,形成数据安全策略,构建预警体系,实现基于大数据分析的网络安全防御。通过建立合理的网络安全防御措施,保障信息不被窃取、破坏,为计算机网络安全和数据信息价值发挥提供重要保证。以下是大数据时代计算机网络安全防御技术的具体设计过程。

1基于大数据分析的网络安全防御技术设计

1.1建立网络安全数据库

网络安全数据繁杂且结构异化,需要从网络安全大数据中挖掘与安全相关的数据,才能对防御决策发挥作用。建立感知数据源,确定要采集的数据源[2],采集防御链条下的终端、边界、服务和应用等各类安全数据,收集威胁网络安全的数据,存储到大数据平台,形成原始的安全数据仓库,并追踪网络攻击。设计时,将感知数据源覆盖整个网络攻击下的每个要素,保证攻击信息整体录入,记录和采集相关数据[3],实现海量感知数据元的存储与集中管理。在此基础上,整合分布式文件系统、关系数据库等,构建混合形式的数据库,满足所有数据存储的需求,为网络数据分析提供数据基础。

1.2网络数据分析

获取网络被攻击后产生的数据,结合网络安全数据字典进行分析,生成网络安全摘要数据库,评价数据安全问题和安全隐患。分析有威胁的数据时,进行数据预处理,通过特征提取、数据融合等方式[4],将原始数据重新组织并形成基础的数据关系图,采用攻击树模型方法分析攻击数据。构建攻击树模型,推测下一步攻击行为,结合攻击中的数据统计特征,设计数据分析流程、方法和规则,以此形成大数据分析具体模型。运用实时分析、离线分析的方式,深度挖掘预处理后的数据,以此发现数据中潜在的威胁,实现网络数据分析。

1.3引入数据检测技术

为保证网络数据的安全,通过数据存储、数据管理、数据应用三方面,建立数据安全策略,具体步骤如下。第一,在电脑上安装专业的硬件或者软件防火墙,隔离非法请求。建立相应的入侵检测机制,通过电脑终端检测分析业务请求,判断数据业务请求是否合法[5]。第二,建立数据管理方面的安全策略,构建安全管理制度,包括网络管理制度。加强大数据环境下的数据安全管理规范性,培训管理人员,加强管理人员的安全意识,为网络数据安全提供制度保障。此外,备份数据,如果数据出现损坏,可以通过数据备份还原损坏数据,将数据损坏降到最低。第三,建立数据应用方面的安全策略,保障大数据环境下数据应用的网络安全。采用加密技术加密数据,使数据在传输过程中转化为密文数据,防止数据被窃取,即使出现窃取情况,也因没有密钥而无法获取信息,提高数据传输的安全性,达到维护网络安全的目的。控制数据访问对象,对于想要访问数据的用户,必须进行身份认证,严格限制非认证客户的访问权限,保证访问数据的用户都是认证后的数据,最大限度保证网络安全。

1.4构建安全预警机制

在建立网络安全数据库、网络数据分析和引入数据检测技术的基础上,构建安全预警机制。利用大数据的分析结果,分析攻击者的行为路线和个性特征,汇总分析根据攻击者的攻击行为数据,描述攻击者的行为特点,分类攻击者的行为路线,作为防御依据,并根据攻击者的行为数据进行监测和提前报警。将访问者的行为数据形成摘要数据信息,在此基础上进行安全评价。因为攻击者的行为数据一般以定性数据的形式出现,这类数据不利于计算机分析,所以要量化处理定性数据,处理完成后构建预警体系。预警评价内容包括是否存在危险人员、哪些行为存在威胁,可进一步判断用户访问行为存在的具体偏差,预警提醒有安全隐患的行为。读取报警信息,选择控制系统需要的报警信息字段,采用统一的格式编码数据,加密后发送至控制台。控制台接收到加密的报警数据后进行解密,根据响应设备提供的接口,采用相应的协议转换为设备配置命令。当阻断攻击信息中出现的攻击行为时,攻击数据包会被相关系统检测,通过控制台合并、优化、分析和分类报警信息,按照安全策略生成相应规则,实现攻击数据一入侵就报警提醒。控制台接收到报警事件后,生成响应规则并发送到响应,根据收到的设备语法生成相应的控制命令,自动阻断攻击,以此实现基于大数据分析的网络安全防御。通过设计,很大程度上保证网络信息安全,具有一定的实际应用意义。

2结语

网络安全防御系统在安全保障中的意义非常突出。基于此,提出了基于大数据分析的网络安全防御技术。通过分析目前网络中易出现的安全问题,建立安全的网络防御模型,制定数据存储、应用、管理以及危险预警方面的安全防御措施,为网络安全奠定良好基础。希望本次研究能够对网络安全防御提供一定帮助。

参考文献

[1]任恒妮.大数据时代计算机网络安全防御系统设计研究分析[J].电子设计工程,2018,26(12):59-63.

[2]肖霞.基于大数据时代计算机网络安全技术应用研究[J].辽宁高职学报,2018,20(1):73-75.

[3]琚安康,郭渊博,朱泰铭.基于开源工具集的大数据网络安全态势感知及预警架构[J].计算机科学,2017,44(5):125-131.

[4]张华.大数据驱动下主动防御网络安全性评估技术[J].计算机测量与控制,2018,26(10):310-314.

数据分析设计范文第3篇

关键词:财经类院校;专业建设;数据分析;数据挖掘

一、引言

从大环境来看,如今,全球数据量均呈现激增趋势,大数据时代全面到来,这不仅意味着社会需要更多信息分析人才,也说明相关院校要加强信息管理专业人才培养。从本国国情出发,我国从工业社会向以信息资源开发、应用和管理为主要特征的信息化社会转变,计算机技术在各行各业普及应用,对经济管理活动中产生的海量数据进行分析,挖掘出有潜在价值的信息,为管理决策提供依据,是信息管理学科研究的新方向。以目前毕业生就业市场需求情况来看,懂经济、懂计算机同时又能掌握数据分析知识的学生在就业时有相当的优势,这恰好与我们哈尔滨金融学院信息管理专业的人才培养目标一致,如何发挥财经类本科院校的办学优势,建成专业特色,是此次本科教学改革的目标。

二、人才培养目标

对于我们这样有明显“金融特色”的院校,充分发挥在金融领域的办学优势,塑造出自己的金融特色,即:坚持服务于金融行业,跟踪IT发展的前沿,把握财经行业在信息化方面的最新需求,培养学生创新意识和能力,打造金融特色专业:金融信息管理-数据分析方向。培养具有管理学和计算机科学的专业知识,精通金融学、经济学以及数据分析理论与技术,了解数据的商业价值,通晓以清晰直观的形式提供数据分析结果的方法,强调学生掌握现代管理科学思想,掌握现代信息系统的规划、分析、设计、实施和运行维护等方面的方法与技术,同时,更要具有较强的信息系统开发利用以及数据分析处理能力。

三、金融特色信息人才培养模式构建

(一)面向社会需求

2013年3月,IDC数字宇宙报告《大数据,更大的数字身影,最大增长在远东》写到:预计到2020年数字宇宙规模将达到40ZB。在这样的大数据环境下,我国也必然需要更多高素质的信息管理类人才,例如,互联网企业、金融机构、保险、医疗卫生、电子商务、零售企业及政府数据中心等行业对大数据专业人才的需求量都很大。所以,在此情况下,我院有必要在加大人才培养力度的同时,面向社会需求,对信息管理专业数据分析方向人才的培养标准与目标进行重新定位,以确保符合大数据时代提出的新要求,顺应大数据浪潮的发展趋势。例如,未来对具有大数据管理和分析能力的人才需求将快速增长,数据分析师、数据架构师、数据可视化人员、数据监管人员等和大数据相关的职位也将应运而生,因此,我院应当注重培养需要具备深度分析数据能力的专业人才,使其成为能够满足市场需求的高层次复合型人才,为社会发展付出应有之力。

(二)教学特色

课程教学内容归纳为两个模块:“信息系统开发课程”、“数据分析课程”,其中,“信息系统开发课程”又分为“开发技术类课程”和“面向应用的课程”两个子模块,将程序设计类课程与管理信息系统理论课程相结合,以理论指导实践,通过该课程的学习,使学生了解信息系统开发的基本理论和方法、信息系统的实施、运行与管理方法,熟练掌握信息系统的开发工具,最终通过案例实践,深入理解信息系统的分析与设计过程。“数据分析课程”又分为“数据分析方法课程”和“面向应用的数据分析课程”两个子模块,从而形成较为系统的立体化课程体系,数据挖掘是数据分析的核心课程,运筹学是辅助课程,教学目的是使学生掌握数据分析的基本方法和典型工具,了解数据仓库和数据挖掘的基本原理,初步具备利用数据分析和解决实际问题的能力。

(三)制定科学合理的人才培养方案

在制定培养方案的过程中,要以市场需求为导向,设计灵活的人才培养方案,既要高度重视理论知识的学习,又要加强实践能力的培养,为学生搭建实践平台,拓宽实践渠道。极力扩大与企业和科研院所的合作,为学生创造更多的研究、实践机会,在课堂教学环节中,设立一些针对某个合作企业的某些具体问题的研究项目,组织学生在该企业的资助下开展研究。这样既丰富了学生的实践经验又提高了他们的综合分析能力和动手能力,同时还能促进合作企业的创新发展。

四、课程设置

计算机程序设计在数据架构当中起着重要作用,因此,在通识课基础上,从第二学期开始,开设专业基础课:C语言程序设计,专业必修课:面向对象程序设计、数据库、数据结构、Java程序设计、JSP程序设计、Web实战项目(Java方向)等计算机程序设计类课程,以及SPSS、数据挖掘与分析类课程。同时,开设信息管理专业既有体系中的基础课程:信息管理概述、会计学、管理学、统计学、运筹学、信息资源管理、数据库原理及应用、UML与可视化建模、计算机网络技术、银行计算机系统、管理信息系统(含课程设计)、信息系统分析与设计、专业英语等。以及专业选修课:信息检索技术、多媒体技术与应用二选一,电子商务概论、静态网页设计、图形图像处理三选一,IT项目管理、系统工程、ERP原理与应用三选一,企业资源规划、经济法、经济学三选一。

五、强化实践性教学

财经类学校在专业教学方面应该关注实践性课程的设置,它是培养学生理论联系实际能力的关键,实践教学能够帮助学生更加了解学科特点,实践的过程中学生原本零散的知识点得以组合联通,长久以来,高校办学都在坚持以行业需求为导向,以培养学生能力为目标,实现学术与职业特点的融合,要将“隐性”的课外实践逐渐转变为“显性”的实践课程。在落实学生实践学习的过程中,学校要积极引入从业资格课程、职业群集课程等等,强化专业实践,与当地的金融企业建立合作伙伴关系,引入“3+1”的实践教学模式,全面促进学生能力、素质以及知识等综合能力的提升,使其能够更加满足当今市场对人才的各项要求。同时,学校还可以构建校企联盟模式,协同培养人才,充分发挥校企合作的优势,为学校学生提供良好的实践平台以及展现自我的机会,帮助他们客观的认识自身职业的特点,进而有目的的投入实践学习,提升自身能力。实践教学要侧重学生职业能力的培养,要帮助他们更加适合当今市场的需求,树立“厚基础、精专业、强能力”的人才培养目标。最后,要注重实践评价,建立完善的评价体系,通过这样的方式了解学生的实践情况,便于查缺补漏。开展实践教学,要综合多元化的实践渠道,融合先进的教学方式,最大限度将课程体系内容与工作领域的相关知识紧密联系在一起,必须要使学生的专业能力、职能能力得到提升。从多年的实践经验来看,实践教学人才培养模式有效提升了学生的综合素质以及专业水平,有利于学生未来发展与就业,在目前金融类学科教学中应该加以推广。

六、结论

信息管理与信息系统专业是一个多学科交叉、应用以计算机为主的技术解决经济管理问题的专业,应用范围广泛,技术性强。随着信息技术的发展以及信息化建设的推进,信息系统在运行中积累的数据量已经超越管理控制能力,社会对具有数据管理和数据分析能力的人才需求也在迅猛增长,信管专业的建设必须从社会需求的角度出发,重新设计课程体系和教学内容,培养符合经济社会发展需要的人才。

参考文献:

[1]刘婷婷.大数据时代下信息管理与信息系统专业培养模式研究[J].中国电子教育,2014(02).

[2]石洪波.财经院校信息类专业数据管理与分析课程群体系研究[J].高等财经教育研究,2015(09).

[3]闫娜.大数据视角下信息管理与信息系统专业建设研究[J].图书馆学研究,2013(11).

[4]陈红琳.财经类院校信管专业人才培养模式研究[J].科技视界,2013(25).

数据分析设计范文第4篇

【关键词】护理专业;本科生;科研能力;数据分析;医学大数据

《全国护理事业发展规划(2021-2025年)》对护理人才的信息素养与科研创新能力提出了新要求。有专家指出,信息素养在循证护理实践中起着至关重要的作用,也是应对未来社会竞争所需要的一种基本能力[1-2]。科研能力是教育部制定的护理本科生培养目标的重要内容[3]。有研究表明,我国科研人员的信息素养水平对科研创新能力有着显著影响,即信息素养水平高有助于高水平创新成果的产出[4];国内高校教学改革研究领域对于护理本科生的信息素养能力培养已经开始重视[5];护理专业本科生科研兴趣浓厚,参与科研活动需求较高[6]。但是,也有调查显示,我国护理本科生仍存在信息意识薄弱、信息处理技能有待提高、数据分析能力欠缺等信息素养问题;科研能力方面则存在选题困难、科研意识缺乏等问题[7-8];护理专业学生科研意识缺乏和科研能力不足,将成为阻碍护理学科发展的主要障碍[9]。现以华北理工大学《医用大数据分析基础》课程为例,探索体验式案例教学及教师一对一指导的教学方法,对护理本科生的数据分析能力与科研能力的影响。

1对象与方法

1.1研究对象

选取华北理工大学2020级护理本科二年级学生70名为研究对象,其中男生15人,女生55人。按照班组均衡匹配的原则分为实验组35人与对照组35人。

1.2教学方法

1.2.1对照组。采用传统教学方法,具体包括:(1)课前教师利用“学习通APP”上传预习课件及视频、布置预习任务,完成预习。(2)课中教师讲解理论知识,学生按要求完成课上实验操作并撰写报告。(3)课后学生通过“学习通APP”完成章节测试题目。(4)课程结束后进行为期两周的课程设计,提交课程设计报告并进行总结汇报。1.2.2实验组。采用体验式案例教学法和教师一对一指导,具体包括:(1)体验式案例教学法:①教师:设计抽象理论与医学护理实践结合的案例,并以案例为线索开展讲解课程知识点。引导学生分析、总结操作要点,理解知识点在案例中的作用,进行主题探究活动,完成实验报告。②学生:在教师引导下开展体验操作,在操作过程中发现和分析问题并总结实践验证结果,在课程结束后,能够将学习成果应用至课程设计中。实践过程中如不顺利学生需对课前预习内容进行查缺补漏,并在教师的引导下再次进行实践操作,直至完成实验报告撰写。以上教学环节形成了“实践与体验-观察与反思-概括与总结-行动与应用”的四环节循环模式[10]。具体实施步骤如图1所示。(2)一对一教师指导:①开题阶段。学生通过文献资料学习确定研究背景,收集数据并经过小组讨论理解数据反应的问题,在教师引导下明确分析目标和研究任务,确定设计题目。②数据分析阶段。教师通过“学习通”在线解答学生对数据进行规范化和可视化处理,应用训练、评估和分类预测方法中遇到的问题。③报告撰写阶段。定期组织集中交流,以研究小组为单位派出代表汇报研究进度和成果,开展师生间和学生间交叉质疑和辩论,教师负责给出完善和改进意见。

1.3效果评价及方法

1.3.1课程目标。《医用大数据分析基础》课程作为信息技术类医工融合专业拓展课,在护理专业本科阶段第三学期开设。课程培养目标包括:(1)课程目标1:理解医学数据读取、清洗、分析的原理及过程,具备新医科背景下利用数据分析工具开展科学研究的理论基础。(2)课程目标2:掌握数据处理及可视化工具使用,具备利用信息技术进行自主学习与研究的实践操作能力。(3)课程目标3:了解科学计算操作、机器学习方法和神经网络概念,为后续开展科学研究储备理论知识。(4)课程目标4:了解健康中国战略下医用大数据的分析价值和医疗卫生服务融合情况及护理新模式,拓展科研视野、提高科研敏感度。1.3.2考核项目及标准。采用过程化考核方法。总评成绩考核项目包括学生的平时成绩、实验成绩和课程设计成绩3部分,主要考核学生对各知识点的掌握程度、实际应用能力和科研能力。在总评成绩中的权重系数为α1、α2、α3分别是0.2、0.3、0.5,见表1。所有成绩目标分值均采用百分制[11]。表1中的目标分值为各考核环节的满分分值。具体构成、权重系数及考核课程目标情况如下:(1)平时成绩:由课前预习情况、章节测试和课堂表现三项成绩构成。在平时成绩中的权重系数分别为0.4、0.3、0.3。其中预习成绩和章节测试考核课程目标1的达成度,包括辨析数据类型、数据分析原理、函数功能等内容;课堂表现主要考核课程目标1和4,以课堂提问互动方式,结合教学进度考察学生对知识点的掌握与科研视野情况。(2)实验成绩:由8次实验成绩组成,主要考核课程目标2的学生实践动手能力。(3)课程设计成绩:由探究活动、报告撰写和汇报答辩3部分组成。其中报告撰写与汇报答辩对应课程目标4,考察学生的科研视野与创新意识;探究活动对应课程目标3,考察学生对于科学计算及人工智能相关理论的理解。(4)课程目标达成度=学生课程目标考核平均成绩之和/该课程目标分值之和。

1.4统计分析方法

采用SPSS25.0统计软件处理数据,计量资料用“均数±标准差”表示,组间均数比较采用t检验。P<0.05为差异具有统计学意义。

2结果

2.1实验组与对照组课程目标分项成绩与总评成绩比较

课程结束后,两组课程分项成绩和总评成绩见表2。实施体验式案例教学法及一对一课程设计指导后,除了课程目标1两组之间差异无统计学意义(P>0.05)外,实验组的总评成绩和课程目标2~课程目标4的成绩均优于对照组,差异有统计学意义(P<0.05)。

2.2实验组与对照组课程目标达成度分析

(1)课程目标1达成度:实验组与对照组差别不大,均高于0.9(见图2)。说明在理解大数据的各类数据格式、数据清洗的过程及原理方面学生整体情况较好。达成度较高的原因有三个,一是数据读取、处理等基础理论知识难度不大,学生易于掌握;二是预习情况由课件浏览页数和视频观看比例的百分制结果衡量。这部分容易出现“刷题”情况,但是可由课上实验成绩进行检验;三是章节测试属于有标准答案的考核,其答案容易通过网络搜索获得。(2)课程目标2达成度:与课程目标1达成度比较,实验组与对照组的达成度均有下降,且实验组成绩优于对照组(见图2)。说明体验式案例教学能够对提高学生的数据分析能力产生效果。在轻松愉悦的氛围下,以案例为线索将知识点进行串联讲解,注重知识与实践应用的结合、学习兴趣的培养,学生通过四环节循环的教学模式能够更好地理解所涉知识点的具体应用场景及使用方法,在面对医学数据时能够快速选择正确的读取及整理方法,完成数据的可视化操作,并撰写较高质量的实验报告。而对照组使用传统教学方式,注重理论知识与语法细节讲解,演示案例以解决经典数学问题为主,因此在完成医学数据分析时,学生虽然能够按照要求基本完成指定操作,但在完成时长与质量上与实验组存在一定差异。(3)课程目标3达成度:与前两项达成度比较实验组与对照组均下降明显,但两组差别不大,均略高于预期目标值0.65(见图2)。达成度不高的主要原因有二,一是由于课时限制,此部分所涉内容仅做简单介绍,学生没有产生深入了解学习的兴趣;二是本校护理本科一年级未开设与数理统计相关课程,学生没有相关理论知识基础,难以接受与理解,学习动力不足。(4)课程目标4达成度:与课程目标3达成度比较实验组达成度有明显上升,而对照组略有上升,实验组成绩明显优于对照组(见图2)。实验组的学生展现出了极高的科研热情,实验组学生大部分进行了自主选题,如获取招聘网站数据分析全国34省份护理人员需求、分析脑卒中病患后期护理数据集、分析指定区域5岁以下儿童及孕妇死亡率等,能力较强的小组开展探索性分析,使用机器学习算法及相关模型对数据进行训练、评估和分类、预测,科研能力得到了显著提升。

3讨论

数据分析设计范文第5篇

一、公路管理对大数据分析的需求

从大数据分析技术发展现状而言,我国的大数据产业已经比较成熟,公路在发展中也形成了海量数据,数据量、数据种类等都呈现爆炸式增长,大大增加了公路管理数据存储、数据使用、数据查询的成本。目前很多公路管理部门都无法很好的应用现有数据,也不能直接丢弃,致使数据存储成本逐年增大,难以发挥出数据的价值和作用。而采用大数据分析技术,能够大幅度提升公路管理单位数据综合应用水平,从海量数据中快速、准确地挖掘出有价值的数据,为公路管理决策的制定提供真实有效的数据支撑,从而提升公路管理的信息化、智能化、智慧化水平。因此,公路管理对大数据分析技术有非常迫切的需求。

二、公路管理大数据分析平台设计思路

公路在运营管理中会产生大量数据,为保证这些数据能够被良好的管理和使用,发挥出数据应有的价值和作用,需要公路运营管理单位,组建起一个级别不小于企业级的大数据分析平台,以便对公路管理中的各项数据进行有效的采集、分析、管理和存储。比如:TDH数据管理分析平台就是目前公路管理中比较常用的大数据分析平台,是一种典型分布式结构系统,数据分析、数据存储效率非常高,而且还能实现一站式服务。既能实现公路数据的存储和计算,又可以为数据的处理和应用,提供必要的平台,能够满足公路管理大数据分析的各项要求。当公路运营管理中数据进入TDH企业级一站式大数据分析平台之后,需要通过数据格式转换后,才能将数据汇总到一个平台上进行集中管理。再进行批量化处理,就能形成明细层、汇总层、模型层。历史数据可直接存储到Search搜索引擎中,在使用时只要输入关键字或者关键词,就能快速检索到所需的历史数据。而那些非结构化数据,可直接存储到Hyperbase搜索引擎中进行存储管理。为提升TDH企业级一站式大数据分析平台中的数据分析和处理质量,可借助Governor系统来对各项数据元数据进行集中管理,包括:数据增删、数据更改、新数据录入等,同时还能对不同数据的影响关系进行分析,从而提升各项数据之间的关联性,在数据使用检索中,只要快速找到其中一个数据,其他管理数据也会被检索出来,便于管理人员参考和使用。而对于那些上层数据的应用,可采用标准化的JDBC或者ODBC直接和TDH企业级一站式大数据分析平台相互对接,以满足数据快速挖掘的需求,为公路管理提供必要的参考和指导。

三、大数据分析在公路管理中的应用

(一)在ETC用户和车辆引导管理中的应用

ETC用户和车辆引导管理是公路管理的重中之重,为提升公路管理水平,可选择Apriori算法,来分析各数据之间的关联性,为公路使用用户提供必要的信息服务,比如:可通过大数据分析技术,可按照用户车辆迁徙路线,快速制定出相关的线路信息推送服务。通过分析客户车辆经过的历史地点的历史数据,再利用大数据可视化的特点,推算出用户未来一段时间内的驾驶线路,并为用户提供必要的信息支持和数据服务,提升公路服务管理水平,为客户出行提供更加精准的信息数据服务。

(二)在公路运营优化管理中的应用

运营管理是公路管理的核心内容,其管理水平,直接关系到公路管理企业的经营发展水平,应用大数据分析技术,可通过流式机器自动学习的功能,对公路运营管理情况进行详细的分析,实现提前预警、提前指挥、提前管理,便于统一调度和集中指挥。利用TDH企业级一站式大数据分析平台,对各项数据进行分析,就可以为公路运营管理提供决策依据。利用ST-ResNet大数据分析技术,可对公路上行驶车辆的密度进行预测,主要机理是:将公路先划分成若干个矩形小区域,进行多区域同时分析,就能实现整体性预测,通过分析公路的时间属性、空间数据、外部天气数据等,就能获得公路上行驶车辆的密度。

(三)在稽查分析管理中的应用

在公路管理中应用大数据分析技术还能实现逃费稽查分析、出入口流水对比分析等。主要是利用Inceptor大数据分析技术对原始的交易流水进行全面分析,可快速获得逃费稽查和出入口流量的相关历史特征,包括:车辆一周、一个月、半年的缴费信息诉讼费,各缴费出入口每年各时间段的出入流量信息。可采用融合时序预测模型和异常检测模型相互结合的方法,来提升公路管理稽查分析管理水平,具体的实现过程如下:第1,先通过discover大数据分布式时序预测方法,来预测每个出入口的车辆流量,同时和目前采集到的数据进行对比分析。如果对比结果显示,实际流量低于预测流量,就表明可能存在逃费稽查情况。第2,利用iforest算法和无监督算法来检测各项数据是否存在异常,如果存在异常,则表明车辆存在逃费现象。融合时序预测模型和异常检测模型相互结合的方法,比单一的检测模型,预测逃费稽查的准确性更高,可同时发出两种检测模型的优势。

(四)在联合指挥和应急资源调度中的应用

公路在运行中难免会发生突发事件,如果处理不及时或者处理方法不当,可能会引起更加严重的安全事故。利用大数据分析技术,可将公路运行中形成的各项数据汇总到一个平台上进行分析管理,将突发事件的数据全部呈现在应急事件智慧管理平台上,形成联合指挥。应急事件智慧管理部门可通过“挂图作战”方式,制定科学有效的应急措施,尽快处理解决突发应急事件,尽快恢复公路交通,实现突发事件信息汇总、应急指挥管理、应急资源管理、应急过程管理的信息化和数字化,降低突发事件造成的损失和危害。

四、结语