首页 > 文章中心 > 正文

农业经济智能信息探究

农业经济智能信息探究

一、研究意义

在农业经济发展领域,信息已成为一个不可或缺的因素,成为推动农业经济发展的主要动力,农村信息化水平每增加%l就可以导致产出平均增加0•735%。[1]贵州省通过前期农业经济信息化建设,已建立了完善的农业经济数据采集体系,积累了大量的数据,这些数据对于农业政策的制定,农业状况的监控,农业发展的引导,市场商机的把握,经济问题的研究来说是一笔无价的财富。但是,限于前期OLTP(联机事务处理)系统的固有局限性,无法有效利用这些丰富宝贵的数据。系统虽然对农业经济数据进行了获取,却未进行有效整合,提供的信息服务仍停留在基于网站市场信息的简单与查询阶段,人们面对的是眼花缭乱的数据,无法获取真正想得到的信息。而通过贵州省农业经济智能信息系统的建设,可以提供面向OLAP(联机分析)的服务,并进一步对数据进行挖掘,实现对贵州省农业经济数据真正有效地利用,完成从数据到信息再到知识的一个自动化过程,使得用户得到经过智能化分析处理的有用信息。对比目前的农业经济信息系统其具体有如下优点:

(一)数据的可靠性的确保

对于信息用户来说,信息首要保证的是真实。否则,即便使用了再优秀的分析方法,也是“垃圾入垃圾出”。而农业经济商业智能信息系统的建设确保了数据的正确性。首先,农业经济商业智能信息系统的数据主要源于OLTP(联机分析)系统,而OLTP的数据直接生成于业务处理时原始的数据,而非经过了处理加工了信息。其次结合技术手段,每一个通过ETL(抽取、转换、加载)的数据都能回寻到其原始数据源,使得每一个来到数据仓库的数据都有据可查,增加了数据的可信度。

(二)提供实时、多维分析服务

相比较OLTP系统,农业经济智能系统能提供面向用户的分析服务。原有信息系统只能基于固定周期向用户推送分析报告,无法实现实时信息分析。例如政府决策者临时对于某个农业经济问题进行讨论,需要相关的信息分析进行支持,原有的信息系统无法在短时间内提交用户定制的信息分析,而智能信息系统可以提供基于web的实时的分析服务。其次,原有信息用户对于信息只是被动地接受,无法根据自己感兴趣的维度(dimension)观察分析数据,而智能信息系统提供了多维分析联机分析(OLAP)服务,信息用户可以根据自己的需要动态更改分析维度,满足定制分析的需要。

(三)提供基于历史的数据分析

原有的系统,例如农经网系统,为了平衡系统效率,只能提供给用户6-12个月的数据,之前的信息被闲置,而这些信息对于经济分析,趋势预测十分重要。农业经济商业智能系统的一大优点就是通过对于历史数据的清理整合,使得用户能够获取长期(超过5年)的历史数据,实现进行基于历史的分析。

(四)面向不同的用户

农业经济信息的用户范围十分广泛,从政府政策制定者到个体农户、农产品经营者都需要农业经济信息,但之前的分析服务用户面狭窄,其分析只能事先设计、定期推送,局限了用户群体。而农业智能信息系统却可以提供面向不同用户的差异服务。(五)开放性贵州省农业经济智能系统提供了一个开放的平台。首先,其预留了未来与其他数据仓库整合的可能,例如与贵州省的气象数据、地理信息数据的整合,以及通过web数据抓取整合web上的信息,例如其他省份的农业经济数据,农业期货数据等。而这些信息的加入,能大大扩充数据以及信息观察的角度,满足更多分析需求。

二、贵州省农业经济智能信息系统的设计

(一)数据源特点

贵州省农业经济智能信息系统的数据源主要基于贵州农经网系统,该系统以“天”为时间粒度记录了贵州省各地区农产品商品价格,并基于地理区域、产品类别对数据进行了划分。其信息数据采集站点遍布贵州省各地农产品市场,并通过在线系统每天上报,迄今已记录了6年的贵州省农产品价格。以2006年为例,农经网系统共记录了贵州省471个农产品市场的1830266条农产品价格记录。基于农经网数据的真实性、充足性,十分适合作为数据仓库的数据来源。

(二)需求分析

1.用户划分。通过实际调查分析,发现潜在信息用户可以分为一般信息分析人员、相关商业用户(农产品公司、个体农户等)、农业政策决策者(相关政府部门)、农产品价格研究人员(高校、研究所等),各类用户对于信息分析有不同的需求。例如对于信息分析粒度、信息分析的周期、是否需要预测都存在不同的要求。由于一般信息分析人员需要每周或每月提交文字型的分析报告,其需要的是详细的数据分析支持功能,并以周或月为时间单位分析农产品走势。而作为农业政策的决策者,其感兴趣的是以年为时间单位的农产品经济数据的分析,需要的是已经过统计处理的概括数据,更多使用图表作为分析工具。作为研究人员,其对于长时间的数据(例如2003年到2009年)的统计分析和未来的信息预测更感兴趣,并且也希望获得概括性的统计数据、图表。当然政策决策者对于数据挖掘也有需求。而对于商业用户,他们对于基于时间段的不同地区农产品价格的对比、最新的数据实时分析,以及农产品价格走势预测抱有兴趣,而对于历史数据分析兴趣不大。

2.功能分析。综上所属,不同类型的用户需求虽有差别,但是也存在共通点。通过需求分析,最终贵州省农业经济智能信息系统计划实现以下功能:

●对农产品价格数据进行旋转、切片、切块、向上综合和向下钻取等多维分析,以获得多角度、多粒度历史数据;

●进行多种农产品价格指数的计算;

●实现对于农产品价格的数据挖掘,并实现对于农产品价格的预测;

●实现分析数据的可视化展示平台。

(三)后台数据仓库的概念设计

数据仓库是贵州省农业经济信息系统的核心,也是信息分析以及数据挖掘的基础。数据仓库的概念模型设计必须基于实际调查,结合实际信息分析需要以及数据源的结构,设计错误的数据仓库模型将会导致整个智能信息系统的失败,产生错误的信息。数据仓库模型的概念设计主要涉及设计维度表、事实表以及维度表与事实表、维度表之间的关系。

1.关键维度

(1)地理维。地理维(Geographydimension)以“市场”为粒度,记录了与农产品价格相关联的贵州省地理信息,是数据仓库的关键维度之一,也是数据分析中最常用到的维度,并且也是与其他事实表、维度表联系最多的维度。其结构为:(主键:Geog-raphyKey;候选键:GeographyAlternatekey;地区名:GeographyDistrictName,县、市名:GeographyCoun-tyName…)。其中GeographyKey为维度表主键,Ge-ographyAlternateKey为候选键,通过该字段可以回溯数据源,增加数据仓库的可信度。该纬度在设计时考虑到了贵州省农业经济实际情况,设计地区(例如黔西南地区)到县、市(例如安龙)到市场(例如新桥农贸市场)的层次结构(hierarchy),而不直接套用通用的地理信息,否则无法满足实际分析的需要。

(2)时间维。时间维(timedimension)是数据分析最常用到的维度,其结构为:(主键:Time-Key;年:year;月:Month;日:day;年中文名:Chinese-YearName;节日:DayOMfonth;特殊事件:SpecialEv-en;t本日对应月第几天:DayOMfonth….)。其中年、月等的中文名属性的设置是为了后期分析时便于展示,DayOfYear,DayOMfonth属性的设置是为了便于实现农产品同期价格的对比计算。因为业务主题是时间序列的。农业经济数据仓库中时间维度以“天”为粒度记录了时间描述信息。在设计时间维时必须考虑到后期数据分析以及数据挖掘的需要,而不是单纯地从已有OLTP系统进行抽取,例如考虑到农产品价格波动与节假日关系很大,故在时间维设计时应加入“节假日指示”属性,考虑到贵州为少数民族集聚区这一特点,在填充该属性时候不但应记录“春节”、“中秋”等较普通的节日,而且还应记录“地戏节”、“三月三”等各个地区少数民族特有的节日。同样考虑到特殊因素,例如“甲型H1N1型流感”对农产品价格的影响,应设置“特殊事件”属性。最后,还应添加“节气”,“季节”这两个对于农产品价格关系较大的属性。

(3)产品维度。产品维度以“产品”为粒度记录了农产品信息,其结构为:(产品名:ProductName;产品子类别外键:ProductSubCategoryKey;单位:Uni;t渐变维度开始时间:StartDate;渐变维度结束时间:EndDate….)。农产品的产品纬度设计较为复杂,特别是结合贵州省的实际情况,一些农产品归类与通用归类不同,例如“菜籽”标准分类应该是“食用油”,但由于贵州省主要将菜籽用于副食品加工,故也可将其归位“副食品”,这主要取决于最终用户的分析角度,但也必须考虑未来与其他数据源的接口,过于特殊化的设计不利于与其他数据源的统一,不利于数据仓库的扩充。产品维度表也是所有维度表中变化最频繁的维度表,随着时间推移不断改变,属于渐变维度(SCD,slowlychangingDimension)。例如“产品名称”属于1SCD(changing),对于历史的产品名称不做保存而直接更改。而“产地”属性,由于后期数据分析对于历史产地感兴趣,故将其设置为2SCD(histori-cal),当进行数据加载时不更新原有数据信息,而是新添加一行以保持历史数据。StartDate与EndDate相结合标示目前数据行是否失效,或者说其是否是历史数据。

(4)信息提供者维。它主要记录了各个市场的信息提供者的相关信息,该维度与地理维相链接。主要用于支持后期对信息提供点贡献度的分析,与绩效考核的计算。

2.事实表的分析设计

相对而言事实表的设计较为简单,但是由于事实表的数据量远远大于维度表(仅2006年数据就达到百万级),对于事实表属性的数据类型设计显得十分重要,好的设计可以大大缓解数据仓库的爆炸性增长情况。根据业务主题的特点,分别用与之对应的度量值对其事实表进行填充。

3.农产品交易事实表(FactTrading)

主要记录了农产品的价格信息,来源于多个数据库,对于其的数据清理与转换工作量较大,由于存在多数据源,原有的价格记录主键(OriginalID)出现了重复,失去了唯一标示的意义。跨越时间为2003—2009年。其结构为:(产品单价:UnitPrice;地理维外键:GeographyKey;产品维外键:ProductKey;信息提供者维外键:InformationProviderKey;时间维外键:TimeKey;原有价格记录号:TradeOriginalId….)其中,地理维、时间维、产品维度等外键构成了事实表的联合主键。

(四)数据仓库总体结构设计

数据仓库的设计常常采用的是星型模型和雪花模型。但应尽可能采用星型模型,这是由于维度表的作用是提供便利分析的角度,雪花模型虽然可以减少维度表空间,但增加了通过维度分析数据的难度,并使得数据仓库结构变得更为复杂。[2]故在数据仓库设计时,只在产品维(Productdimension)的设计上采用了雪花结构,这是由于产品维中包含了“类别属性”,“子类别属性”,“产品名”等通过字符描述的属性,如果采用星型结构,以上属性重复将过多,数据不一致可能性较大,故采用雪花结构避免这种情况的发生。如前文所述,农业经济智能信息系统的一大优点就是其开放的结构,可以通过网络数据抓取、接入新的数据源等方式获得新的信息,构建新的事实表,例如上图中的产品库存事实表、气象信息事实表、期货交易事实表等。并且由于新的事实表与原有事实表可以共享维度,使得分析者可以在结合共同维度对不同的信息进行分析,例如结合农产品价格事实表数据与农产品库存事实表数据以及气象信息,并以时间和地理作为分析维度进行多维分析,能发现出这三类信息间的潜在关系,并以直观分析报表形式展现。

三、贵州省农业经济智能信息系统的初步利用

最终设施阶段,首先基于上述数据仓库模型设计对应ETL程序,导入相关的数据,并利用MDX作为多维数据查询语言实现分析,并在SqlServer2008下AnalysisService进行部署,利用.net技术实现前台的web展现,最终实现了贵州省农业经济智能信息系统的实施,达到以下功能。

(一)多维分析功能的实现例如,图2演示了通过结合地理纬、时间维对于多维数据进行切块,然后对数据进行下钻(drilldown)得到详细信息,同时通过图表进行同步展示,最终直观的得到两地区(毕节、铜仁)在对应时间段上对于农副产品的价格走势对比。

(二)价格统计分析功能的实现在结合下钻,上钻,切块等多维分析的同时,还可以根据已有的对农产品的分析方法,例如定基价格指数、同比指数、环比指数等对数据进行统计分析。

(三)KPIs功能的实现如需求分析中所述,农业政策决策者需要的是一种高度概括性的状况信息,而不是繁琐的数据,理想的状况是通过对于状态的一览,就可以了解目前农产品价格是否出现了异常。通过对于关键业绩指标(KeyPerformanceIndicators)的实现,可以很便捷地达到这一目标。例如,首先通过实际调查了解到,决策者认为农产品价格上涨或下跌某百分比值便认为出现了价格异常。在智能信息系统开发中结合MDX语言,编写相应代码,实现KPIs对应的报警功能,最后再实现对用户友好的、直观的前台展现(十字形为异常,三角形为可接受,圆形为正常)。

(四)农产品价格预测功能的实现如前文所述,信息用户不但对于已有历史数据的分析感兴趣,他们更想得到农产品价格等数据的未来走势预测,而这正是数据挖掘的任务。数据挖掘指的是分析数据,使用自动化或半自动化的工具来挖掘隐含的模式,预测正是数据挖掘的一项重要的部分[3]。贵州省农业经济智能信息系统中利用了相应的时序算法,利用智能信息系统内数据仓库中时间序列数据集,结合连续的观测值,进行一般的趋势分析、周期性分析和噪声过滤,得到对于农产品价格的趋势预测。

四、小结

本文通过对贵州省农产品经济数据的分析,结合不同类型用户对于信息分析及预测的实际需要,利用数据仓库及数据挖掘技术,建立了相应的贵州省农业经济智能信息系统。实现了提高已有农产品经济数据的内在价值,发掘隐藏在数据背后知识的目标。为贵州省农业经济研究、农业政策决策、农产品商业开发提供了有力的支持,并获得了良好的使用效果。