首页 > 文章中心 > 正文

大数据下数据分析服务的市场分析

大数据下数据分析服务的市场分析

摘要:对提供大数据技术服务的电商,分析其现状和商业需求,并通过爬虫技术爬取大型电商网站关于大数据分析服务的真实信息。研究当前小型数据分析服务和个人数据分析服务的销售价格、月销数量、顾客评分等。结合词频分析和统计技术,分析大型电商网站的大数据分析服务质量、价格、服务种类。研究发现,现有的基于大数据技术的电商服务存在定价不清、质量难以保证、客户评价真实性存疑等问题。针对问题提出标准化数据市场、引入第三方监管、建立成熟的收益机制的建议。

关键词:数据分析;大数据;可视化;电商服务;大数据技术

0引言

近年来,随着移动互联网、云计算、大数据、人工智能的迅猛发展,全球大数据存储量持续快速增长,其中中国数据量的增长最为迅速。根据国际数据公司(IDC)的监测数据显示,2013年至2018年全球大数据储量分别为4.3ZB、6.6ZB、8.6ZB、16.1ZB、21.6ZB、33.0ZB,近年全球大数据储量的增速每年都保持在40%左右。根据IDC最新的统计数据,中国的数据产生量约占全球数据产生量的23%[1]。IDC最新的《全球半年度大数据支出指南,2018H2》预测在2019年度,大数据与商业分析解决方案全球市场的整体收益将达到1896.6亿美元,相比2018年增长12.1%。IDC预测,2019年中国大数据市场总体收益将达到96.0亿美元,2019-2023年预测期内的年CAGR(复合年均增长率)为23.5%,增速高于全球平均水平。到2023年,市场规模则将增长至24.9亿美元[2]。在这样的背景下,数据在全球市场经济运转中的价值日趋显著,所以数据分析服务应当顺应当前国家政策以及未来市场,收集大型电商网站的数百条关于大数据分析服务的真实信息和数据相关的门户网站,研究当前小型数据分析服务和个人数据分析服务的销售情况与大型门户网站的定价、服务,从小型数据分析服务和个人数据分析服务的需求程度、服务反馈,来分析小型数据分析服务和个人数据分析服务的发展趋势,并分析两者之间的优缺点。

1电商服务现状分析

1.1淘宝

淘宝网是中国现下最受欢迎的专业网购零售平台之一,注册用户数量高达5亿,日均浏览量超过1.3亿。在淘宝出售数据分析等相关服务,在没有知名度的情况下,前期不需要投入大量宣传投入,靠着淘宝自带的流量,也不会担忧没有人流量。但淘宝的数据分析服务也存在如下问题。⑴数据和人工成本估算,以及数据收益机制还不成熟,导致商品的定价没有统一标准,也没有可参考的依据,价格相差过大,客户无法判断商家所给的定价是否与自己的需求相匹配。⑵交易双方信任机制难以建立,把握数据使用流向问题难以解决[3]。淘宝商家在淘宝注册商铺资质最低费用为1000元,若是发生纠纷,商家跑路所需承担的风险很小,个人的权益难以保障。⑶交易评价真实性不可查,涉及电商销售,难免会存在刷单行为,客户也很难辨别商品评论的真实性,存在被误导以及引诱消费的风险。

1.2大型门户网站

本研究以数据为关键词,找寻了四个大型门户,分别对它们的框架、定价、服务对象进行研究分析。火车采集器主打数据采集,有较为清晰的定价,有免费版供需求不多、不需要太深入处理数据的人群使用,更多的版本选择让用户可以自由的根据自己的需求做选择。除此之外,还有在线客服可进行咨询、指导。八爪鱼采集器主打数据采集,操作简单,是人人可用的数据采集器。采集教程有图文版和视频教程,让客户更容易上手。采集软件也有不同的定价,方便客户选择。问题的解决方案也有细分,涵盖了新闻采集、电商采集、金融采集数据服务、市场洞察等十几种,可为不同领域的客户提供有针对性的方案。前嗅主打数据采集和大数据可视化。比起前两个按软件的版本来定价,前嗅的定价更为详细些。前两者的数据采集需要自己动手完成,而前嗅有ForeSpider数据采集引擎可自己爬取数据,也可以选择数据代采。在数据采集这个模块,前嗅就分出了6种服务及定价,对客户来说更详细也更好理解。可视化报告分出了3种不同的需求,预存云数据系统,研究报告和定制报告。还可根据客户数据进行情感分析、用户画像分析、语义识别等。集搜客主打网页抓取和内容分析,主要是对文本的处理和情感分析。集搜客有专门的爬虫软件,分为4个版本,每个版本都有自己的定价。除此之外,也有定制服务的价格,划分出了6个定制项目,并显示每个服务最低的价格。火车采集器、八爪鱼采集器、前嗅、集搜客在页面下方都放了合作的企业,其中有中国人民银行、中国电信、可口可乐、凤凰网、中国平安等知名大型企业,对它们是一种能力的认证,也是交易的认可。

2数据分析服务的商业需求

2.1淘宝:小型数据服务方

本研究以“数据分析”为关键词,于2020年8月通过爬虫技术爬取淘宝电商网站的529条信息。其中包括9个字段:商品名、链接、图片、价格、邮费、店铺名、月销数量、店铺评分、发货地等。去除重复、不符主题的噪声数据,留取了202条有效数据。去除对本次研究没有研究意义的字段,本研究将对这202条有效数据的价格、月销数量、高频关联词、发货地这四个字段进行分析。

2.2门户网站:大型数据服务方

2.2.1火车采集器

火车采集器是目前互联网上应用最广泛的数据处理、分析和挖掘软件。软件凭借其灵活的配置与强大的性能领先国内其他数据采集类产品,并赢得众多企业和用户认可。目前共客户使用的有五个版本,可以免费使用,有需要更强大功能的付费版本,价格在960元至8600元,购买后的版本均可终身使用。

2.2.2八爪鱼采集器

八爪鱼采集器是一款拥有百万用户的数据采集••11软件,其使用方法简单易懂,不懂网络爬虫技术,也能轻松采集想要的数据。目前共客户使用的有七个版本,有免费的版本,付费版本价格在49元至69800元以及根据顾客要求制定节点再定价格。私有部署版、数据服务都没有明确的价格,需要根据客户需求来制定方案,再根据方案制定价格。

2.2.3前嗅智能大数据专家

前嗅是可提供数据采集、定制和研究可视化报告、自然语言处理以及大数据周边配套产品等且拥有国内唯一自主知识产权Web服务器系统的大型门户网站。在价格的制定上,比前两者分的更细,许多服务的起步价多为200元至400元。划分板块多,衍生的服务更为多样。

2.2.4集搜客GooSeeker

集搜客GooSeeker是一款网页抓取和内容分析,把互联网装进表格和数据库的软件。网络爬虫软件目前有四个版本,除了免费版本外,其他三个版本的价格在49元至20000元之间,还有根据需求的定制服务。通过对以上四个大型门户网站的调研,发现每个服务方所服务的人顾客群体有所区别,需求存在着明显的差异。火车采集器和八爪鱼采集器都是主打数据采集的软件,但价格上却有所差别,火车采集器的价格明显比八爪鱼便宜,可见针对的目标客户是不一样的。前嗅智能大数据专家针对的是有大数据技术需求方面的人群,大数据的衍生服务也包括在内,多样且全能。集搜客是针对有网页抓取和内容分析,主要是对文本的处理和情感分析的需求的顾客群体。以上四个大型门户网站都有自己明确的市场定位,针对不同的需求,发展自己的特点。

3数据调查与分析的方法及过程

利用爬虫技术爬取了2020年8月大型电商网站的数百条关于大数据分析服务的真实信息,研究当前小型数据分析服务和个人数据分析服务的销售价格、月销数量、顾客评分等,结合词频分析和统计技术,以及分析大型电商网站的大数据分析服务质量、价格、服务种类。

3.1价格分析

在本次爬取的信息中,价格较为多样化,单价从1元到500元不等,数字较为随机,可见淘宝的数据分析标准没有统一,差异性较大。大多标价也非实际交易价格,实际交易价格往往是在双方交流后才确定的价格。没有统一的定价标准,会导致顾客在购买服务之前难以了解实际交易价格与自己心理预期价格的差距,从而难以选择与自己心理预期相符的服务。

3.2月销数量

在本次爬取的信息中,单项付款最多人数为717人,最少为0人,月销数量大于100的占总收集信息的10%。但仅看付款数量无法判断实际交易人数,因为一人可拍下数量不可知。

3.3高频次关联词

在本次爬取的信息中,标题中除了数据分析出现的高频词汇有:spss、可视化、爬虫、python、stata、统计。出现的频次分别为:可视化出现61次、spss出现59次、stata出现30次、python出现31次、爬虫出现23次、统计出现19次。其中spss、stata、python都是数据分析工具,不同的行业与需求对数据分析工具有不同的要求,可视化的高频次出现体现着客户对数据可视化的需求强烈。

3.4发货地分析

在本次爬取的信息中,发货地有北京、上海、杭州、深圳、南京、成都和武汉等地址。其中出现次数较多的为北京、上海、南京,分别为44次、29次、16次。这三大城市的占比为44%,可见这三大城市的数字经济发展明显优于其他城市。从价格、月销量、高频次关联词、发货地址的分析结果看,以淘宝网为代表的小型数据服务方的定价模糊,没有清晰、明确的定价标准,月销量有高有低,但由于定价模糊的关系,并不能判断它的真实销量。从高频关联词数据分析与可视化关系紧密这一点看,数据可视化是数据分析中的一大需求点,发货地点多为一线城市,可见经济与数据经济关系成正比关系。

4结论与建议

经过研究和分析电商数据分析服务的多方面数据,获知了以淘宝电商为主体的小型数据分析服务在体系上的不完善,多数是在商品标题添加相关词,但商品详情页面没有详细的服务名称、服务范围、服务价格,大多需要咨询客服才能了解;以大型门户网站为主题的数据分析服务为主体的数据分析服务都有着自己明确且清晰的体系,有详细的产品分类,可提供服务的范围,有标准的定价,以及自己的主打的特色产品,火车采集器、八爪鱼采集器、集搜客也提供有免费的服务,供客户体验产品、了解产品。当前我国数据资源流通存在诸多瓶颈问题,尚不具备作为一种生产要素的商品化、资产化机制,无法界定权属、无法评估质量、无法有效定价、无法可信流通等问题较为突出[3]。在此提出以下建议供参考。

⑴推进建立商品化、资产化和规范化的数据商品体系。

⑵建立第三方数据监督机构。市场的数据质量难以保障,已过期数据、错误数据、没有意义的数据俯拾皆是,第三方机构可监督数据的来源,评判数据的可用性。

⑶小型数据分析服务应确立自己的基本框架,将所能提供的服务、服务范围、服务价格,进行清晰的划分并标明,让顾客能更加简单便捷、有对比性的了解所提供的服务。

⑷建立成熟的数据和人工成本估算以及数据收益机制。纵观淘宝和大型门户网站对同类服务的定价,价格相差悬殊。建立成熟的数据和人工成本估算以及数据收益机制可以为客户避免“贵的就是对的”的心理;也可以避免客户一味的贪图便宜买到假数据。

5结束语

伴随着“数据创造价值,智慧引领经济”的潮流,越来越多的行业加入到数据经济的行列中来。本文分别对几个不同类型的数据电商服务的框架、定价、服务对象进行了研究,从目前的数据看来,数据电商服务的在定价和数据来源方面存在一定的模糊地带,但随着国家层面推进大数据政策,数据电商服务也会进一步完善,最终形成一个成熟的体系。

参考文献(References):

[1]从全球大数据市场看未来发展趋势[EB/OL].(2019-08-16)[2020-01-12].

[2]IDC最新版全球大数据市场规模预测,中国持续稳定增长[EB/OL].(2019-09-12)[2019-12-06].

[3]于施洋,王建冬,郭巧敏.我国构建数据新型要素市场体系面临的挑战与对策[J].电子政务,2020.3:2-12

[4]徐鑫.大数据环境下竞争情报分析的变化与方法创新[J].科技情报研究,2020.2:25

作者:邱敏  单位:南宁学院信息工程学院