首页>>技术前沿>>网站/软件行业动态
应该如何理解大数据?
作者:西安网站建设 | 转载 来源:西安软件开发公司 | 时间:2018年1月5日| 点击:0次 | 【评论】

        随着信息技术和物联网技术的发展、个人电脑和智能手机的普及以及社交网络的兴起,人类活动产生的数据正以惊人的速度增长。根据国际数据公司(International DataCorporation,IDC)的报告,仅2011年,全世界产生的数据就有1.8 ZB(1 ZB≈1 021 byte),并且平均每5年增长9倍。大数据一词由此而生。


  关于大数据这一概念并没有一个确切的具体指向。它被用来描述大量貌似并不相关的不同类型数据的集合。大数据的功能之一是用来进行辅助决策。数据的选择不能掺杂任何人为的因素,这些人为的因素通常会使结果变得很主观,同时也就失去了意义。


  大数据是指难以被传统数据管理系统有效且经济地存储、管理、处理的复杂数据集。同时还可以解释为那些大小已经超出了传统意义上的尺度,一般的软件工具难以捕捉、存储、管理和分析的数据。但是对于“大”的尺度确没有确切的定义,早在1980年代,美国就有人提出了“大数据”的概念。30多年来,各个领域的数据量都在迅猛增长,美国的企业界、学术界也不断地对这个现象及其意义进行探讨,“大数据”这个名词变得越来越流行、越来越重要,最后成为了国家和政府层面的发展战略。


  在2015贵阳国际大数据产业博览会上国务院总理李克强指出:“中国正在研究制定’互联网+’行动计划,推动各行各业依托大数据创新商业模式,实现融合发展,推动提升政府科学决策和管理水平,用新的思路和工具解决交通、医疗、教育等公共问题……”由此大数据在我国也被上升到了国家层面。


       并且大数据带来了存储、管理、处理数据的挑战,也带来了发掘数据中新的价值的机遇。多个行业已经利用大数据改善业务,例如金融业、零售业、生命科学、环境研究。举两个例子:


  1.医疗健康行业目前面临着巨大的挑战,其中,最主要的挑战包括:急剧升高的医疗支出、人口老龄化带来的慢性疾病问题、医疗人员短缺、医疗欺诈等。国家统计局的数据显示,我国2013年医疗卫生总支出为31 668亿元,较2012年上升12.6%,并且已经连续8年每年增长超过10%。医疗支出已经占据了社会总支出很大的比例,在可以预见的将来,医疗支出将会持续增长。然而,根据美国医学研究院(Institute of Medicine,IOM)的一篇报告,如今医疗健康支出的1/3被浪费而没有用于改善医疗。这些浪费包括不必要的服务、行政浪费、昂贵的医疗费用、医疗欺诈和错失预防的机会。为了保持竞争力,医疗机构必须把数据作为一种战略资产,分析数据以达到提高诊断准确度、提高疗效、降低费用、减少浪费的目的。


   2.股票交易系统、银行系统
    首先,股票交易系统的行情表,每几秒钟就有一个行情记录产生,一天下来就有(假定行情3秒一个) 股票数量×20×60*6 条记录,一月下来这个表记录数量多大? oracle中一张表的记录数超过100w后 查询性能就很差了,如何保证系统性能?


    再比如,中国移动有上亿的用户量,表如何设计? 把所有用于存在于一个表么?

所以,大数量的系统,必须考虑表拆分-(表名字不一样,但是结构完全一样),通用的几种方式:(视情况而定)
   1)按业务分,比如 手机号的表,我们可以考虑 130开头的作为一个表,131开头的另外一张表 以此类推
   2)利用oracle的表拆分机制做分表
   3)如果是交易系统,我们可以考虑按时间轴拆分,当日数据一个表,历史数据弄到其它表。这里历史数据的报表和查询不会影响当日交易。
当然,表拆分后我们的应用得做相应的适配。单纯的or-mapping也许就得改动了。比如部分业务得通过存储过程等


  大数据的应用还存在着一些难解的问题


  大数据虽然看上去很美,但是现实中的进展依旧缓慢。在机场行业中,人们充满了对使用大数据的热情,但是现实的阻碍重重一时又找不到理想的解决办法。


    数据孤岛问题突出


       “巧妇难为无米之炊。”大数据的基础在于数据,数据的生命在于共享,拿不到底层的数据,数据分析也就无从谈起。如今,数据孤岛林立、融合困难,已经成为政府与企业面前的首要难题。


        “第一个问题就是没数据,理论上我们中国有很多数据,但实际做数据分析会发现非常困难。”中国科学院院士、北京大数据研究院院长鄂维南表示,数据孤岛是一个严重的问题,不同部门的数据储存在不同地方,格式也不一样。大数据最高的层次就是用数据来形成智慧,使得社会各方面可以运转起来。做数据分析先要整合数据,这本身就是研究的困难。


        由于政府部门之间、企业之间、政府和企业间信息不对称、制度法律不具体、缺乏公共平台和共享渠道等多重因素,导致大量政府数据存在“不愿公开、不敢公开、不能公开、不会公开”的问题,而已开放的数据也因格式标准缺失无法进行关联融合,形成孤岛。


        缺乏动力和担心安全是阻碍数据共享的另一个主要原因。不少企业以保护商业机密或节省数据整理成本等为理由,不愿意交易自身数据。部分政府部门也缺乏数据公开的动力:有的是因懒政而让数据沉睡,有的则是已经利用数据开展商业化应用,因此不愿共享。

此内容DOC下载 此内容PDF下载

【全文完】
关键词标签: 大数据 
0 ([$-顶稿人数-$])
0 ([$-踩稿人数-$])

版权声明:

1、西安弈聪网站内容中凡注明“来源:XXX(非西安弈聪网站)”的作品,转载自其它媒体,转载目的在于传递更多信息,其中涉及的网站建设,网站优化,百度关键词优化,西安软件开发等技术细节并不代表本站赞同支持其观点,并不对其真实性负责。对于署名“西安弈聪”的作品系本站版权所有,任何人转载请署名来源,否则西安弈聪将追究其相关法律责任。

2、本站内容中未声明为“原创”的内容可能源自其它网站,但并不代表本站支持其观点,对此带来的法律纠纷及其它责任与我方无关。如果此内容侵犯了您的权益,请联系我方进行删除。