首页>>技术前沿>>网站/软件行业动态
大数据平台建设“技术”才是重点
作者:西安网站建设 | 转载 来源:西安软件开发公司 | 时间:2017年12月14日| 点击:0次 | 【评论】

大数据行业大家都有一种在泥潭中挣扎的感觉。要搞清楚到底有哪些数据、数据的结构、数据的来源、数据的意义、数据的上下文、数据的质量、数据可能有哪些局限性等等,都是非常麻烦的事情。在大多数情况下我们会发现数据的元数据缺失,数据的说明文档不存在或者文档有用的内容很少。为了某一个新任务要把数据搞清楚,我们可能需要咨询很多不同的人,每个人对数据的说法都不完全一致,当所有相关方都沟通了几次后,我们才大致把数据的概貌搞清楚。而这仅仅是完成了第一步,后面的数据处理、数据探索、特征工程、分析建模、生产应用还有无数的迷宫的需要探索。

大数据

大数据本身就是极其复杂的,不仅在于规模、维度、类型,也在于其各种变化和各种不完美。而且大数据还在日复一日的变得更大、更复杂、更快,要把所有数据以及所有数据的所有方面全部都搞清楚,恐怕是非常困难的,很可能已经是人力不可及的事情。我们对大数据的控制能力是有限的,大数据很大程度上对于人类来说就是失控的。很直接的一个例子就是“数据湖”,显然“数据湖”失去了传统数据库和数据仓库那种井井有条的规范美。“数据湖”基本上就是把所有可以收集到的数据堆放在一起,并没有非常规范的管理。并不是人们不想管理,而是事实上是做不到的,只能向现实妥协。当然,这种妥协很大程度上是可能是自发的而不是自觉的。

技术上的问题也是非常复杂的。技术问题的复杂性主要来自于各种技术本身的不完备性,任何技术都只能解决某一类型的问题。但是一个通用的数据平台,至少需要考虑能解决大部分的常见需求,这就意味着必须要将不同的技术整合到一起。多种技术的整合是非常考验系统工程能力的,这是要过的第一关。3但更大困难在于技术的快速发展,新技术、新开源项目不断涌现,既有技术和项目有些持续发展、不断更新,有的逐步衰退。这种情况下,如何能够保证平台本身在技术上能跟上时代是个非常困难的问题。一个系统的结构一旦确定,就会形成路径依赖,随着时间的推移,会变得越来越难以变动,越来越难以将新技术整合进来。

此内容DOC下载 此内容PDF下载

【全文完】
关键词标签: 大数据 
0 ([$-顶稿人数-$])
0 ([$-踩稿人数-$])

版权声明:

1、西安弈聪网站内容中凡注明“来源:XXX(非西安弈聪网站)”的作品,转载自其它媒体,转载目的在于传递更多信息,其中涉及的网站建设,网站优化,百度关键词优化,西安软件开发等技术细节并不代表本站赞同支持其观点,并不对其真实性负责。对于署名“西安弈聪”的作品系本站版权所有,任何人转载请署名来源,否则西安弈聪将追究其相关法律责任。

2、本站内容中未声明为“原创”的内容可能源自其它网站,但并不代表本站支持其观点,对此带来的法律纠纷及其它责任与我方无关。如果此内容侵犯了您的权益,请联系我方进行删除。