首页>>技术前沿>>网站/软件行业动态
分析大数据项目搞着搞着就夭折的5大技术原因
作者:西安网站建设 | 转载 来源:西安软件开发公司 | 时间:2018年4月16日| 点击:0次 | 【评论】

从《促进大数据发展行动纲要》出台到《大数据产业发展规划(2016—2020年)》发布;从首个国家级大数据试验区到国家实验室获批建设;从政府数据共享到各类便民应用试水……最近几年,大数据在打破信息壁垒、提升国家治理、普惠日常生活等方面持续发力,民众逐步享受到更多数据红利。大数据正在改变世界,企业正努力在产品中部署大数据,这一点是毋庸置疑的。但大多数大数据项目搞着搞着就黄了。这是为什么呢?作者分析了五大大数据项目夭折最常见的技术原因:

大数据

1、无法快速加载数据以满足SLA

虽然像sqoop这样的工具支持数据读取的并行化以从传统数据源获取数据到数据湖,但需要专家来使其正常工作。如何划分数据?要运行多少个容器等问题都需要专家给出合适的解决方案。如果无法正确处理并行数据的读取,则一个小时就可完成的任务甚至需要10到20倍的时间,因为大多数人不知道如何正确调整。

2、不能逐步加载数据以满足SLA

大多数企业并未将整个操作转移到大数据环境中。他们从现有的操作系统移动数据以执行新的分析或机器学习,这意味着需要在新数据到达时继续加载。问题是这些环境不支持添加,删除或插入的概念,这意味着必须重新加载整个数据集(请参阅上面的第1点),否则必须围绕一次更改捕获问题编写代码。

大数据

3、不能以交互方式提供对数据报告的访问权限

想象一下,如果有1000位商业智能分析师,他们都不想使用您的数据模型,因为他们需要很长时间才能查询。这是Hadoop的一个经典问题,也是许多公司仅使用Hadoop进行预处理和应用特定机器学习算法,但随后将最终数据集移回传统数据仓库以供BI工具使用的原因。无论如何,这个过程又为成功完成大数据项目增加了难度。

大数据

4、不能从测试迁移到生产

许多企业能够确定沙箱环境中数据科学家的新见解的潜力。一旦确定采纳新的分析方法,就需要从沙盒转移到生产环境。从开发转移到生产是一个完整的升降和换挡操作,通常是手动完成的。虽然它在开发集群上运行良好,但现在相同的数据管道必须在生产集群上重新优化。这种调整往往需要大量的返工才能有效执行。如果开发环境与生产环境有任何不同,则情况尤其复杂。

5、不能管理端到端的生产工作量

大多数企业都将注意力集中在工具上,因此他们的数据分析师和科学家可以更轻松地识别新的方法。但是,他们没有投资类似的工具来运行生产环境中的数据工作流程,因此不得不担心启动、暂停和重新启动过程,还必须担心确保作业的容错性,处理通知以及协调多个工作流以避免“冲突”。

此内容DOC下载 此内容PDF下载

【全文完】
关键词标签: 大数据 
0 ([$-顶稿人数-$])
0 ([$-踩稿人数-$])

版权声明:

1、西安弈聪网站内容中凡注明“来源:XXX(非西安弈聪网站)”的作品,转载自其它媒体,转载目的在于传递更多信息,其中涉及的网站建设,网站优化,百度关键词优化,西安软件开发等技术细节并不代表本站赞同支持其观点,并不对其真实性负责。对于署名“西安弈聪”的作品系本站版权所有,任何人转载请署名来源,否则西安弈聪将追究其相关法律责任。

2、本站内容中未声明为“原创”的内容可能源自其它网站,但并不代表本站支持其观点,对此带来的法律纠纷及其它责任与我方无关。如果此内容侵犯了您的权益,请联系我方进行删除。