首页>>技术前沿>>网站/软件行业动态
程序员想从事大数据,必须要掌握这10个技能!你清楚哪些?
作者:移动互联网 | 转载 来源:西安软件开发公司 | 时间:2018年1月19日| 点击:0次 | 【评论】

用雨后春笋来形容每天来自全球的新项目,一点都不为过,尤其是与大数据相关的。逆水行舟,不进则退,没有更多的技术作为支撑,程序员们小心脚步会跟不上哦。下面就来盘点10个洪荒开源大数据技术。


1.Apache Beam


ApacheBeam在Java中提供统一的数据进程管道开发,并且能够很好地支持Spark和Flink。而且,它提供了很多在线框架,省却了开发者很多学习框架的时间精力。

2.Apache Hive2.1


Hive是建立在Hadoop上的数据仓库基础构架。随着最新版本的发布,ApacheHive的性能和功能都得到了全面提升,它已成为SQL在大数据上的最佳解决方案。

它提供了一系列的工具,可以用来进行数据提取转化加载(ETL)——这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。

3.Hadoop


高效、可靠、可伸缩的Hadoop——能够为你的数据存储项目提供所需的YARN、HDFS和基础架构,并且运行主要的大数据服务和应用程序。

4.Kafka


Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模网站中的所有动作流数据。从Spark到NiFi再到第三方插件工具以至于Java到Scala,Kafka都提供了强大的粘合作用,它已成为大数据系统在异步和分布式消息之间的最佳选择。


5.NiFi


堪称大数据工具箱里的瑞士军刀的ApacheNiFi,是由美国国家安全局(NSA)贡献给Apache基金会的开源项目,其设计目标是自动化系统间的数据流。其中,它的两个最重要的特性是强大的用户界面,以及良好的数据回溯工具。基于其工作流式的编程理念,NiFi非常易于使用,而且强大、可靠、高可配置。

6.Phoenix


作为HBase的SQL驱动,Phoenix目前被大量的公司采用,它正在逐渐扩大规模。HDFS支持的NoSQL能够很好地集成所有工具,Phoenix查询引擎会将SQL查询转换为一个或多个HBasescan,并编排执行以生成标准的JDBC结果集。

7.Spark

Spark使用简单,而且可以支持所有重要的大数据语言,如Scala、Python、Java、R等。同时,它还拥有强大的生态系统,且成长迅速,对microbatching/batching/SQL的支持也很简单。最重要的是,Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。


8.Sparkling Water


H2O填补了Spark’sMachineLearning的缺口,SparklingWater可以满足你所有的机器学习。


9.Stanford Core NLP


自然语言处理拥有巨大的增长空间,斯坦福正在努力增进他们的框架,StanfordCoreNLP横空出世。


10.Zeppelin


Zeppelin是一个提供交互数据分析且基于Web的笔记本,方便用户做出可数据驱动的、可交互且可协作的精美文档。同时,它还支持多种语言,包括Scala(使用ApacheSpark)、Pyth(ApacheSpark)、SparkSQL、Hive、Markdown、Shell,等等。


在科技圈都知道,作为当今最热门的技术之一的大数据,正呈爆炸式增长。幸运的是,开源让越来越多的项目可以直接采用大数据技术,这也为程序员提供了多一条出路

此内容DOC下载 此内容PDF下载

【全文完】
0 ([$-顶稿人数-$])
0 ([$-踩稿人数-$])

版权声明:

1、陕西弈聪网站内容中凡注明“来源:XXX(非陕西弈聪网站)”的作品,转载自其它媒体,转载目的在于传递更多信息,其中涉及的网站建设,网站优化,百度关键词优化,西安软件开发等技术细节并不代表本站赞同支持其观点,并不对其真实性负责。对于署名“陕西弈聪”的作品系本站版权所有,任何人转载请署名来源,否则陕西弈聪将追究其相关法律责任。

2、本站内容中未声明为“原创”的内容可能源自其它网站,但并不代表本站支持其观点,对此带来的法律纠纷及其它责任与我方无关。如果此内容侵犯了您的权益,请联系我方进行删除。