首页>>技术前沿>>网站/软件行业动态
大数据体系细分,让你直观认识大数据领域知识
作者:西安大数据平台开发 | 转载 来源:西安大数据平台开发 | 时间:2018年7月30日| 点击:0次 | 【评论】

大数据应用主要是从现有数据中的数据中进行采样,再做数据挖掘和分析,发掘出大数据中的潜在规则用以预测或决策,然而采样始终会舍弃一部分数据,即会丢失一部分潜在规则和价值,随着数据量和内容的不断累积,企业越来越重视在数据应用时可以使用全量数据,可以尽可能的覆盖所有潜在规则从而发掘出可能想到或从未想到的价值。获取数据变得越来越容易、量越来越大、内容越来越多样化,于是原来传统的数据领域不得不思考重新换一个平台可以处理和使用逐渐庞大数据量的新平台。

大数据

1 数据平台

Data Platform,构建、维护稳定、安全的大数据平台,按需设计大数据架构,调研选型大数据技术产品、方案,实施部署上线。对于大数据领域涉及到的大多数技术都需要求有所了解,并精通给一部分,具备分布式系统的只是背景……

对应职位:大数据架构师,数据平台工程师

2 数据采集

Data Collecting,从Web/Sensor/RDBMS等渠道获取数据,为大数据平台提供数据来源,如Apache Nutch是开源的分布式数据采集组件,大家熟知的Python爬虫框架ScraPy等。

对应职位:爬虫工程师,数据采集工程师

6 数据挖掘

是一个比较宽泛的概念,可以直接理解为从大量数据中发现有用的信息。大数据中的数据挖掘,主要是设计并在大数据平台上实现数据挖掘算法:分类算法、聚类算法、关联分析等。

对应职位:数据挖掘工程师

4 数据分析

数据分析是基于统计分析方法做数据分析:例如回归分析、方差分析等,天善也有很多数据分析课程。大数据分析例如Ad-Hoc交互式分析、SQL on Hadoop的技术有:Hive 、Impala、Presto、Spark SQL,支持OLAP的技术有:Kylin。

对应职位:数据分析师

5 数据处理

数据处理完成某些特定需求中的处理或数据清洗,在小团队中是结合在数据仓库中一起做的,以前做ETL或许是利用工具直接配置处理一些过滤项,写代码部分会比较少,如今在大数据平台上做数据处理可以利用更多的代码方式做更多样化的处理,所需技术有Hive、Hadoop、Spark等。BTW,千万不要小看数据处理,后续的数据分析、数据挖掘等工作都是基于数据处理的质量,可以说数据处理在整个流程中有特别重要的位置。

对应职位:Hadoop工程师,Spark工程师

7 机器学习

机器学习与数据挖掘经常一起讨论,甚至被认为是同一事物。机器学习是一个计算机与统计学交叉的学科,基本目标是学习一个x->y的函数(映射),来做分类或者回归的工作。之所以经常和数据挖掘合在一起讲是因为现在好多数据挖掘的工作是通过机器学习提供的算法工具实现的,例如个性化推荐,是通过机器学习的一些算法分析平台上的各种购买,浏览和收藏日志,得到一个推荐模型,来预测你喜欢的商品。

对应职位:算法工程师,研究员

此内容DOC下载 此内容PDF下载

【全文完】
关键词标签: 大数据 
0 ([$-顶稿人数-$])
0 ([$-踩稿人数-$])

版权声明:

1、弈聪软件网站内容中凡注明“来源:XXX(非陕西弈聪网站)”的作品,转载自其它媒体,转载目的在于传递更多信息,其中涉及的网站建设,网站优化,APP开发,微信小程序开发,大数据平台开发,区块链技术开发等软件开发技术细节并不代表本站赞同支持其观点,并不对其真实性负责。对于署名“陕西弈聪”的作品系本站版权所有,任何人转载请署名来源,否则陕西弈聪将追究其相关法律责任。

2、本站内容中未声明为“原创”的内容可能源自其它网站,但并不代表本站支持其观点,对此带来的法律纠纷及其它责任与我方无关。如果此内容侵犯了您的权益,请联系我方进行删除。