大数据与 Hadoop 的起源、特点和关系

章节一:大数据的起源

在 2003 年, Google 陆续发表了 3 篇论文,首创了大数据这一概念,它们分别是:GFS、MapReduce、BigTable。

这三篇论文,分别介绍了 GFS、MapReduce、BigTable 三款软件,而将这三款软件组合在一起,就是世界上第一种大数据平台。

如今 GFS、MapReduce 和 BigTable 三大技术已被称为 Google 的三驾马车,虽然没有公布源码,但发布了这三个产品的详细设计。

章节二:大数据的特点

大数据,是指从各种各样类型的海量数据中,快速获得和分析出有价值的信息,并以此支撑决策的一种手段,这种手段无法使用过去的常规方法或软件工具实现。

在目前,大数据的特性是指 5V 特性:
1) (V) Volume(大体量)
2) (V) Variety(多样性)
3) (V) Velocity(时效性)
4) (V) Veracity(准确性)
5) (V) Value(大价值)

章节三:开源大数据平台 Hadoop 的起源

虽然谷歌在 GFS、MapReduce、BigTable 三篇论文中详细介绍了 GFS、MapReduce 和 BigTable 三款软件的设计,但是可能出于公司发展的考虑,谷歌并没有公布这三款软件的源代码,这个大数据平台只有谷歌才能使用。

此时另一个受到雅虎资助的团队就利用谷歌这三篇论文的技术架构,使用 Java 开发了另外三个实现大数据平台的的软件,它们分别是:HDFS、MapReduce、Hbase。

它们和谷歌的软件一一对应:
HDFS 对应 Google 的 GFS
MapReduce 对应 Google 的 MapReduce
Hbase 对应 Google 的 BigTable

这三款软件组合在一起,就是一个新的开源的大数据平台 Hadoop。

章节四:开源大数据平台 Hadoop 的特点

1) Hadoop 可以实现分析和处理海量数据
2) Hadoop 是一款开源软件,全地球所有非营利性组织、个人、公司和政府都可以免费使用
3) 具有高可靠性、高扩展性、高效性、高容错性、低成本的优点
4) 性能上 Hadoop 要比 Google 的差很多

章节五:开源大数据平台 Hadoop 对大数据行业的影响

在 2003 年,很多非营利性组织、个人、公司和政府都没有人力、物力直接研发大数据技术,所以只好直接使用 Hadhoop 实现自己的大数据分析。

由于使用 Hadoop 的非营利性组织、个人、公司和政府越来越多,Hadoop 逐渐变成了大数据行业的行业标准。

就连大数据首创者谷歌,为了和 Hadoop 平台进行数据交互,也被迫对自己性能更好的 BigTable、GFS、MapReduce 三款软件进行修改。

现在 Hadoop 基本已经成为了大数据的代名词。大数据行业里所指的大数据开发工程师就是指开发 Hadoop 模块的 JAVA 工程师,大数据算法工程师就是指为 Hadoop 模块创造计算模型的数学家,而大数据运维工程师就是指 Hadoop 运维工程师。