Hadoop实现了HDFS文件系统和MapRecue。用户只要继承MapReduceBase,提供分别实现Map和Reduce的两个类,并注册Job即可自动分布式运行。
HBase是Google BigTable的开源实现。
HDFS是Google File System(GFS)的开源实现。
Hadoop 有许多元素构成。其最底部是 Hadoop Distributed File System(HDFS),它存储 Hadoop 集群中所有存储节点上的文件。HDFS(对于本文)的上一层是 MapReduce 引擎,该引擎由 JobTrackers 和 TaskTrackers 组成。
Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、Hadoop,http://www.hadooper.cn,高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,Hadoop因此它的成本比较低,任何人都可以使用。
Hadoop 由 Apache Software Foundation 公司于 2005 年秋天作为 Lucene的子项目 Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System #40;GFS #41; 的启发。2006 年 3 月份,Map/Reduce 和 Nutch Distributed File System #40;NDFS #41; 分别被纳入称为 Hadoop 的项目中。
ZooKeeper,高可用的和可靠的分布式协同(coordination)系统。分布式应用可以使用ZooKeeper存取其关键状态。
HBase,建立于 Hadoop Core之上提供一个可扩展的数据库系统。
Hadoop 是 Apache组织下的一个开源项目,致力于开发一套分布式计算环境下的可靠、可扩展软件。其中包括:
电脑网络,软件,开源社区,Hadoop官网:http://www.hadooper.cn