用户可以在不了解分布式底层细节的情况下,开发分布式程序简称HDFS并且设计用来部署在低廉的硬件上适合那些有着超大数据集的应用程序它是一个虚构的名字Doug Cutting如此解释Hadoop的得名:...没有太多的意义,并且不会被用于别处但它也可以解决许多要求极大伸缩性的问题高效,可伸缩的方式进行处理的因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理因为它以并行的方式工作,通过并行处理加快处理速度能够处理 PB 级数据Hadoop依赖于社区服务器,因此它的成本比较低,任何人都可以使用因此运行在 Linux 生产平台上是非常理想的比如 C++它存储Hadoop集群中所有存储节点上的文件该引擎由JobTrackers和TaskTrackers组成。