开始使用 hadoop
什么是 Apache Hadoop?
Apache Hadoop 软件库是一个框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储。库本身不是依靠硬件来提供高可用性,而是设计用于检测和处理应用程序层的故障,从而在计算机集群之上提供高可用性服务,每个计算机都可能容易出现故障。
Apache Hadoop 包括以下模块:
- Hadoop Common :支持其他 Hadoop 模块的常用实用程序。
- Hadoop 分布式文件系统(HDFS) :一种分布式文件系统,提供对应用程序数据的高吞吐量访问。
- Hadoop YARN :作业调度和集群资源管理的框架。
- Hadoop MapReduce :基于 YARN 的系统,用于并行处理大型数据集。