oozie 入门
Oozie 是一个 Apache 开源项目,最初是在雅虎开发的。Oozie 是一个用于多级 Hadoop 作业的通用调度系统。
- Oozie 允许将相关 Hadoop 作业的逻辑分组形成一个名为
Workflow的实体。Oozie 工作流程是动作的 DAG(定向循环图)。 - Oozie 提供了一种使用名为
Coordinator的实体来安排时间或数据相关工作流的方法。 - 此外,你可以将相关协调员组合到名为
Bundle的实体中,并可以在 Oozie 服务器上进行调度以执行。
Oozie 支持大多数 Hadoop Jobs 作为 Oozie Action Nodes,如:MapRedude,Java,FileSystem(HDFS 操作),Hive,Hive2,Pig,Spark,SSH,Shell,DistCp 和 Sqoop。它使用 Decision Control Node 动作提供决策功能,并使用 Fork-Join Control Node 并行执行作业。它允许用户使用 Email 操作为工作流的成功/失败通知配置电子邮件选项。