oozie 入门
Oozie 是一个 Apache 开源项目,最初是在雅虎开发的。Oozie 是一个用于多级 Hadoop 作业的通用调度系统。
- Oozie 允许将相关 Hadoop 作业的逻辑分组形成一个名为
Workflow
的实体。Oozie 工作流程是动作的 DAG(定向循环图)。 - Oozie 提供了一种使用名为
Coordinator
的实体来安排时间或数据相关工作流的方法。 - 此外,你可以将相关协调员组合到名为
Bundle
的实体中,并可以在 Oozie 服务器上进行调度以执行。
Oozie 支持大多数 Hadoop Jobs 作为 Oozie Action Nodes,如:MapRedude
,Java
,FileSystem
(HDFS 操作),Hive
,Hive2
,Pig
,Spark
,SSH
,Shell
,DistCp
和 Sqoop
。它使用 Decision Control Node
动作提供决策功能,并使用 Fork-Join Control Node
并行执行作业。它允许用户使用 Email
操作为工作流的成功/失败通知配置电子邮件选项。