oozie 入门

Oozie 是一个 Apache 开源项目,最初是在雅虎开发的。Oozie 是一个用于多级 Hadoop 作业的通用调度系统。

  • Oozie 允许将相关 Hadoop 作业的逻辑分组形成一个名为 Workflow 的实体。Oozie 工作流程是动作的 DAG(定向循环图)。
  • Oozie 提供了一种使用名为 Coordinator 的实体来安排时间数据相关工作流的方法。
  • 此外,你可以将相关协调员组合到名为 Bundle 的实体中,并可以在 Oozie 服务器上进行调度以执行。

Oozie 支持大多数 Hadoop Jobs 作为 Oozie Action Nodes,如:MapRedudeJavaFileSystem(HDFS 操作),HiveHive2PigSparkSSHShellDistCpSqoop。它使用 Decision Control Node 动作提供决策功能,并使用 Fork-Join Control Node 并行执行作业。它允许用户使用 Email 操作为工作流的成功/失败通知配置电子邮件选项。