安装或设置

Linux

要求(r0.16.0)

强制性

根据目前的 Apache-Pig 文档,它仅支持 UnixWindows 操作系统。

  • Hadoop 0.23.X,1.X 或 2.X
  • 安装 Java 1.6 或更高版本并将 JAVA_HOME 环境变量设置为 Java 安装目录

可选的

  • Python 2.7 或更高版本(Python UDF)
  • Ant 1.8(用于构建)

下载最新的 Pig 版本

http://pig.apache.org/releases.html#Download 下载最新版本的 pig

安装

mkdir Pig
cd Downloads/ 
tar zxvf pig-(latest-version).tar.gz 
tar zxvf pig-(latest-version).tar.gz 
mv pig-(latest-version).tar.gz/* /home/Pig/

组态

安装 Apache Pig 后,我们必须对其进行配置。

打开 .bashrc 文件

vim ~/.bashrc

在 .bashrc 文件中,设置以下变量 -

export PIG_HOME = /home/Pig
export PATH  = PATH:/home/Pig/bin

保存文件并使用在环境中重新加载 bashrc

. ~/.bashrc

验证猪版

pig –version 

如果安装成功,则上面的命令显示已安装的 Pig 版本号。

测试猪安装

pig -h

这应显示与 pig 相关的所有可能命令

你的猪现在已在本地安装,你可以使用本地参数来运行它

pig -x local

连接到 Hadoop

如果在群集上安装了 Hadoop1.x 或 2.x,则会设置 HADOOP_HOME 环境变量。

你可以像以前一样在 .bashrc 中添加一行,将 pig 连接到 Hadoop

export PIG_CLASSPATH = $HADOOP_HOME/conf

跑猪

执行模式

你可以使用 pig (bin / pig) 命令或运行 jar 文件 (java -cp pig.jar) 来运行 Pig **

PIG 脚本可以在 3 种不同的模式下执行:

  • 本地模式

     pig -x local ...
    
  • Mapreduce 模式 (默认模式)

     pig -x mapreduce ...
          (or)
     pig ...
    
  • Tez 本地模式

     pig -x tez ...
    

互动模式

Pig 可以使用 Grunt shell 以交互模式运行。可以在此 shell 中以交互方式输入 Pig Latin 语句和命令。

$ pig -x <mode> <enter>
grunt>

Mode 可以是执行模式之一,如上一节中所述。

批处理模式

Pig 也可以批处理模式执行。这里提供了包含 pig 语句和命令列表的 .pig 文件。

$ pig -x <mode> <script.pig>
grunt>

类似地,Mode 可以是执行模式之一,如上一节中所述。