安装或设置
Linux
要求(r0.16.0)
强制性
根据目前的 Apache-Pig
文档,它仅支持 Unix
和 Windows
操作系统。
- Hadoop 0.23.X,1.X 或 2.X
- 安装 Java 1.6 或更高版本并将 JAVA_HOME 环境变量设置为 Java 安装目录
可选的
- Python 2.7 或更高版本(Python UDF)
- Ant 1.8(用于构建)
下载最新的 Pig 版本
从 http://pig.apache.org/releases.html#Download 下载最新版本的 pig
安装
mkdir Pig
cd Downloads/
tar zxvf pig-(latest-version).tar.gz
tar zxvf pig-(latest-version).tar.gz
mv pig-(latest-version).tar.gz/* /home/Pig/
组态
安装 Apache Pig 后,我们必须对其进行配置。
打开 .bashrc 文件
vim ~/.bashrc
在 .bashrc 文件中,设置以下变量 -
export PIG_HOME = /home/Pig
export PATH = PATH:/home/Pig/bin
保存文件并使用在环境中重新加载 bashrc
. ~/.bashrc
验证猪版
pig –version
如果安装成功,则上面的命令显示已安装的 Pig 版本号。
测试猪安装
pig -h
这应显示与 pig 相关的所有可能命令
你的猪现在已在本地安装,你可以使用本地参数来运行它
pig -x local
连接到 Hadoop
如果在群集上安装了 Hadoop1.x 或 2.x,则会设置 HADOOP_HOME 环境变量。
你可以像以前一样在 .bashrc 中添加一行,将 pig 连接到 Hadoop
export PIG_CLASSPATH = $HADOOP_HOME/conf
跑猪
执行模式
你可以使用 pig
(bin / pig) 命令或运行 jar
文件 (java -cp pig.jar) 来运行 Pig **
PIG
脚本可以在 3 种不同的模式下执行:
-
本地模式
pig -x local ...
-
Mapreduce 模式 (默认模式)
pig -x mapreduce ... (or) pig ...
-
Tez 本地模式
pig -x tez ...
互动模式
Pig 可以使用 Grunt
shell 以交互模式运行。可以在此 shell 中以交互方式输入 Pig Latin 语句和命令。
例
$ pig -x <mode> <enter>
grunt>
Mode
可以是执行模式之一,如上一节中所述。
批处理模式
Pig 也可以批处理模式执行。这里提供了包含 pig 语句和命令列表的 .pig
文件。
例
$ pig -x <mode> <script.pig>
grunt>
类似地,Mode
可以是执行模式之一,如上一节中所述。