ORC
优化行列(ORC)文件格式提供了一种存储 Hive 数据的高效方法。它旨在克服其他 Hive 文件格式的限制。当 Hive 读取,写入和处理数据时,使用 ORC 文件可以提高性能。ORC 文件可以包含轻量索引和布隆过滤器。
请参阅: https : //cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC
ORC 是用于在 HortonWorks 发行版中存储数据的推荐格式。
CREATE TABLE tab_orc (col1 STRING,
col2 STRING,
col3 STRING)
STORED AS ORC
TBLPROPERTIES (
"orc.compress"="SNAPPY",
"orc.bloom.filter.columns"="col1",
"orc.create.index" = "true"
)
要修改表,以便将表的新分区存储为 ORC 文件:
ALTER TABLE T SET FILEFORMAT ORC;
从 Hive 0.14 开始,用户可以通过在其表或分区上发出 CONCATENATE
命令来请求将小 ORC 文件有效合并。文件将在条带级别合并,而不是 reserializatoin。
ALTER TABLE T [PARTITION partition_spec] CONCATENATE;