ORC
優化行列(ORC)檔案格式提供了一種儲存 Hive 資料的高效方法。它旨在克服其他 Hive 檔案格式的限制。當 Hive 讀取,寫入和處理資料時,使用 ORC 檔案可以提高效能。ORC 檔案可以包含輕量索引和布隆過濾器。
請參閱: https : //cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC
ORC 是用於在 HortonWorks 發行版中儲存資料的推薦格式。
CREATE TABLE tab_orc (col1 STRING,
col2 STRING,
col3 STRING)
STORED AS ORC
TBLPROPERTIES (
"orc.compress"="SNAPPY",
"orc.bloom.filter.columns"="col1",
"orc.create.index" = "true"
)
要修改表,以便將表的新分割槽儲存為 ORC 檔案:
ALTER TABLE T SET FILEFORMAT ORC;
從 Hive 0.14 開始,使用者可以通過在其表或分割槽上發出 CONCATENATE
命令來請求將小 ORC 檔案有效合併。檔案將在條帶級別合併,而不是 reserializatoin。
ALTER TABLE T [PARTITION partition_spec] CONCATENATE;