Joins

需要注意的一點是你的資源與你加入的資料大小。這是你的 Spark Join 程式碼可能失敗的地方,會給你帶來記憶體錯誤。因此,請確保根據資料大小配置 Spark 作業。以下是 150 萬到 2 億的連線配置示例。

使用 Spark-Shell

spark-shell   --executor-memory 32G   --num-executors 80  --driver-memory 10g --executor-cores 10   

使用 Spark 提交

spark-submit   --executor-memory 32G   --num-executors 80  --driver-memory 10g --executor-cores 10 code.jar