Joins
需要注意的一點是你的資源與你加入的資料大小。這是你的 Spark Join 程式碼可能失敗的地方,會給你帶來記憶體錯誤。因此,請確保根據資料大小配置 Spark 作業。以下是 150 萬到 2 億的連線配置示例。
使用 Spark-Shell
spark-shell --executor-memory 32G --num-executors 80 --driver-memory 10g --executor-cores 10
使用 Spark 提交
spark-submit --executor-memory 32G --num-executors 80 --driver-memory 10g --executor-cores 10 code.jar