Joins
需要注意的一点是你的资源与你加入的数据大小。这是你的 Spark Join 代码可能失败的地方,会给你带来内存错误。因此,请确保根据数据大小配置 Spark 作业。以下是 150 万到 2 亿的连接配置示例。
使用 Spark-Shell
spark-shell --executor-memory 32G --num-executors 80 --driver-memory 10g --executor-cores 10
使用 Spark 提交
spark-submit --executor-memory 32G --num-executors 80 --driver-memory 10g --executor-cores 10 code.jar