RDD 的分区
如备注中所述,分区是 RDD 的一部分/切片/块。以下是有关如何为 RDD 请求最小分区数的最小示例:
In [1]: mylistRDD = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9, 10], 2)
In [2]: mylistRDD.getNumPartitions()
Out[2]: 2
请注意[1]我们如何将 2 作为 parallelize()
的第二个参数传递。该参数表示我们希望我们的 RDD 至少有 2 个分区。