使用 Sqoop 合并通过增量导入导入的数据集

Sqoop 增量导入由于称为 CDC 即变更数据捕获的现象而出现**。**现在什么是 CDC?

CDC 是一种设计模式,可捕获单个数据更改,而不是处理整个数据。相反,我们的倾倒整个数据库,使用 CDC 的,我们可以捕捉只是主数据库所做的数据更改。

例如:如果我们面对的是一个数据问题,比方说,1 分十万的数据项进入了 RDBMS 每天,我们必须得到一个每天都在 Hadoop 中这个数据,那么我们会想刚刚拿到新添加的数据,作为导入每天向 Hadoop 提供的完整 RDBMS 数据将是一个开销,也会延迟数据的可用性。有关详细说明,请通过此链接。