使用 Sqoop 合併通過增量匯入匯入的資料集
Sqoop 增量匯入由於稱為 CDC 即變更資料捕獲的現象而出現**。**現在什麼是 CDC?
CDC 是一種設計模式,可捕獲單個資料更改,而不是處理整個資料。相反,我們的傾倒整個資料庫,使用 CDC 的,我們可以捕捉只是主資料庫所做的資料更改。
例如:如果我們面對的是一個資料問題,比方說,1 分十萬的資料項進入了 RDBMS 每天,我們必須得到一個每天都在 Hadoop 中這個資料,那麼我們會想剛剛拿到新新增的資料,作為匯入每天向 Hadoop 提供的完整 RDBMS 資料將是一個開銷,也會延遲資料的可用性。有關詳細說明,請通過此連結。