數(shù)據(jù)倉庫 數(shù)據(jù)倉庫ETL到底是什么?
數(shù)據(jù)倉庫ETL到底是什么?ETL工作的實質是從各種數(shù)據(jù)源中提取數(shù)據(jù),對數(shù)據(jù)進行轉換,最后通過數(shù)據(jù)倉庫的維度建模,將數(shù)據(jù)加載到表中并填充到表中。只有填寫了這些維度/事實表,ETL工作才能完成。接下來,分
數(shù)據(jù)倉庫ETL到底是什么?
ETL工作的實質是從各種數(shù)據(jù)源中提取數(shù)據(jù),對數(shù)據(jù)進行轉換,最后通過數(shù)據(jù)倉庫的維度建模,將數(shù)據(jù)加載到表中并填充到表中。只有填寫了這些維度/事實表,ETL工作才能完成。接下來,分別闡述了提取、轉換和加載的三個步驟:數(shù)據(jù)倉庫面向分析,操作數(shù)據(jù)庫面向應用。顯然,并非所有用于支持業(yè)務系統(tǒng)的數(shù)據(jù)都是分析所必需的。因此,本階段主要根據(jù)數(shù)據(jù)倉庫主題和主題字段確定從應用數(shù)據(jù)庫中提取的編號。
在具體的開發(fā)過程中,開發(fā)人員必須經(jīng)常發(fā)現(xiàn)數(shù)據(jù)倉庫建模后某些ETL步驟與表描述不匹配。這時,需要重新檢查和設計需求,重新進行ETL。正如本文在數(shù)據(jù)庫系列中提到的,任何涉及需求的更改都需要重新開始并更新需求文檔。
轉換步驟主要是指轉換提取的數(shù)據(jù)結構以滿足目標數(shù)據(jù)倉庫模型的過程。此外,轉換過程還對數(shù)據(jù)質量負責,這也稱為數(shù)據(jù)清洗。這里可以參考數(shù)據(jù)質量的內容。
在加載過程中,為確保數(shù)據(jù)質量而提取和轉換的數(shù)據(jù)將加載到目標數(shù)據(jù)倉庫中。加載可以分為兩種類型:首次加載和刷新加載。其中,首次加載會涉及大量數(shù)據(jù),而刷新加載是一種微批量加載。
我們可以說,隨著各種分布式和云計算工具的興起,ETL實際上已經(jīng)成為ELT。也就是說,業(yè)務系統(tǒng)本身不會做轉換工作,而是將數(shù)據(jù)導入到分布式平臺進行簡單清洗后,讓平臺進行清洗和轉換工作。這樣可以充分利用平臺的分布式特點,使業(yè)務系統(tǒng)更加專注于業(yè)務本身。