etl數(shù)據(jù)抽取工具開源etl工具比較，kettle和talend，都有什么優(yōu)勢和劣勢？

2021-03-10

2175

開源etl工具比較，kettle和talend，都有什么優(yōu)勢和劣勢？幾種ETL工具（kettle、talent、Informatica、datapipeline等）的比較四種工具的比較主要從以下幾個方

開源etl工具比較，kettle和talend，都有什么優(yōu)勢和劣勢？

幾種ETL工具（kettle、talent、Informatica、datapipeline等）的比較

四種工具的比較主要從以下幾個方面進(jìn)行：

1。成本：

軟件成本包括很多方面，包括軟件產(chǎn)品、售前培訓(xùn)、售后咨詢、技術(shù)支持等

開源產(chǎn)品本身是免費(fèi)的，成本主要是培訓(xùn)和咨詢，所以成本始終保持在較低的水平。

商業(yè)產(chǎn)品的價格非常高，但通常會提供幾次免費(fèi)咨詢或支持，因此使用商業(yè)軟件的初始成本非常高，但會逐漸降低。

人工編碼初期成本不高，主要是人力成本，但后期維護(hù)工作量會越來越大。

2. 易用性：

datapipeline:GUI非常易于使用，具有豐富的視覺監(jiān)控；

kettle:GUI編碼；

Informatica:GUI編碼，具有GUI，但經(jīng)過特殊培訓(xùn)；

talent:GUI編碼，具有GUI圖形界面，但具有eclipse 3。技能要求：

數(shù)據(jù)管道：操作簡單，無技術(shù)要求；

水壺：ETL設(shè)計，SQL，數(shù)據(jù)建模；

Informatica：ETL設(shè)計，SQL，數(shù)據(jù)建模；

人才：需要編寫Java；

4。底層架構(gòu)：

datapipeline:分布式，水平可擴(kuò)展；

Ketter:主從結(jié)構(gòu)不高可用性；

有沒有擴(kuò)展性較好的ETL產(chǎn)品？

介紹我知道的常見ETL工具：dataX、Datastage、Informatica、Ketter、datapipeline。

阿里巴巴開源軟件：dataX

dataX是一款針對異構(gòu)數(shù)據(jù)源的離線同步工具。致力于實(shí)現(xiàn)關(guān)系數(shù)據(jù)庫（mysql、Oracle等）、HDFS、hive、ODPs、HBase、FTP等異構(gòu)數(shù)據(jù)源之間穩(wěn)定高效的數(shù)據(jù)同步

Kettle開源軟件：Kettle（中文名）

Kettle是國外開源ETL工具，純Java編寫，可以在windows上運(yùn)行，Linux和UNIX，具有良好的可擴(kuò)展性和高效穩(wěn)定的數(shù)據(jù)抽取。主從結(jié)構(gòu)，無高可用性。它不支持?jǐn)?shù)據(jù)的實(shí)時同步，也不支持?jǐn)帱c(diǎn)續(xù)航。

IBM商務(wù)軟件：Datastage

最專業(yè)的商務(wù)ETL工具，價格比較貴，但處理速度也能在大數(shù)據(jù)量下保持較快的處理速度和穩(wěn)定性。實(shí)時監(jiān)控也很不錯，可以看到數(shù)據(jù)提取的情況，運(yùn)行到哪一步，很直觀。強(qiáng)大的售后技術(shù)支持。

商務(wù)軟件：Informatica

專業(yè)ETL工具，價格比Datastage便宜一點(diǎn)，需要安裝服務(wù)器和客戶端，處理速度與Datastage相同。分布式部署，支持實(shí)時性，但效率不高。技術(shù)支持主要在美國，所以在中國使用較少。

國產(chǎn)：datapipeline

國產(chǎn)充電工具，與dataX相比，datapipeline具有可視化的過程監(jiān)控，提供多樣化的圖標(biāo)、輔助操作和維護(hù)，以及故障問題的實(shí)時報警。DataX需要依賴工具日志來定位故障問題。支持實(shí)時，dataX是定時的。支持?jǐn)帱c(diǎn)延續(xù)，但dataX不支持。體系結(jié)構(gòu)也是分布式的，支持水平擴(kuò)展。

水壺是一個小的數(shù)據(jù)要求，它唯一的優(yōu)勢是免費(fèi)的

1。沒有過程管理。當(dāng)表被鎖定時，很難找到原因，并且無法終止進(jìn)程，也無法控制最大進(jìn)程數(shù)。

2. 數(shù)據(jù)抽取不能自動分包，也沒有像ABAP這樣高效的查詢語句，比如select from。。所有入口都在。。大數(shù)據(jù)處理速度很慢，大量數(shù)據(jù)的日常處理無法完成。

3. 無法自動處理指定字段的增量。

4. 無法調(diào)試，調(diào)試將不提取數(shù)據(jù)。

5. 在計劃處理鏈中指定命令非常麻煩。沒有接口操作。處理鏈中有錯誤。無法繼續(xù)運(yùn)行或跳過處理。

6. 無法記錄每個處理詳細(xì)信息并記錄處理時間。

7. 無法共享字段。字段不關(guān)聯(lián)本位幣單位，沒有基礎(chǔ)資料字段的概念。

8. 沒有包處理的概念，沒有日志處理。

9. 沒有版本控制，聯(lián)機(jī)不是傳輸。

10. 另外，沒有外部發(fā)布WS、OData接口函數(shù)

更不用說報表函數(shù)，權(quán)限控制功能不強(qiáng)，底層數(shù)據(jù)庫也不是多維信息立方體結(jié)構(gòu)，字段也不區(qū)分指標(biāo)和特征。。。。。

ETL工具，Kettle和DataStage各自有什么優(yōu)缺點(diǎn)，目前哪個更流行一些？

ETL工作的實(shí)質(zhì)是從各種數(shù)據(jù)源中提取數(shù)據(jù)，對數(shù)據(jù)進(jìn)行轉(zhuǎn)換，最后通過數(shù)據(jù)倉庫的維度建模，將數(shù)據(jù)加載并填充到表中。只有填寫了這些維度/事實(shí)表，ETL工作才能完成。接下來，分別闡述了提取、轉(zhuǎn)換和加載的三個步驟：數(shù)據(jù)倉庫面向分析，操作數(shù)據(jù)庫面向應(yīng)用。顯然，并非所有用于支持業(yè)務(wù)系統(tǒng)的數(shù)據(jù)都是分析所必需的。因此，本階段主要根據(jù)數(shù)據(jù)倉庫主題和主題字段確定從應(yīng)用數(shù)據(jù)庫中提取的編號。

在具體的開發(fā)過程中，開發(fā)人員必須經(jīng)常發(fā)現(xiàn)數(shù)據(jù)倉庫建模后某些ETL步驟與表描述不匹配。這時，需要重新檢查和設(shè)計需求，重新進(jìn)行ETL。正如本文在數(shù)據(jù)庫系列中提到的，任何涉及需求的更改都需要重新開始并更新需求文檔。

轉(zhuǎn)換步驟主要是指轉(zhuǎn)換提取的數(shù)據(jù)結(jié)構(gòu)以滿足目標(biāo)數(shù)據(jù)倉庫模型的過程。此外，轉(zhuǎn)換過程還對數(shù)據(jù)質(zhì)量負(fù)責(zé)，這也稱為數(shù)據(jù)清洗。這里可以參考數(shù)據(jù)質(zhì)量的內(nèi)容。

在加載過程中，為確保數(shù)據(jù)質(zhì)量而提取和轉(zhuǎn)換的數(shù)據(jù)將加載到目標(biāo)數(shù)據(jù)倉庫中。加載可以分為兩種類型：首次加載和刷新加載。其中，首次加載會涉及大量數(shù)據(jù)，而刷新加載是一種微批量加載。

我們可以說，隨著各種分布式和云計算工具的興起，ETL實(shí)際上已經(jīng)成為ELT。也就是說，業(yè)務(wù)系統(tǒng)本身不會做轉(zhuǎn)換工作，而是將數(shù)據(jù)導(dǎo)入到分布式平臺進(jìn)行簡單清洗后，讓平臺進(jìn)行清洗和轉(zhuǎn)換工作。這樣可以充分利用平臺的分布式特點(diǎn)，使業(yè)務(wù)系統(tǒng)更加專注于業(yè)務(wù)本身。

數(shù)據(jù)倉庫ETL到底是什么？

ETL只是數(shù)據(jù)處理的一個小分支。我以前做過數(shù)據(jù)中心產(chǎn)品。ETL工具使用開源的kettle，這很容易使用。

但是僅僅用ETL來進(jìn)行數(shù)據(jù)收集和清理并不能使整個數(shù)據(jù)中心產(chǎn)品成為可能。如何提高海量數(shù)據(jù)處理的效率

如何審核數(shù)據(jù)的一致性，如何在多個屏幕上顯示和交互都有很大的知識。

如果我們只是做ETL，它有點(diǎn)太窄，而且未來的就業(yè)選擇不夠廣泛。

建議盡量選擇更廣泛的數(shù)據(jù)處理工作，如大數(shù)據(jù)處理技術(shù)。

個人建議，歡迎討論

国产成人毛片视频|星空传媒久草视频|欧美激情草久视频|久久久久女女|久操超碰在线播放|亚洲强奸一区二区|五月天丁香社区在线|色婷婷成人丁香网|午夜欧美6666|纯肉无码91视频

開源etl工具比較，kettle和talend，都有什么優(yōu)勢和劣勢？

有沒有擴(kuò)展性較好的ETL產(chǎn)品？

ETL工具，Kettle和DataStage各自有什么優(yōu)缺點(diǎn)，目前哪個更流行一些？

數(shù)據(jù)倉庫ETL到底是什么？

相關(guān)推薦

開源etl工具比較，kettle和talend，都有什么優(yōu)勢和劣勢？

ETL工具，Kettle和DataStage各自有什么優(yōu)缺點(diǎn)，目前哪個更流行一些？

數(shù)據(jù)倉庫ETL到底是什么？