kettle高級(jí)教程 nifi和kettle區(qū)別?
nifi和kettle區(qū)別?Nifi的處理器是雙核和雙線程,運(yùn)行分?jǐn)?shù)為10000,而kettle的處理器是四核和四線程,運(yùn)行分?jǐn)?shù)為20000。不同的是處理器的計(jì)算速度不同水壺是一個(gè)小數(shù)據(jù)需求,它唯一的
nifi和kettle區(qū)別?
Nifi的處理器是雙核和雙線程,運(yùn)行分?jǐn)?shù)為10000,而kettle的處理器是四核和四線程,運(yùn)行分?jǐn)?shù)為20000。不同的是處理器的計(jì)算速度不同
水壺是一個(gè)小數(shù)據(jù)需求,它唯一的優(yōu)勢(shì)是免費(fèi)
1。沒有過程管理。當(dāng)表被鎖定時(shí),很難找出原因、終止進(jìn)程以及控制最大進(jìn)程數(shù)。
2. 數(shù)據(jù)抽取不能自動(dòng)分包,也沒有像ABAP這樣高效的查詢語句,比如select from。。所有入口都在。。大數(shù)據(jù)處理速度很慢,大量數(shù)據(jù)的日常處理無法完成。
3. 無法自動(dòng)處理指定字段的增量。
4. 無法調(diào)試,調(diào)試將不提取數(shù)據(jù)。
5. 在計(jì)劃處理鏈中指定命令非常麻煩。沒有接口操作。處理鏈中有錯(cuò)誤。無法繼續(xù)運(yùn)行或跳過處理。
6. 無法記錄每個(gè)處理詳細(xì)信息并記錄處理時(shí)間。
7. 無法共享字段。字段不關(guān)聯(lián)本位幣單位,沒有基礎(chǔ)資料字段的概念。
8. 沒有包處理的概念,沒有日志處理。
9. 沒有版本控制,聯(lián)機(jī)不是傳輸。
10. 另外,沒有外部發(fā)布WS、OData接口函數(shù)
更不用說報(bào)表函數(shù),權(quán)限控制功能不強(qiáng),底層數(shù)據(jù)庫也不是多維信息立方體結(jié)構(gòu),字段也不區(qū)分指標(biāo)和特征。。。。。
ETL工具,Kettle和DataStage各自有什么優(yōu)缺點(diǎn),目前哪個(gè)更流行一些?
幾種ETL工具(kettle、talent、Informatica、datapipeline等)的比較
四種工具的比較主要從以下幾個(gè)方面進(jìn)行:
1。成本:
軟件成本包括很多方面,包括軟件產(chǎn)品、售前培訓(xùn)、售后咨詢、技術(shù)支持等
開源產(chǎn)品本身是免費(fèi)的,成本主要是培訓(xùn)和咨詢,所以成本始終保持在較低的水平。
商業(yè)產(chǎn)品的價(jià)格非常高,但通常會(huì)提供幾次免費(fèi)咨詢或支持,因此使用商業(yè)軟件的初始成本非常高,但會(huì)逐漸降低。
人工編碼初期成本不高,主要是人力成本,但后期維護(hù)工作量會(huì)越來越大。
2. 易用性:
datapipeline:GUI非常易于使用,具有豐富的視覺監(jiān)控;
kettle:GUI編碼;
Informatica:GUI編碼,具有GUI,但經(jīng)過特殊培訓(xùn);
talent:GUI編碼,具有GUI圖形界面,但具有eclipse 3。技能要求:
數(shù)據(jù)管道:操作簡(jiǎn)單,無技術(shù)要求;
水壺:ETL設(shè)計(jì),SQL,數(shù)據(jù)建模;
Informatica:ETL設(shè)計(jì),SQL,數(shù)據(jù)建模;
人才:需要編寫Java;
4。底層體系結(jié)構(gòu):
datapipeline:分布式,水平可擴(kuò)展;
Ketter:主從結(jié)構(gòu)可用性不高;
開源etl工具比較,kettle和talend,都有什么優(yōu)勢(shì)和劣勢(shì)?
dataX很好。
DataX是阿里巴巴集團(tuán)廣泛使用的離線數(shù)據(jù)同步工具/平臺(tái),包括mysql、Oracle、sqlserver、postgre、HDFS、hive、ads、HBase、tablestore
壺:是指有蓋的開水壺,也就是熱水壺
壺:用來存放物品或烹飪的圓形容器,如咖啡壺或咖啡壺茶壺
壺:用來存放東西或做飯的圓形容器,如咖啡壺或茶壺