c++教程 hive執(zhí)行作業(yè)時reduce任務(wù)個數(shù)設(shè)置為多少合適?
hive執(zhí)行作業(yè)時reduce任務(wù)個數(shù)設(shè)置為多少合適?設(shè)置減速器的數(shù)量會極大地影響執(zhí)行效率配置單元執(zhí)行減速機. 字節(jié)/減速機(默認(rèn)值為1000^3)2配置單元執(zhí)行減速機. max(默認(rèn)值為999)計算
hive執(zhí)行作業(yè)時reduce任務(wù)個數(shù)設(shè)置為多少合適?
設(shè)置減速器的數(shù)量會極大地影響執(zhí)行效率配置單元執(zhí)行減速機. 字節(jié)/減速機(默認(rèn)值為1000^3)
2配置單元執(zhí)行減速機. max(默認(rèn)值為999)計算減速器數(shù)量的公式非常簡單:n=min(參數(shù)2,總輸入數(shù)據(jù)/參數(shù)1)。通常,需要手動指定減速器的數(shù)量??紤]到map級的輸出數(shù)據(jù)量通常遠(yuǎn)小于輸入級的數(shù)據(jù)量,即使沒有設(shè)置減速器的數(shù)量,也有必要重置參數(shù)2。根據(jù)Hadoop的經(jīng)驗,參數(shù)2可以設(shè)置為0.95*(集群中tasktracker的數(shù)量)。正確的reduce任務(wù)數(shù)應(yīng)為0.95或1.75×(節(jié)點數(shù)×)mapred.tasktracker.tasks任務(wù)1HBase:基于Hadoop數(shù)據(jù)庫,是NoSQL數(shù)據(jù)庫;HBase表是物理表,適合存儲非結(jié)構(gòu)化數(shù)據(jù)。
2. Hive:它不存儲數(shù)據(jù),而是依賴HDFS和MapReduce,通過SQL計算和處理HDFS上的結(jié)構(gòu)化數(shù)據(jù);Hive中的表是純邏輯表。
這兩者通常一起使用。
1. HBase:實時隨機查詢海量詳細(xì)數(shù)據(jù),存儲采集到的web數(shù)據(jù);
2。配置單元:適用于離線批量數(shù)據(jù)計算,一般用于查詢分析和統(tǒng)計。