hive適合存儲什么文件 Hadoop生態(tài)系統(tǒng)及各模塊的功能？

2023-06-06

4598

Hadoop生態(tài)系統(tǒng)及各模塊的功能？1.HDFS(Hadoop分布式文件系統(tǒng))HDFS是一個在Hadoop生態(tài)中提供分布式存儲支持的系統(tǒng)，很多上層計算框架(Hbase，Spark等。)依靠HDFS存儲

Hadoop生態(tài)系統(tǒng)及各模塊的功能？

1.HDFS(Hadoop分布式文件系統(tǒng))

HDFS是一個在Hadoop生態(tài)中提供分布式存儲支持的系統(tǒng)，很多上層計算框架(Hbase，Spark等。)依靠HDFS存儲。

(分布式計算模型)離線計算

什么是離線計算，其實就是非實時計算。

3.分布式資源管理器

紗線與紡織品。;的出現(xiàn)主要是為了解決原有Hadoop擴展性差，不支持多種計算模式的問題。

4.存儲計算

Spark在內(nèi)存中提供分布式計算能力，比傳統(tǒng)的MapReduce大數(shù)據(jù)分析更高效、更快速。

5.分布式列存儲數(shù)據(jù)庫

Hbase繼承了列存儲的特點，非常適合數(shù)據(jù)的隨機讀寫。其次，Hbase建立在HDFS之上，它內(nèi)部管理的所有文件都存儲在HDFS。這使得它具有高度的容錯性和可擴展性，并支持Hadoop mapreduce編程模型。

6.數(shù)據(jù)倉庫

7.Oozie(工作流調(diào)度程序)

Oozie是一個基于工作流引擎的調(diào)度器，它實際上是一個運行在Java Servlet容器(如Tomcat)中的JavaWeb應(yīng)用程序，在其上可以運行諸如Hadoop 地圖縮小和豬。

8.Sqoop和Pig

9.Flume(日志收集工具)

Flume將數(shù)據(jù)從產(chǎn)生、傳輸、處理到最終寫入目標路徑的過程抽象成數(shù)據(jù)流。在具體的數(shù)據(jù)流中，數(shù)據(jù)源支持在Flume中定制數(shù)據(jù)發(fā)送方，從而支持不同協(xié)議的數(shù)據(jù)采集。

10.Kafka(分布式消息隊列)

Kafka是Apach

配置單元功能:

延遲高，適合高通量、批量、海量數(shù)據(jù)處理。

2，語法類似SQL，學(xué)習(xí)成本低，避免了復(fù)雜的MapReduce，縮短了開發(fā)周期。

支持自由擴展集群規(guī)模，一般不需要重啟服務(wù)。

支持用戶自定義函數(shù)，用戶可以根據(jù)自己的需求定義函數(shù)。

5、容錯性好，在節(jié)點出現(xiàn)問題時，SQL仍能成功執(zhí)行。