oozie是什么工具 Hadoop生態(tài)系統(tǒng)及各模塊的功能？

2023-07-06

2346

Hadoop生態(tài)系統(tǒng)及各模塊的功能？1.HDFS(Hadoop分布式文件系統(tǒng))HDFS是一個(gè)在Hadoop生態(tài)中提供分布式存儲(chǔ)支持的系統(tǒng)，很多上層計(jì)算框架(Hbase，Spark等。)依靠HDFS存儲(chǔ)

Hadoop生態(tài)系統(tǒng)及各模塊的功能？

1.HDFS(Hadoop分布式文件系統(tǒng))

HDFS是一個(gè)在Hadoop生態(tài)中提供分布式存儲(chǔ)支持的系統(tǒng)，很多上層計(jì)算框架(Hbase，Spark等。)依靠HDFS存儲(chǔ)。

(分布式計(jì)算模型)離線計(jì)算

什么是離線計(jì)算，其實(shí)就是非實(shí)時(shí)計(jì)算。

3.分布式資源管理器

紗線與紡織品。;的出現(xiàn)主要是為了解決原有Hadoop擴(kuò)展性差，不支持多種計(jì)算模式的問題。

4.存儲(chǔ)計(jì)算

Spark在內(nèi)存中提供分布式計(jì)算能力，比傳統(tǒng)的MapReduce大數(shù)據(jù)分析更高效、更快速。

5.分布式列存儲(chǔ)數(shù)據(jù)庫

Hbase繼承了列存儲(chǔ)的特點(diǎn)，非常適合數(shù)據(jù)的隨機(jī)讀寫。其次，Hbase建立在HDFS之上，它內(nèi)部管理的所有文件都存儲(chǔ)在HDFS。這使得它具有高度的容錯(cuò)性和可擴(kuò)展性，并支持Hadoop mapreduce編程模型。

6.數(shù)據(jù)倉庫

7.Oozie(工作流調(diào)度程序)

Oozie是一個(gè)基于工作流引擎的調(diào)度器，它實(shí)際上是一個(gè)運(yùn)行在Java Servlet容器(如Tomcat)中的JavaWeb應(yīng)用程序，在其上可以運(yùn)行諸如Hadoop 地圖縮小和豬。

8.Sqoop和Pig

9.Flume(日志收集工具)

Flume將數(shù)據(jù)從產(chǎn)生、傳輸、處理到最終寫入目標(biāo)路徑的過程抽象成數(shù)據(jù)流。在具體的數(shù)據(jù)流中，數(shù)據(jù)源支持在Flume中定制數(shù)據(jù)發(fā)送方，從而支持不同協(xié)議的數(shù)據(jù)采集。

10.Kafka(分布式消息隊(duì)列)

Kafka是Apach

平臺(tái)組件是什么？

平臺(tái)組件包括以下內(nèi)容，:。

傳統(tǒng)的關(guān)系數(shù)據(jù)庫為Hive、Hue和Spark組件提供元數(shù)據(jù)存儲(chǔ)服務(wù)。

2.彈性搜索

一個(gè)具有搜索引擎和NoSQL數(shù)據(jù)庫功能的開源系統(tǒng)，基于JAVA/Lucene，開源，分布式，支持RESTful請求。

3.弗林克

結(jié)合批處理和流處理的統(tǒng)一計(jì)算框架，為數(shù)據(jù)分發(fā)和并行計(jì)算提供流數(shù)據(jù)處理引擎。

4.水道

一個(gè)分布式的、可靠的、高可用的海量日志聚合系統(tǒng)，支持在系統(tǒng)中定制各種數(shù)據(jù)發(fā)送方來收集數(shù)據(jù)；

同時(shí)，F(xiàn)lume提供了簡單處理數(shù)據(jù)并將其寫入各種數(shù)據(jù)接收者(可定制)的能力。

5.HBase

它提供海量數(shù)據(jù)存儲(chǔ)功能，是一個(gè)基于HDFS的分布式列存儲(chǔ)系統(tǒng)。HDFS Hadoop分布式文件系統(tǒng)提供了高吞吐量的數(shù)據(jù)訪問，適合大規(guī)模數(shù)據(jù)集。

基于Hadoop的開源數(shù)據(jù)倉庫，提供結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)服務(wù)和類似SQL Hive查詢語言的基礎(chǔ)數(shù)據(jù)分析服務(wù)。

提供了圖形用戶網(wǎng)絡(luò)界面。Hue支持各種組件的顯示，目前支持HDFS、Hive、YARN/Mapreduce、Oozie、Solr和ZooKeeper。

8.卡夫卡

一種分布式、分區(qū)、多副本的實(shí)時(shí)消息發(fā)布和訂閱系統(tǒng)。提供可擴(kuò)展、高吞吐量、低延遲和高可靠性的消息分發(fā)服務(wù)。

9.Sqoop

用于與關(guān)系數(shù)據(jù)庫和文件系統(tǒng)交換數(shù)據(jù)和文件的數(shù)據(jù)加載工具；同時(shí)提供REST API接口供第三方調(diào)度平臺(tái)調(diào)用。

它是一種分布式的數(shù)據(jù)處理模式和執(zhí)行環(huán)境，提供了快速并行處理大量數(shù)據(jù)的能力。

11.馭象者

它為開源的Hadoop組件提供了任務(wù)安排和執(zhí)行的功能。作為Java Web應(yīng)用程序在Java servlet容器(如Tomcat)中運(yùn)行，使用數(shù)據(jù)庫存儲(chǔ)工作流定義和當(dāng)前運(yùn)行的工作流實(shí)例(包括實(shí)例狀態(tài)和變量)。

一個(gè)開源的高性能鍵值e分布式存儲(chǔ)數(shù)據(jù)庫，支持豐富的數(shù)據(jù)類型，彌補(bǔ)了memcached等鍵值存儲(chǔ)的不足，滿足了實(shí)時(shí)高并發(fā)需求。

它提供了小文件的后臺(tái)合并功能，可以自動(dòng)發(fā)現(xiàn)系統(tǒng)中的小文件(通過文件大小閾值判斷)，在空閑時(shí)間進(jìn)行合并，并將元數(shù)據(jù)存儲(chǔ)在本地LevelDB中以減輕NameNode的壓力，同時(shí)提供了新的文件系統(tǒng)接口，允許用戶透明地訪問這些小文件。

基于Lucene的高性能全文檢索服務(wù)器?；鸹?基于內(nèi)存的分布式計(jì)算框架。

提供一個(gè)分布式、高性能、高可靠、容錯(cuò)的實(shí)時(shí)計(jì)算平臺(tái)，能夠?qū)崟r(shí)處理海量數(shù)據(jù)。CQL提供的類似SQL的流處理語言可以快速開發(fā)業(yè)務(wù)，縮短業(yè)務(wù)上線時(shí)間。

16.故事

資源管理系統(tǒng)是一個(gè)通用的資源模塊，可以為各種應(yīng)用管理和調(diào)度資源。

17.動(dòng)物園管理員

提供分布式、高可用的協(xié)調(diào)服務(wù)能力。幫助系統(tǒng)避免單點(diǎn)故障，從而建立可靠的應(yīng)用程序。

国产成人毛片视频|星空传媒久草视频|欧美激情草久视频|久久久久女女|久操超碰在线播放|亚洲强奸一区二区|五月天丁香社区在线|色婷婷成人丁香网|午夜欧美6666|纯肉无码91视频

Hadoop生態(tài)系統(tǒng)及各模塊的功能？

平臺(tái)組件是什么？

相關(guān)推薦

平臺(tái)組件是什么？