大數(shù)據(jù)實時計算框架實時數(shù)據(jù)倉庫如何做？

2021-03-13

1437

實時數(shù)據(jù)倉庫如何做？雖然我做報表和Bi，但是報表和Bi的效果比較好，底層的數(shù)據(jù)非常重要，數(shù)據(jù)架構也非常重要，這就必然涉及到數(shù)據(jù)倉庫。讓我們先放一些圖片：如果你想建立一個實時數(shù)據(jù)倉庫，你必須知道：1。什

實時數(shù)據(jù)倉庫如何做？

雖然我做報表和Bi，但是報表和Bi的效果比較好，底層的數(shù)據(jù)非常重要，數(shù)據(jù)架構也非常重要，這就必然涉及到數(shù)據(jù)倉庫。

讓我們先放一些圖片：

如果你想建立一個實時數(shù)據(jù)倉庫，你必須知道：

1。什么是數(shù)據(jù)倉庫

2。實時數(shù)據(jù)倉庫和數(shù)據(jù)庫有什么區(qū)別。實時數(shù)據(jù)倉庫和傳統(tǒng)數(shù)據(jù)倉庫有什么區(qū)別

4。什么是實時數(shù)據(jù)倉庫的體系結構

5。怎么做

這些問題在上圖中都是抽象的。解釋哪些問題需要弄清楚需要花很長時間，我在以前的文章中已經(jīng)寫過了。你可以去看看。

Spark streaming是一個基于Spark的實時計算框架，它擴展了Spark處理大規(guī)模流數(shù)據(jù)的能力。spark流的優(yōu)點是它可以在1000個節(jié)點上以秒延遲運行。

采用基于內(nèi)存的spark作為執(zhí)行引擎，具有高效、容錯的特點。

可以集成批量處理和spark的交互式查詢。

它提供了一個簡單的界面，類似于復雜算法的批處理。

正是由于這個原因，spark-streaming受到了很多企業(yè)的追捧，在生產(chǎn)項目中得到了廣泛的應用，但在使用過程中也存在一些熱點問題。

原文的詳細解釋：https://blog.csdn.net/GitChat/article/details/78050311