大數(shù)據(jù)實時計算框架 實時數(shù)據(jù)倉庫如何做?
實時數(shù)據(jù)倉庫如何做?雖然我做報表和Bi,但是報表和Bi的效果比較好,底層的數(shù)據(jù)非常重要,數(shù)據(jù)架構也非常重要,這就必然涉及到數(shù)據(jù)倉庫。讓我們先放一些圖片:如果你想建立一個實時數(shù)據(jù)倉庫,你必須知道:1。什
實時數(shù)據(jù)倉庫如何做?
雖然我做報表和Bi,但是報表和Bi的效果比較好,底層的數(shù)據(jù)非常重要,數(shù)據(jù)架構也非常重要,這就必然涉及到數(shù)據(jù)倉庫。
讓我們先放一些圖片:
如果你想建立一個實時數(shù)據(jù)倉庫,你必須知道:
1。什么是數(shù)據(jù)倉庫
2。實時數(shù)據(jù)倉庫和數(shù)據(jù)庫有什么區(qū)別。實時數(shù)據(jù)倉庫和傳統(tǒng)數(shù)據(jù)倉庫有什么區(qū)別
4。什么是實時數(shù)據(jù)倉庫的體系結構
5。怎么做
這些問題在上圖中都是抽象的。解釋哪些問題需要弄清楚需要花很長時間,我在以前的文章中已經(jīng)寫過了。你可以去看看。
如何基于Spark Streaming構建實時計算平臺?
Spark streaming是一個基于Spark的實時計算框架,它擴展了Spark處理大規(guī)模流數(shù)據(jù)的能力。spark流的優(yōu)點是它可以在1000個節(jié)點上以秒延遲運行。
采用基于內(nèi)存的spark作為執(zhí)行引擎,具有高效、容錯的特點。
可以集成批量處理和spark的交互式查詢。
它提供了一個簡單的界面,類似于復雜算法的批處理。
正是由于這個原因,spark-streaming受到了很多企業(yè)的追捧,在生產(chǎn)項目中得到了廣泛的應用,但在使用過程中也存在一些熱點問題。
原文的詳細解釋:https://blog.csdn.net/GitChat/article/details/78050311