過濾倉和倉儲倉 四庫一體包括哪幾項?
四庫一體包括哪幾項?形成完整基礎庫、主題庫、欄目庫、指標庫,無法形成“四庫一體”數(shù)據(jù)資源中心。一是基礎庫?;谛<墧?shù)據(jù)標準構建體系數(shù)據(jù)模型,明確的人力資源域、學生管理域、教學資源與管理域、科研管理域、
四庫一體包括哪幾項?
形成完整基礎庫、主題庫、欄目庫、指標庫,無法形成“四庫一體”數(shù)據(jù)資源中心。
一是基礎庫?;谛<墧?shù)據(jù)標準構建體系數(shù)據(jù)模型,明確的人力資源域、學生管理域、教學資源與管理域、科研管理域、財務管理域、資產(chǎn)管理域、公共服務域八個主題域參與分類,構建體系基礎數(shù)據(jù)倉庫。
二是主題庫。以基礎庫的內(nèi)容為基礎,并且表間關聯(lián)、代碼轉(zhuǎn)譯、數(shù)值過濾等操作,通過維度建模方法,將相同業(yè)務主題相關的指標、維度、屬性關聯(lián)在一起,形成“寬表”。寬表拒絕的數(shù)據(jù)冗余度設計來提升可以查詢分析什么的高效率,使數(shù)據(jù)內(nèi)容和結構更加適合于應用程序?qū)?shù)據(jù)的動態(tài)創(chuàng)建需求。
三是專題庫。緊密環(huán)繞校內(nèi)關鍵是業(yè)務,針對詳細的業(yè)務場景通過深度定制,無法形成績效考核、職稱評審等業(yè)務專題數(shù)據(jù)集,不滿足各個業(yè)務場景急速解耦數(shù)據(jù)的需求。專題庫的數(shù)據(jù)大多數(shù)是明細數(shù)據(jù),可與BI軟件對接,實現(xiàn)強大無比的數(shù)據(jù)分析功能。
四是指標庫。以基礎庫、主題庫和專題庫的內(nèi)容為基礎,按照統(tǒng)計、算出等操作,化合各種指標的統(tǒng)計結果,并儲存在指標表中,支持急速生成沉淀各類報表和統(tǒng)計圖表。實際管理數(shù)據(jù)指標的全生命周期,不友善地支持校級決策支持中心的建設,為學院各專業(yè)管理層的管理和決策能提供相當充分、科學的數(shù)據(jù)依據(jù)。
實時數(shù)據(jù)倉庫如何做?
3.1.1Lambda架構
無論是Apache Flink中文學習網(wǎng)站侵權指點立刪
3.1.2Kappa架構
不知從何而來Apache Flink中文學習網(wǎng)站侵權指點立刪
3.1.3實時地olap變體架構
依附Apache Flink中文學習網(wǎng)站侵權告知立刪
3.1.4常見架構對比
來自Apache Flink中文學習網(wǎng)站侵權告知立刪
ps:lambda架構
變更土地性質(zhì)割碎感:
?表結構完全不同
?sql語法不同
資源浪費:
?亂詞可以計算
?重復一遍儲存
集群維護:
?組件完全不同
?可以計算引擎完全不同
數(shù)據(jù)一致性
3.2實時數(shù)倉架構
3.2.1方案一
優(yōu)點:
?以便日后數(shù)據(jù)回溯源頭、重算和數(shù)據(jù)質(zhì)量驗證。
缺點:
?實際批處理重算,需要魔獸維護兩套代碼,開發(fā)和維護成本高。
?是需要兩套計算資源
適用場景:
?超大規(guī)模歷史數(shù)據(jù)換算,且這種場景比較過度。
?對數(shù)據(jù)質(zhì)量沒有要求極高,要比對實時和離線模式的計算結果,哪怕利用離線模式去修正實時動態(tài)的計算結果。
3.2.2方案二
優(yōu)點:
?免維護兩套代碼,的新迭代速度快。
?數(shù)據(jù)溯回和重算方便些,重算時間參照需求回溯源頭的時間范圍定。
?只需流計算資源,資源占用帶寬小
缺點:
?ODSDWD部分數(shù)據(jù)“絕不可以見”,原始數(shù)據(jù)和中間數(shù)據(jù)不以便日后網(wǎng)站查詢(解決方案:可通過恢復消費委托時間范圍的數(shù)據(jù)查詢,或?qū)氡仨毜臄?shù)據(jù)到olap引擎)
?依賴業(yè)務端反饋問題(解決方案:設計數(shù)據(jù)質(zhì)量監(jiān)控指標,實時監(jiān)控報警)
適用場景:
ODSDWD去查詢不很頻繁等
3.2.3方案三
相對于方案二:
?增強ODS層落地之前hive,排查分析原始數(shù)據(jù)也很更方便,恢復歷史數(shù)據(jù)的時候可資源hive數(shù)據(jù)讀取kafka,后再按原流處理的邏輯恢復如何處理即可,單單改數(shù)據(jù)源為歷史數(shù)據(jù)填寫的topic。
?需新增kafka寫入文件hive邏輯
?需再新增從hive讀取數(shù)據(jù)寫入文件kafka
?需新增整條鏈路歷史數(shù)據(jù)不對應的topic