數(shù)據(jù)庫(kù)同步工具 如何實(shí)現(xiàn)交易數(shù)據(jù)到大數(shù)據(jù)平臺(tái)的實(shí)時(shí)同步?
如何實(shí)現(xiàn)交易數(shù)據(jù)到大數(shù)據(jù)平臺(tái)的實(shí)時(shí)同步?在企業(yè)級(jí)大數(shù)據(jù)平臺(tái)建設(shè)中,將傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)(如Oracle)中的數(shù)據(jù)聚合到Hadoop平臺(tái)上是一個(gè)重要的課題。目前主流工具有sqoop、dataX、Oracle
如何實(shí)現(xiàn)交易數(shù)據(jù)到大數(shù)據(jù)平臺(tái)的實(shí)時(shí)同步?
在企業(yè)級(jí)大數(shù)據(jù)平臺(tái)建設(shè)中,將傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)(如Oracle)中的數(shù)據(jù)聚合到Hadoop平臺(tái)上是一個(gè)重要的課題。
目前主流工具有sqoop、dataX、Oracle golden gate for big data等,sqoop通過(guò)SQL語(yǔ)句獲取關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)后,通過(guò)Hadoop的MapReduce將關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)導(dǎo)入HDFS。它通過(guò)指定增量列或根據(jù)時(shí)間戳實(shí)現(xiàn)增量導(dǎo)入的目的。原理上是離線批量導(dǎo)入技術(shù);dataX在運(yùn)行dataX的機(jī)器上直接提取和加載數(shù)據(jù)的主要原理是:通過(guò)reader插件讀取源數(shù)據(jù),通過(guò)writer插件將數(shù)據(jù)寫入目標(biāo),利用job控制同步j(luò)ob,這也是一種離線批量導(dǎo)入技術(shù);Oracle gold gate for big Data從在線日志中提取數(shù)據(jù)更改,轉(zhuǎn)換成GGS自定義數(shù)據(jù)格式,存儲(chǔ)在本地隊(duì)列或遠(yuǎn)程隊(duì)列中,使用TCP/IP傳輸數(shù)據(jù)更改,集成數(shù)據(jù)壓縮,并提供了理論壓縮比為9:1的數(shù)據(jù)壓縮特性。它在不影響源系統(tǒng)性能的前提下,簡(jiǎn)化了向通用大數(shù)據(jù)解決方案的實(shí)時(shí)數(shù)據(jù)傳輸,將事務(wù)數(shù)據(jù)實(shí)時(shí)傳輸?shù)酱髷?shù)據(jù)系統(tǒng)中。對(duì)比以上工具和方法,結(jié)合數(shù)據(jù)處理的準(zhǔn)確性和實(shí)時(shí)性要求,我們?cè)u(píng)價(jià)Oracle golden for big data基本可以滿足當(dāng)前大數(shù)據(jù)平臺(tái)的數(shù)據(jù)抽取要求。
大數(shù)據(jù)開發(fā)平臺(tái)如何進(jìn)行數(shù)據(jù)同步服務(wù)?
首先,什么是數(shù)據(jù)同步服務(wù)?顧名思義,就是在不同的系統(tǒng)之間同步數(shù)據(jù)。根據(jù)具體的業(yè)務(wù)用途和應(yīng)用場(chǎng)景,各種數(shù)據(jù)同步服務(wù)框架的功能重點(diǎn)往往是不同的,所以我們也會(huì)用各種類似的名稱來(lái)稱呼這類服務(wù),比如數(shù)據(jù)傳輸服務(wù)、數(shù)據(jù)采集服務(wù)、數(shù)據(jù)交換服務(wù)等
首先,我們要做的是明確業(yè)務(wù)范圍,統(tǒng)一數(shù)據(jù)來(lái)源,規(guī)范數(shù)據(jù)類型,統(tǒng)一企業(yè)內(nèi)部數(shù)據(jù)管理,進(jìn)行數(shù)據(jù)治理,確保企業(yè)數(shù)據(jù)的一致性。只有在完整性之后才能進(jìn)行數(shù)據(jù)同步服務(wù)。
第二個(gè)是數(shù)據(jù)同步服務(wù)。首先,我們需要使用一個(gè)開源的ETL工具來(lái)讀取、操作和向各種數(shù)據(jù)源寫入數(shù)據(jù),它可以不用安裝和解壓就可以使用。它可以通過(guò)客戶端進(jìn)行配置和執(zhí)行。也可以使用ESB企業(yè)服務(wù)總線快速創(chuàng)建同步分發(fā)服務(wù),將企業(yè)系統(tǒng)的數(shù)據(jù)拉入或推送到大數(shù)據(jù)分析平臺(tái),實(shí)現(xiàn)大數(shù)據(jù)分析。
最后,在大數(shù)據(jù)開發(fā)平臺(tái)中,我們可以根據(jù)不同的業(yè)務(wù)需求安排傳輸同步服務(wù),從而獲得企業(yè)數(shù)據(jù)同步到數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行各種存儲(chǔ)/計(jì)算/查詢的數(shù)據(jù)集組件配置。
綜上所述,是大數(shù)據(jù)開發(fā)平臺(tái)的數(shù)據(jù)同步服務(wù)步驟。通過(guò)收集企業(yè)內(nèi)外部數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,可以有效提升企業(yè)內(nèi)外部數(shù)據(jù)的價(jià)值,幫助企業(yè)從結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中獲取業(yè)務(wù)洞察力。