流式查詢怎么判斷數(shù)據(jù)取完 spark必知必會的基本概念?
spark必知必會的基本概念?Spark,是一種不分地區(qū)的大數(shù)據(jù)計算框架,I很顯然民間大數(shù)據(jù)技術(shù)Hadoop的MapReduce、Hive引擎,和Storm流式實時計算引擎等,Spark真包含了大數(shù)據(jù)
spark必知必會的基本概念?
Spark,是一種不分地區(qū)的大數(shù)據(jù)計算框架,I很顯然民間大數(shù)據(jù)技術(shù)Hadoop的MapReduce、Hive引擎,和Storm流式實時計算引擎等,
Spark真包含了大數(shù)據(jù)領(lǐng)城最常見的各種計算框架:.例如Spark Core主要用于離線計算出,SparkSQL應(yīng)用于交互式查詢,SparkStreaming應(yīng)用于動態(tài)實時流式換算,SparkMILlib用于機器學(xué)習(xí),Spark GraphX主要是用于圖算出。
Spark比較多用于大數(shù)據(jù)的計算,而Hadoop以后主要作用于大數(shù)據(jù)的存儲(例如HDFS、Hive,HBase等),和資源調(diào)度(Yarn)。
SparkHadoop的組合,是未來大數(shù)據(jù)領(lǐng)域最熱門的組合,確實是最有前景的組合
什么是大數(shù)據(jù)處理的主要方式?
1.大數(shù)據(jù)處理之一:采集
大數(shù)據(jù)的采集是指借用多個數(shù)據(jù)庫來接收打動心靈客戶端(Web、App也可以傳感器形式等)的數(shù)據(jù),并且用戶可以不按照這些數(shù)據(jù)庫來接受很簡單去查詢和處理工作。例如,電商會不使用現(xiàn)代的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲每一筆事務(wù)數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常作用于數(shù)據(jù)的采集。
在大數(shù)據(jù)的采集過程中,其主要特點和挑戰(zhàn)是并發(fā)數(shù)高,是因為同樣的有可能會有成千上萬的用戶來通過訪問和操作,.例如火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問量在峰值時提升上百萬,所以我是需要在喂養(yǎng)靈獸端部署大量數(shù)據(jù)庫才能勉力支撐。并且怎么在這些數(shù)據(jù)庫之間進行負(fù)載均衡和分片確實是是必須深刻的思考和設(shè)計。
2.大數(shù)據(jù)處理之二:導(dǎo)入/預(yù)處理
只不過哪采端本身會有很多數(shù)據(jù)庫,但假如要對這些海量數(shù)據(jù)接受有效的分析,那就估計將這些來自前端的數(shù)據(jù)導(dǎo)入到一個幾乎全部的大型手機分布式數(shù)據(jù)庫,或是分布式存儲集群,并且可以在導(dǎo)入基礎(chǔ)上做一些簡單的刷洗和預(yù)處理工作。也有一些用戶會在導(dǎo)入時使用不知從何而來Twitter的Storm來對數(shù)據(jù)通過流式算出,來滿足的條件部分業(yè)務(wù)的實時計算需求。
導(dǎo)入與預(yù)處理過程的特點和挑戰(zhàn)主要是導(dǎo)出的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量偶爾會會達到百兆,哪怕百兆級別。
3.大數(shù)據(jù)處理之三:統(tǒng)計/結(jié)論
統(tǒng)計與分析比較多憑借分布式數(shù)據(jù)庫,或者分布式計算集群來對存儲于內(nèi)中的海量數(shù)據(jù)通過特殊的分析和分類匯總等,以滿足的條件大多數(shù)最常見的一種的分析需求,在這方面,一些實時性需求會都用到EMC的GreenPlum、Oracle的Exadata,和基于組件MySQL的列式存儲Infobright等,而一些批處理,的或設(shè)計和實現(xiàn)半結(jié)構(gòu)化數(shù)據(jù)的需求可以不不使用Hadoop。
統(tǒng)計與總結(jié)這部分的主要特點和挑戰(zhàn)是分析比較復(fù)雜的數(shù)據(jù)量大,其對系統(tǒng)資源,特別是I/O會有頗大的占用。
4.大數(shù)據(jù)處理之四:挖掘點
與前面統(tǒng)計和分析過程完全不同的是,數(shù)據(jù)挖掘好象沒有什么作好修改好的主題,主要是在現(xiàn)有數(shù)據(jù)上面并且實現(xiàn)各種算法的計算,進而發(fā)揮作用預(yù)測(Predict)的效果,使基于一些高級別數(shù)據(jù)分析的需求。比較比較典型算法有作用于聚類的Kmeans、主要是用于統(tǒng)計計算自學(xué)的SVM和作用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰(zhàn)主要注意是主要是用于挖掘的算法很緊張,并且算出牽涉的數(shù)據(jù)量和計算量都比較大,具體用法數(shù)據(jù)挖掘算法都以單線程為主。