国产成人毛片视频|星空传媒久草视频|欧美激情草久视频|久久久久女女|久操超碰在线播放|亚洲强奸一区二区|五月天丁香社区在线|色婷婷成人丁香网|午夜欧美6666|纯肉无码91视频

spark分布式計算原理 偽分布式的spark/mapreduce是只供用來學習的嗎?

偽分布式的spark/mapreduce是只供用來學習的嗎?首先,MapReduce出現(xiàn)得更早。介紹了分布式大數(shù)據(jù)處理的基本思想。現(xiàn)在我在學習火花。Matei zaharia的畢業(yè)論文,即spark的

偽分布式的spark/mapreduce是只供用來學習的嗎?

首先,MapReduce出現(xiàn)得更早。介紹了分布式大數(shù)據(jù)處理的基本思想。現(xiàn)在我在學習火花。Matei zaharia的畢業(yè)論文,即spark的介紹論文,已在CSDN上翻譯成中文。

建議先學習MapReduce,主要是了解任務(wù)是如何執(zhí)行的。都在網(wǎng)上。然后,spark學習應(yīng)該關(guān)注于理解spark-to-SQL語句的執(zhí)行機制。

不同的分布式框架有各自的優(yōu)勢和不同的業(yè)務(wù)場景。MapReduce可以更好地處理大量ETL服務(wù),而spark則相對更側(cè)重于機器學習。對于企業(yè)來說,如果這些業(yè)務(wù)能夠在同一個集群上運行,就可以有效地降低成本。為了讓不同的框架同時在同一個集群中運行,最重要的問題是如何分配資源。當沒有紗線時,一個相對簡單的方法是假設(shè)集群中有100臺機器。我們將50臺機器分配給spark,將其他50臺機器分配給MapReduce。這似乎沒什么問題。不過,如果我們每天只運行一個小時的MapReduce,其余大部分時間都在運行spark,那么一天就有23個小時,50臺機器處于空閑狀態(tài),而spark的機器很可能有大量作業(yè)在隊列中。這顯然不是一種非常有效的使用集群的方法。

在hadoop和spark之間如何取舍?

一般來說,會用到主流行業(yè)的大數(shù)據(jù)技術(shù)Hadoop和spark。學習時,兩個系統(tǒng)都會學習,先學習Hadoop,再學習spark。

Apache開源組織的分布式基礎(chǔ)設(shè)施提供了分布式文件系統(tǒng)(HDFS)、分布式計算(MapReduce)和統(tǒng)一資源管理框架(yarn)的軟件體系結(jié)構(gòu)。用戶可以在不了解分布式系統(tǒng)的基本細節(jié)的情況下開發(fā)分布式程序。

為大規(guī)模數(shù)據(jù)處理設(shè)計的快速通用計算引擎。用于構(gòu)建大型、低延遲的數(shù)據(jù)分析應(yīng)用程序。它可以用來完成各種操作,包括SQL查詢、文本處理、機器學習等。

https://www.toutiao.com/i654015696262573648397/