spark分布式計算原理偽分布式的spark/mapreduce是只供用來學習的嗎？

2021-03-11

2747

偽分布式的spark/mapreduce是只供用來學習的嗎？首先，MapReduce出現(xiàn)得更早。介紹了分布式大數(shù)據(jù)處理的基本思想。現(xiàn)在我在學習火花。Matei zaharia的畢業(yè)論文，即spark的

偽分布式的spark/mapreduce是只供用來學習的嗎？

首先，MapReduce出現(xiàn)得更早。介紹了分布式大數(shù)據(jù)處理的基本思想。現(xiàn)在我在學習火花。Matei zaharia的畢業(yè)論文，即spark的介紹論文，已在CSDN上翻譯成中文。

建議先學習MapReduce，主要是了解任務(wù)是如何執(zhí)行的。都在網(wǎng)上。然后，spark學習應(yīng)該關(guān)注于理解spark-to-SQL語句的執(zhí)行機制。

不同的分布式框架有各自的優(yōu)勢和不同的業(yè)務(wù)場景。MapReduce可以更好地處理大量ETL服務(wù)，而spark則相對更側(cè)重于機器學習。對于企業(yè)來說，如果這些業(yè)務(wù)能夠在同一個集群上運行，就可以有效地降低成本。為了讓不同的框架同時在同一個集群中運行，最重要的問題是如何分配資源。當沒有紗線時，一個相對簡單的方法是假設(shè)集群中有100臺機器。我們將50臺機器分配給spark，將其他50臺機器分配給MapReduce。這似乎沒什么問題。不過，如果我們每天只運行一個小時的MapReduce，其余大部分時間都在運行spark，那么一天就有23個小時，50臺機器處于空閑狀態(tài)，而spark的機器很可能有大量作業(yè)在隊列中。這顯然不是一種非常有效的使用集群的方法。

在hadoop和spark之間如何取舍？

一般來說，會用到主流行業(yè)的大數(shù)據(jù)技術(shù)Hadoop和spark。學習時，兩個系統(tǒng)都會學習，先學習Hadoop，再學習spark。

Apache開源組織的分布式基礎(chǔ)設(shè)施提供了分布式文件系統(tǒng)（HDFS）、分布式計算（MapReduce）和統(tǒng)一資源管理框架（yarn）的軟件體系結(jié)構(gòu)。用戶可以在不了解分布式系統(tǒng)的基本細節(jié)的情況下開發(fā)分布式程序。

為大規(guī)模數(shù)據(jù)處理設(shè)計的快速通用計算引擎。用于構(gòu)建大型、低延遲的數(shù)據(jù)分析應(yīng)用程序。它可以用來完成各種操作，包括SQL查詢、文本處理、機器學習等。

https://www.toutiao.com/i654015696262573648397/

国产成人毛片视频|星空传媒久草视频|欧美激情草久视频|久久久久女女|久操超碰在线播放|亚洲强奸一区二区|五月天丁香社区在线|色婷婷成人丁香网|午夜欧美6666|纯肉无码91视频

偽分布式的spark/mapreduce是只供用來學習的嗎？

在hadoop和spark之間如何取舍？

相關(guān)推薦

在hadoop和spark之間如何取舍？