spark必須基于hadoop嗎 用于開發(fā)hadoop,spark等大數(shù)據(jù)的電腦需要什么配置?
用于開發(fā)hadoop,spark等大數(shù)據(jù)的電腦需要什么配置?首先,在開發(fā)階段,您使用的數(shù)據(jù)量非常小,只有幾十兆字節(jié)。您可以將其完全加載到內(nèi)存中,并且不會使用幾GB的數(shù)據(jù)。一般來說,8g的內(nèi)存足夠一臺電
用于開發(fā)hadoop,spark等大數(shù)據(jù)的電腦需要什么配置?
首先,在開發(fā)階段,您使用的數(shù)據(jù)量非常小,只有幾十兆字節(jié)。您可以將其完全加載到內(nèi)存中,并且不會使用幾GB的數(shù)據(jù)。一般來說,8g的內(nèi)存足夠一臺電腦用。如果需要搭建自己的虛擬機(jī)群,自己玩、自己研究,內(nèi)存應(yīng)該很大,最少16g,最少1t硬盤。Spark cluster對每個(gè)節(jié)點(diǎn)的內(nèi)存要求很高,最少2G,所以內(nèi)存比較大。我的電腦有32g內(nèi)存,每個(gè)節(jié)點(diǎn)都有3G內(nèi)存,8個(gè)節(jié)點(diǎn),還可以,而且風(fēng)扇也很響。
在hadoop和spark之間如何取舍?
一般來說,會用到主流行業(yè)的大數(shù)據(jù)技術(shù)Hadoop和spark。學(xué)習(xí)時(shí),兩個(gè)系統(tǒng)都會學(xué)習(xí),先學(xué)習(xí)Hadoop,再學(xué)習(xí)spark。
Apache開源組織的分布式基礎(chǔ)設(shè)施提供了分布式文件系統(tǒng)(HDFS)、分布式計(jì)算(MapReduce)和統(tǒng)一資源管理框架(yarn)的軟件體系結(jié)構(gòu)。用戶可以在不了解分布式系統(tǒng)的基本細(xì)節(jié)的情況下開發(fā)分布式程序。
為大規(guī)模數(shù)據(jù)處理設(shè)計(jì)的快速通用計(jì)算引擎。用于構(gòu)建大型、低延遲的數(shù)據(jù)分析應(yīng)用程序。它可以用來完成各種操作,包括SQL查詢、文本處理、機(jī)器學(xué)習(xí)等。
https://www.toutiao.com/i654015696262573648397/