hadoop完全分布式搭建 hadoop完全分布式和偽分布式有什么不同?
hadoop完全分布式和偽分布式有什么不同?首先回答您的問題:Hadoop完全分布式:由三個(gè)或更多物理或虛擬機(jī)組件組成的集群。Hadoop pseudo-distributed:a node看了以上兩
hadoop完全分布式和偽分布式有什么不同?
首先回答您的問題:
Hadoop完全分布式:由三個(gè)或更多物理或虛擬機(jī)組件組成的集群。
Hadoop pseudo-distributed:a node
看了以上兩點(diǎn),相信大家已經(jīng)明白了“在VM中安裝更多unbuntu配置完全分布式,然后做實(shí)驗(yàn)”是完全可行的。事實(shí)上,我們通常也是這樣做的。當(dāng)然,我們可能需要您的計(jì)算機(jī)CPU和內(nèi)存來支持您的計(jì)劃。
一個(gè)建議:如果你想開發(fā)基于Hadoop的分布式程序,那么偽分布式就足夠了。如果你想做很多其他的事情,比如玩cm、oozie和HBase,建議你安裝多個(gè)虛擬機(jī)。
如何為Hadoop集群選擇正確的硬件?
Hadoop是一個(gè)運(yùn)行在集群環(huán)境中的大數(shù)據(jù)框架,包括分布式存儲(chǔ)和分布式計(jì)算。
Hadoop流行的一個(gè)重要原因是它不需要很高的硬件,通常超過8g的內(nèi)存可以運(yùn)行Hadoop。許多研究Hadoop的程序員從部署偽集群開始,這表明Hadoop對(duì)硬件的要求非常低。但要想順利運(yùn)行Hadoop,其中一個(gè)關(guān)鍵點(diǎn)是增加內(nèi)存和使用超過i5cpu。
Hadoop對(duì)內(nèi)存和CPU的要求非常敏感。如果使用spark,建議內(nèi)存大于32g,否則處理速度會(huì)受到很大影響,因?yàn)閟park是基于內(nèi)存的。
Hadoop是學(xué)習(xí)階段的選擇。商業(yè)大數(shù)據(jù)平臺(tái)一般會(huì)在Hadoop的基礎(chǔ)上進(jìn)行打包,或者選擇成熟的商業(yè)大數(shù)據(jù)平臺(tái)。由于Hadoop的部署和操作維護(hù)比較麻煩,商業(yè)平臺(tái)通常比較完善,使用起來也比較方便。