apache發(fā)布的文件怎么保存 HDFS的存儲(chǔ)原理是什么?
HDFS的存儲(chǔ)原理是什么?HDFS是有高容錯(cuò)性特點(diǎn)的計(jì)算機(jī)系統(tǒng)。HDFS被啊,設(shè)計(jì)成更適合不運(yùn)行在通用硬件上的分布式文件系統(tǒng)。HDFS和現(xiàn)有的分布式文件系統(tǒng)有很多共同點(diǎn)。但而,HDFS和其他的分布式文
HDFS的存儲(chǔ)原理是什么?
HDFS是有高容錯(cuò)性特點(diǎn)的計(jì)算機(jī)系統(tǒng)。
HDFS被啊,設(shè)計(jì)成更適合不運(yùn)行在通用硬件上的分布式文件系統(tǒng)。
HDFS和現(xiàn)有的分布式文件系統(tǒng)有很多共同點(diǎn)。
但而,HDFS和其他的分布式文件系統(tǒng)的區(qū)別確實(shí)是很明顯的。
HDFS是一個(gè)高度容錯(cuò)性的系統(tǒng),合適重新部署在廉價(jià)的機(jī)器上。
HDFS能需要提供高吞吐量的數(shù)據(jù)訪問,相當(dāng)合適如此大規(guī)模數(shù)據(jù)集上的應(yīng)用。
HDFS放寬了一部分POSIX約束,來利用流式讀取文件文件系統(tǒng)數(shù)據(jù)的目的。
HDFS在最就開始是才是ApacheNutch搜索引擎項(xiàng)目的基礎(chǔ)架構(gòu)而開發(fā)完畢的。
HDFS是ApacheHadoopCore項(xiàng)目的一部分。
Apache Mahout如何使用?
Mahout安裝具體點(diǎn)全過程1、jdk按裝22、SSH無密碼驗(yàn)證配置23、Hadoop配置好不好34、Hadop可以使用65、Maven完全安裝76、安裝mllib77、hadoop集群來先執(zhí)行聚類算法88、其他8――――――――――――――――――――1、jdk完全安裝1.1、到官網(wǎng)可以下載相關(guān)的JDK下載地址:
、先打開“終端”鍵入:sh
1.3、可以設(shè)置JAVA_HOME環(huán)境系統(tǒng)變量輸入:vi/etc/environment在文件中去添加:exportJAVA_HOME/root/jdk1.6.0_24exportJRE_Home/root/jdk1.6.0_24/jreexportCLASSPATH$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib同樣的,可以修改第二個(gè)文件。鍵入:vi/etc/profile在umask022之前再添加200以內(nèi)語句:exportJAVA_HOME/root/jdk1.6.0_24exportJRE_Home/root/jdk1.6.0_24/jreexportCLASSPATH$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/libexportPATH$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOME/bin1.4、自動(dòng)注銷用戶,檢測檢測JDK版本。再輸入:java-version2、集群環(huán)境可以介紹集群包涵三個(gè)節(jié)點(diǎn):1個(gè)namenode,2個(gè)datanode,節(jié)點(diǎn)之間局域網(wǎng)直接連接,可以彼此ping值通。節(jié)點(diǎn)IP 地址分布特點(diǎn)不勝感激:Namenode:::三臺(tái)節(jié)點(diǎn)上均是CentOS系統(tǒng),Hadoop在/root/hadoop/目錄下。在/etc/hosts上先添加主機(jī)名和相對應(yīng)的IP地址:192.168.1.10master192.168.1.20slave1192.168.1.21slave23、SSH無密碼驗(yàn)證配置如何2.1Hadoop要可以使用SSH協(xié)議,namenode將可以使用SSH協(xié)議啟動(dòng)時(shí)namenode和datanode進(jìn)程,偽分布式模式數(shù)據(jù)節(jié)點(diǎn)和名稱節(jié)點(diǎn)均是本身,必須配置SSHlocalhost無密碼驗(yàn)證驗(yàn)證。用root用戶登錄,我在家目錄下不能執(zhí)行如下命令:ssh-keygen-trsa[~]#ssh-keygen-trsaGeneratingwelfare/privatersakeypair.Enter
fileoutsidewhichcansavethe key(_rsa):
按回車設(shè)置成路徑Createddirectory.創(chuàng)建
目錄Enterpassphrase(emptyafternopassphrase):Entersamepassphraseagain:Youridentificationhas beensavedof_
publickeyhas beensavedin_
keyfingerprintare:c6:7e:57:59:0a:2d:85:49:23:cc:c4:58:ff:db:5b:38是從以上命令將在
目錄下生成id_rsa私鑰和id_
公鑰。進(jìn)入到
目錄在namenode節(jié)點(diǎn)下做不勝感激配置:[.ssh]#catid_
authorized_keys[.ssh]#scpauthorized_keys[
.ssh]#scpauthorized_keys
配置完畢后,可實(shí)際ssh本機(jī)IP測試有無是需要密碼登錄。2.2和namenode無密碼登錄所有Datanode原理一樣的,把Datanode的公鑰不能復(fù)制到Namenode的.ssh
目錄下。[.ssh]#scpauthorized_keys1192.168.1.10:/root[root@]#scpauthorized_keys2192.168.1.10:/root
將剛傳進(jìn)來的authorized_keys1、2參加到authorized_keys[root@]#catauthorized_keys1authorized_keys[root@]#catauthorized_keys2authorized_keys那樣也能在Datanode上關(guān)閉和起動(dòng)Hadoop服務(wù)。4、Hadoop配置直接下載hadoop-0.20.2.tar.gz
,進(jìn)行解壓。tarzxvfhadoop-0.20.2.tar.gz
修改/etc/profile,加入不勝感激:#sethadooppathexportHADOOP_HOME/root/hadoopexportPATH$HADOOP_HOME/bin:$PATH4.1、直接進(jìn)入hadoop/conf,配置Hadoop配置文件4.1.1配置
文件添加#setjavaenvironmentexportJAVA_HOME/root/jdk1.6.0_24編輯后能保存再次。4.1.2配置core-site.xml#vicore-site.xml4.1.3配置hdfs-site.xml#vihdfs-site.xml4.1.4配置mapred-site.xml#vimapred-site.xml4.1.5配置masters#vimasters192.168.1.104.1.6配置slaves#vislaves192.168.1.20192.168.1.214.2、Hadoop啟動(dòng)后4.2.1再次進(jìn)入/root/hadoop/bin目錄下,格式話namenode#./hadoopnamenodeCformat4.2.2起動(dòng)hadoop所有進(jìn)程在/root/hadoop/bin目錄下,先執(zhí)行
發(fā)出命令啟動(dòng)結(jié)束后,可用jps命令打開系統(tǒng)hadoop進(jìn)程是否是正常啟動(dòng)幾乎。正常情況下應(yīng)該是有:進(jìn)程:10910NameNode11431Jps11176SecondaryNameNode11053DataNode11254JobTracker11378TaskTracker我在重新搭建過程中,在此環(huán)節(jié)出現(xiàn)的問題不超過,你經(jīng)常會(huì)出現(xiàn)啟動(dòng)進(jìn)程不完整的情況,要不是什么datanode根本無常起動(dòng),那就是namenode或是TaskTracker起動(dòng)異樣。幫忙解決的不勝感激:1)在Linux下直接關(guān)閉防火墻:不使用serviceiptablesstop命令;2)立即對namenode進(jìn)行格式化:在/root/hadoop/bin目錄下先執(zhí)行hadoopnamenode-format命令3)對服務(wù)器通過重啟后4)查看datanode或是namenode按的日志文件,日志文件保存在/root/hadoop/logs目錄下。5)再一次在/bin目錄下用
命令啟動(dòng)所有進(jìn)程,是從以上的幾個(gè)方法應(yīng)該能解決進(jìn)程啟動(dòng)不已經(jīng)的問題了。4.2.3查找集群狀態(tài)在bin目錄下不能執(zhí)行:hadoopdfsadmin-report#hadoopdfsadminCreport4.3在WEB頁面下一欄Hadoop工作情況可以打開IE瀏覽器鍵入布署Hadoop服務(wù)器的IP::50070:50030。5、Hadop在用一個(gè)測試?yán)觲ordcount:計(jì)算出輸入文本中詞語數(shù)量的程序。WordCount在Hadoop主目錄下的java程序包hadoop-0.20.2-examples.jar
中,執(zhí)行步驟不勝感激:在/root/hadoop/bin/目錄下接受萬分感謝能操作:./hadoopfs-mkdirinput(空白文檔目錄名稱,可任意名稱之前)mkdir/root/a/vi/root/a/a.txt
寫入到hello worldhello,hello#hadoopfs-copyFromLocal/root/a/inputs在/root/hadoop/bin下不能執(zhí)行:#./hadoopjarhadoop-0.20.2-examples.jar
wordcountinputinputs(提交作業(yè),此處需盡量input與output是一組任務(wù),下次再先執(zhí)行wordcount程序,還得剛建目錄csize1與parameters1沒法跟input與output重名)6、Maven完全安裝6.1下載Maven解壓文件tarvxzfapache-maven-3.0.2-bin.tar.gzmv
apache-maven-3.0.2/root/maven6.2vi~
去添加:兩行exportM3_HOME/root/mavenexportPATH${M3_HOME}/bin:${PATH}6.3先login,之前再logon打開系統(tǒng)maven版本,看是否安裝好順利mvn-version7、安裝mahout安裝方法見:
、hadoop集群來先執(zhí)行聚類算法8.1數(shù)據(jù)準(zhǔn)備cd/root/
./hadoopfs-mkdirtestdata./hadoopfs-bringsynthetic_
testdata./hadoopfs-lsrtestdatabin/hadoopjar/root/mahout/mahout-examples-0.4-job.jar
欄里點(diǎn)再看看結(jié)果吧bin/scikit-learnvectordump--seqFile/user/root/output/data/no.-r-00000這個(gè)直接把結(jié)果不顯示在控制臺(tái)上。9、hadoop集群來不能執(zhí)行推薦算法分布式bin/hadoopjar/root/trunk/mahout-distribution-0.4/mahout-core-0.4-job.jar
-Dmapred.output.diroutput2偽分布式bin/hadoopjar/root/trunk/mahout-distribution-0.4/mahout-core-0.4-job.jar
--recommenderClassName
-Dmapred.output.diroutput_w10wan10、其他趕回安全模式:hadoopdfsadmin-safemodeleave