機(jī)器學(xué)習(xí)中的貝葉斯方法 大數(shù)據(jù)方面核心技術(shù)有哪些?
大數(shù)據(jù)方面核心技術(shù)有哪些?這個問題提問的很有深度,目前大數(shù)據(jù)是個比較好廣義的概念,牽涉的方方面面太大,若要給個很官方的說法是比較好難,簡單說幫一下忙我清楚的理解:一是數(shù)據(jù)采集與預(yù)處理,也就是說你無論是
大數(shù)據(jù)方面核心技術(shù)有哪些?
這個問題提問的很有深度,目前大數(shù)據(jù)是個比較好廣義的概念,牽涉的方方面面太大,若要給個很官方的說法是比較好難,簡單說幫一下忙我清楚的理解:
一是數(shù)據(jù)采集與預(yù)處理,也就是說你無論是任何的大數(shù)據(jù)分析,簡單的方法要有數(shù)據(jù)支撐,但是數(shù)據(jù)是很廣的,你要的數(shù)據(jù)得按關(guān)鍵詞也可以一定的分類把數(shù)據(jù)接受預(yù)處理,以備萬一總結(jié)時提供動態(tài)創(chuàng)建。數(shù)據(jù)采集分很多很多種,也可以是網(wǎng)絡(luò)資源破霸體、硬件采集、人工錄入系統(tǒng)、數(shù)據(jù)兩個對接、去購買第三方資源等等,技術(shù)很多種FlumeNG、NDC、Logstash、Sqoop、Strom、Zookeeper等。
二是數(shù)據(jù)存儲,這是個很消耗硬件資源的本質(zhì)問題,既然如此是大數(shù)據(jù),只能證明是一個規(guī)模很大不能量化的過程,與此同時你分析需求,數(shù)據(jù)會緊接著時間的推移變得異常龐大,應(yīng)用多技術(shù)方法有Hadoop、HBase、Phoenix、Yarm、Mesos、Redis、Atlas、Kudu等。
三是數(shù)據(jù)清洗,你的數(shù)據(jù)龐大無比會讓你的是一個整體響應(yīng)速度造成如此大考驗(yàn),讀寫分離,負(fù)載均衡等等問題就不需要你去想防范方案,應(yīng)用方法到的查詢引擎工作流調(diào)度引擎技術(shù)有MapReduce、Oozie、Azkaban等。
四是數(shù)據(jù)查詢分析,這個根據(jù)你的業(yè)務(wù)數(shù)據(jù)需求,比如說現(xiàn)在應(yīng)用形式也很應(yīng)用范圍完全成熟的有商城產(chǎn)品信息推送、頭條新聞定時推送、廣告推送等等,大都以積攢用戶歷史信息只有那去結(jié)論,應(yīng)用方法到的技術(shù)有Hive、Impala、Spark、Nutch、Solr、Elasticsearch等,其實(shí)還有一個一些機(jī)器學(xué)習(xí)語言,機(jī)器學(xué)習(xí)算法如貝葉斯、邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)和協(xié)同過濾等等。
五是數(shù)據(jù)可視化,這也是數(shù)據(jù)分析的到了最后目的,該如何去好的呈現(xiàn)你的數(shù)據(jù),使你的數(shù)據(jù)變得有價值不是你做這個分析平臺的制高點(diǎn),當(dāng)下應(yīng)用形式比較成熟的技術(shù)有BI Tableau、Qlikview、PowrerBI、SmallBI等。
歸納過來應(yīng)該是你不需要基于分析什么,簡單要有來源,接著要有方法,主要要有目的,最后你要面向用戶,這可能會是個漫長而艱辛而又你的心性技術(shù)的過程,人力物力環(huán)境時間都將很可能是你的無法應(yīng)付的難題。
以下圖片來源于網(wǎng)絡(luò)
為什么貝葉斯定理能夠廣泛應(yīng)用于醫(yī)療診斷、風(fēng)險預(yù)測、機(jī)器學(xué)習(xí)、人工智能等許多領(lǐng)域?
為什么不貝葉斯定理(“逆向運(yùn)動概率”問題)目前能廣泛應(yīng)用于醫(yī)療診斷、風(fēng)險分析預(yù)測、機(jī)器學(xué)習(xí)、人工智能等許多領(lǐng)域?貝葉斯定理相比于比較傳統(tǒng)的“朝概率”問題,有什么優(yōu)勢?而“向這邊概率”問題,在詳細(xì)解釋工作、生產(chǎn)等假的問題當(dāng)中,又有哪些弊端?
貝葉斯定理描述了一種因果關(guān)系的概率可以表示。像醫(yī)療中由講究望聞問切的外在表現(xiàn)出的果來回溯病因這種應(yīng)用正適合來用貝葉斯方法來能解決。
機(jī)器學(xué)習(xí),人工智能等領(lǐng)域目前的一個主流方法那就是以樣本,大致的說是帶標(biāo)簽的樣本來訓(xùn)練模型,這也可以不懷疑是由因果事實(shí)來推導(dǎo)過程因果關(guān)系(模型)。
所以,從形式上看,貝葉斯定理很比較適合做模型自學(xué),不錯做直觀上再理解。
再說“正向概率”問題,不太理解指的是怎么做這些問題。但不關(guān)公面前耍大刀了。