ai如何進(jìn)行數(shù)據(jù)分析 利用樸素貝葉斯算法如何進(jìn)行數(shù)據(jù)分析?
利用樸素貝葉斯算法如何進(jìn)行數(shù)據(jù)分析?作者寫(xiě)過(guò)一系列文章《常用數(shù)據(jù)挖掘算法從入門(mén)到精通》,其中在第五章《常用數(shù)據(jù)挖掘算法從入門(mén)到精通 第五章 貝葉斯分類(lèi)算法》中,詳細(xì)介紹了樸素貝葉斯算法的理論和應(yīng)用。需
利用樸素貝葉斯算法如何進(jìn)行數(shù)據(jù)分析?
作者寫(xiě)過(guò)一系列文章《常用數(shù)據(jù)挖掘算法從入門(mén)到精通》,其中在第五章《常用數(shù)據(jù)挖掘算法從入門(mén)到精通 第五章 貝葉斯分類(lèi)算法》中,詳細(xì)介紹了樸素貝葉斯算法的理論和應(yīng)用。需要的讀者可以去作者 的主頁(yè)查看更詳細(xì)的內(nèi)容。
本文主要用詳細(xì)的案例來(lái)描述貝葉斯分類(lèi)算法,幫助你理解。
分類(lèi)分析分類(lèi)分析是一種有監(jiān)督的機(jī)器學(xué)習(xí)方法。要解決的主要問(wèn)題是利用訓(xùn)練樣本集獲得分類(lèi)函數(shù)或分類(lèi)模型。分類(lèi)模型可以很好地?cái)M合訓(xùn)練樣本集中屬性集和類(lèi)別之間的關(guān)系,也可以預(yù)測(cè)新樣本屬于哪個(gè)類(lèi)別。
第二章到第四章的聚類(lèi)分析是你不 不知道數(shù)據(jù)點(diǎn)的類(lèi)別標(biāo)簽,需要自動(dòng)分類(lèi)。簡(jiǎn)單來(lái)說(shuō)就是一堆東西混在一起,你得分清誰(shuí)跟誰(shuí)一樣。
分類(lèi)分析本身就知道每個(gè)數(shù)據(jù)點(diǎn)屬于哪一類(lèi),它的任務(wù)就是尋找最佳的分類(lèi)方法,也就是在這種分類(lèi)方法下分類(lèi)效果最好,比如分類(lèi)錯(cuò)誤的概率最小,或者在最小風(fēng)險(xiǎn)下做出分類(lèi)決策。
分類(lèi)
貝葉斯概率——主觀概率貝葉斯方法是一種研究不確定性的推理方法。不確定性往往用貝葉斯概率來(lái)表示,貝葉斯概率是一種主觀概率。通常的經(jīng)典概率代表的是事件的物理特征,是不以人的意識(shí)為轉(zhuǎn)移的客觀存在,而貝葉斯是人的認(rèn)知和個(gè)人的主觀性。估計(jì)隨著個(gè)人主觀認(rèn)識(shí)的變化而變化。例如,一個(gè)投資者認(rèn)為 "購(gòu)買(mǎi)某種股票可以獲得高回報(bào)是0.6,其中0.6是投資者 的個(gè)人信念基于他多年的股票業(yè)務(wù)經(jīng)驗(yàn)和當(dāng)時(shí)的股票市場(chǎng)。
貝葉斯概率具有主觀性,其估計(jì)依賴于先驗(yàn)知識(shí)的正確性和后驗(yàn)知識(shí)的豐富性和準(zhǔn)確性。因此,貝葉斯概率可能經(jīng)常隨著個(gè)人持有的不同信息而變化。
概率基礎(chǔ)知識(shí)關(guān)于概率更詳細(xì)的知識(shí),請(qǐng)參考作者 ■以前的文章《想要學(xué)人工智能,你必須得先懂點(diǎn)統(tǒng)計(jì)學(xué)(3)概率與概率分布》。
聯(lián)合概率:設(shè)A和B是兩個(gè)隨機(jī)事件,A和B同時(shí)發(fā)生的概率稱為聯(lián)合概率,記為P(AB)。
條件概率:在B事件條件下,A事件的概率稱為條件概率,記為:P(A|B),p (a | b),p (ab)/p (b)。
乘法定理:P(AB) P(B)P(A|B) P(A)P(B|A)
先驗(yàn)概率P(wi)
先驗(yàn)概率是從樣本的先驗(yàn)知識(shí)中獲得的,而樣本的先驗(yàn)知識(shí)可以從訓(xùn)練集樣本中估計(jì)出來(lái)。它叫做 "先驗(yàn)的 "因?yàn)樗鼪](méi)有考慮任何其他因素。
例如,兩種類(lèi)型的10個(gè)訓(xùn)練樣本,兩個(gè)屬于w1,八個(gè)屬于w2,則先驗(yàn)概率p (W1)為0.2,p (W2)為0.8。
類(lèi)別條件概率p(x|wi)
wi-class出現(xiàn)條件下樣本X的概率。
后驗(yàn)概率P(wi|x)
對(duì)于某個(gè)樣本X,屬于wi類(lèi)的概率,I1,...,c。
如果用先驗(yàn)概率P(wi)來(lái)確定待分類(lèi)樣本X的類(lèi)別,依據(jù)顯然非常不足,必須用條件概率密度p(x|wi)來(lái)修正。
根據(jù)樣本X的先驗(yàn)概率和類(lèi)別條件概率密度函數(shù)p(x|wi),用貝葉斯公式修正模式樣本所屬類(lèi)別的概率,稱為后驗(yàn)概率P(wi|x)。
貝葉斯決策理論要求:
各種總體的概率分布是已知的。
要決定的類(lèi)別的數(shù)量c是固定的。
貝葉斯公式,也稱為貝葉斯規(guī)則
貝葉斯規(guī)則
貝葉斯分類(lèi)規(guī)則:具有后驗(yàn)概率的分類(lèi)
貝葉斯分類(lèi)規(guī)則
貝葉斯分類(lèi)案例
購(gòu)車(chē)客戶培訓(xùn)套件
計(jì)算先驗(yàn)概率和類(lèi)別條件概率
計(jì)算后驗(yàn)概率
因?yàn)閜 (yes |X) gt P (no |X),所以可以看出,對(duì)于樣本X,樸素貝葉斯分類(lèi)預(yù)測(cè)客戶會(huì)買(mǎi)車(chē)。
如果你想了解更多的算法及其實(shí)戰(zhàn),可以去作者 的主頁(yè)來(lái)查看這一系列的文章,這些文章都已更新。
如何練就數(shù)據(jù)分析的思維?
大數(shù)據(jù)是我的主要研究方向之一,我也在考相關(guān)領(lǐng)域的研究生,所以我來(lái)回答一下這個(gè)問(wèn)題。
要想實(shí)踐數(shù)據(jù)分析思維,首先要了解數(shù)據(jù)分析的目的和意義,以及在當(dāng)前大數(shù)據(jù)時(shí)代,采用什么樣的數(shù)據(jù)分析方法。數(shù)據(jù)分析思維的培養(yǎng)和編程思維的培養(yǎng)類(lèi)似,都需要完成大量的實(shí)驗(yàn),在實(shí)驗(yàn)中逐漸形成自己的認(rèn)識(shí)。與此同時(shí),具體的數(shù)據(jù)分析方法也可以在實(shí)驗(yàn)中培養(yǎng)。
數(shù)據(jù)分析思維的培養(yǎng)要從三個(gè)層面進(jìn)行,一是分析數(shù)據(jù)背后的規(guī)律;第二是數(shù)據(jù)在不同場(chǎng)景下的價(jià)值;三是判斷數(shù)據(jù)的真實(shí)性。從數(shù)據(jù)應(yīng)用的整個(gè)價(jià)值鏈來(lái)看,數(shù)據(jù)分析處于中間(數(shù)據(jù)采集、數(shù)據(jù)分析、數(shù)據(jù)應(yīng)用),數(shù)據(jù)分為兩部分。分析通常不是最終目的,數(shù)據(jù)應(yīng)用才是目的。
首先,了解數(shù)據(jù)背后的規(guī)律。所謂規(guī)律,既可以理解為因果關(guān)系,也可以理解為相關(guān)關(guān)系。在小數(shù)據(jù)時(shí)代,他們更關(guān)心因果關(guān)系,而在大數(shù)據(jù)時(shí)代,他們更關(guān)心相關(guān)性。如果說(shuō)因果關(guān)系是線性的,那么相關(guān)性更像是一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)。。發(fā)現(xiàn)數(shù)據(jù)背后的規(guī)律是數(shù)據(jù)價(jià)值的主要操作之一。目前常用的方法有統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)。
接下來(lái),讓我們 讓我們看看場(chǎng)景數(shù)據(jù)分析。數(shù)據(jù)分析通常與場(chǎng)景密切相關(guān)。不同的場(chǎng)景往往需要不同的分析方法,比如結(jié)構(gòu)化數(shù)據(jù)分析、半結(jié)構(gòu)化數(shù)據(jù)分析、非結(jié)構(gòu)化數(shù)據(jù)分析。此外,場(chǎng)景數(shù)據(jù)分析有一定的行業(yè)背景知識(shí)很重要。所以很多人說(shuō)數(shù)據(jù)分析要從行業(yè)知識(shí)入手。
最后,看數(shù)據(jù)的真實(shí)性。與小數(shù)據(jù)不同,大數(shù)據(jù)往往充斥著大量真假難辨的數(shù)據(jù)。數(shù)據(jù)分析的一個(gè)重要意義就是分析目標(biāo)數(shù)據(jù)的真實(shí)性,這在生產(chǎn)環(huán)境中,尤其是在安全生產(chǎn)領(lǐng)域具有非常重要的現(xiàn)實(shí)意義。因?yàn)殄e(cuò)誤的數(shù)據(jù)往往會(huì)導(dǎo)致自動(dòng)化系統(tǒng)的誤判,而數(shù)據(jù)分析可以在一定程度上避免系統(tǒng)的誤判,從而保證系統(tǒng)的穩(wěn)定性。
本人從事互聯(lián)網(wǎng)行業(yè)多年,目前在讀計(jì)算機(jī)專(zhuān)業(yè)研究生。我的主要研究方向是大數(shù)據(jù)和人工智能。我會(huì)陸續(xù)寫(xiě)一些互聯(lián)網(wǎng)技術(shù)方面的文章,有興趣的朋友可以關(guān)注我。我相信我一定會(huì)有所收獲。
如果你有關(guān)于互聯(lián)網(wǎng),大數(shù)據(jù),人工智能,或者考研的問(wèn)題,可以在評(píng)論區(qū)留言!