文本分類樸素貝葉斯算法 為什么樸素貝葉斯稱為“樸素”?請簡述樸素貝葉斯分類的主要思想?
為什么樸素貝葉斯稱為“樸素”?請簡述樸素貝葉斯分類的主要思想?樸素貝葉斯分類器是一種基于貝葉斯獨立假設定理的簡單概率分類器。Naive的直譯意思是簡單、簡單和天真。樸素貝葉斯分類是最常用的兩種分類算法
為什么樸素貝葉斯稱為“樸素”?請簡述樸素貝葉斯分類的主要思想?
樸素貝葉斯分類器是一種基于貝葉斯獨立假設定理的簡單概率分類器。
Naive的直譯意思是簡單、簡單和天真。
樸素貝葉斯分類是最常用的兩種分類算法(決策樹分類和樸素貝葉斯分類)。分類是將一個未知樣本分成幾個已知類的過程。
樸素貝葉斯分類基于貝葉斯概率的思想,假設屬性相互獨立,如a和B,則p(B | a)表示a發(fā)生時B的概率。
詳見劉偉鵬大牛著《數(shù)學之美:平凡而神奇的貝葉斯方法
文本分類算法主要包括樸素貝葉斯分類算法、支持向量機分類算法、KNN算法和決策樹算法。
樸素貝葉斯分類算法主要利用文本中特征項和詞的類別的組合概率來估計文本屬于哪個類別的概率。
支持向量機(SVM)主要利用特征提取技術將文本信息轉化為詞向量,然后計算詞向量與訓練類數(shù)據(jù)的相似度。
KNN算法是在訓練集中找到最近的K個文本,并根據(jù)這些文本的分類來預測要分類的文本屬于哪個類別。
決策樹算法是在樹的基礎上建立預測模型,根據(jù)預測模型對文本進行分類預測。