kmeans算法基本步驟 k-means聚類算法為什么會(huì)受到樣本輸入順序的影響?
k-means聚類算法為什么會(huì)受到樣本輸入順序的影響?因?yàn)榫垲愃惴〞?huì)在一開始就隨機(jī)設(shè)置聚類中心,然后迭代直到分類成功,所以樣本的輸入順序會(huì)影響聚類算法初始聚類中心的選擇,進(jìn)而影響整個(gè)聚類算法模型。算法
k-means聚類算法為什么會(huì)受到樣本輸入順序的影響?
因?yàn)榫垲愃惴〞?huì)在一開始就隨機(jī)設(shè)置聚類中心,然后迭代直到分類成功,所以樣本的輸入順序會(huì)影響聚類算法初始聚類中心的選擇,進(jìn)而影響整個(gè)聚類算法模型。
算法原理一般如下:
選擇k個(gè)類別
隨機(jī)初始化k個(gè)聚類中心
計(jì)算每個(gè)數(shù)據(jù)點(diǎn)到中心點(diǎn)的距離,數(shù)據(jù)集的哪個(gè)中心靠近哪個(gè)聚類
將每個(gè)聚類中心計(jì)算為一個(gè)新的聚類中心
重復(fù)上述步驟,直到每個(gè)聚類中心在每次迭代后變化很小或幾乎沒有變化
K均值聚類算法的優(yōu)缺點(diǎn)主要有以下幾點(diǎn):
1。算法簡(jiǎn)單快速
2。它對(duì)于大數(shù)據(jù)集具有很高的效率和可擴(kuò)展性
3。時(shí)間復(fù)雜度近似線性,適合于挖掘大型數(shù)據(jù)集。K-means聚類算法的時(shí)間復(fù)雜度為O(NKT),其中n表示數(shù)據(jù)集中的對(duì)象個(gè)數(shù),T表示迭代次數(shù),K表示聚類個(gè)數(shù)。