kmeans算法基本步驟 k-means聚類算法為什么會(huì)受到樣本輸入順序的影響？

2021-03-15

1823

k-means聚類算法為什么會(huì)受到樣本輸入順序的影響？因?yàn)榫垲愃惴〞?huì)在一開始就隨機(jī)設(shè)置聚類中心，然后迭代直到分類成功，所以樣本的輸入順序會(huì)影響聚類算法初始聚類中心的選擇，進(jìn)而影響整個(gè)聚類算法模型。算法

k-means聚類算法為什么會(huì)受到樣本輸入順序的影響？

因?yàn)榫垲愃惴〞?huì)在一開始就隨機(jī)設(shè)置聚類中心，然后迭代直到分類成功，所以樣本的輸入順序會(huì)影響聚類算法初始聚類中心的選擇，進(jìn)而影響整個(gè)聚類算法模型。

算法原理一般如下：

選擇k個(gè)類別

隨機(jī)初始化k個(gè)聚類中心

計(jì)算每個(gè)數(shù)據(jù)點(diǎn)到中心點(diǎn)的距離，數(shù)據(jù)集的哪個(gè)中心靠近哪個(gè)聚類

將每個(gè)聚類中心計(jì)算為一個(gè)新的聚類中心

重復(fù)上述步驟，直到每個(gè)聚類中心在每次迭代后變化很小或幾乎沒有變化

K均值聚類算法的優(yōu)缺點(diǎn)主要有以下幾點(diǎn)：

1。算法簡(jiǎn)單快速

2。它對(duì)于大數(shù)據(jù)集具有很高的效率和可擴(kuò)展性

3。時(shí)間復(fù)雜度近似線性，適合于挖掘大型數(shù)據(jù)集。K-means聚類算法的時(shí)間復(fù)雜度為O（NKT），其中n表示數(shù)據(jù)集中的對(duì)象個(gè)數(shù)，T表示迭代次數(shù)，K表示聚類個(gè)數(shù)。