k均值聚類算法例題 k均值聚類算法原理?
k均值聚類算法原理?第1步:選擇k個(gè)初始聚類中心,Z1(1)、Z2(1)、ZK(1),其中括號(hào)中的序列號(hào)是找到聚類中心的迭代操作的第二序列號(hào)。聚類中心的向量值可以任意設(shè)置。例如,可以選擇初始K個(gè)模式樣
k均值聚類算法原理?
第1步:選擇k個(gè)初始聚類中心,Z1(1)、Z2(1)、ZK(1),其中括號(hào)中的序列號(hào)是找到聚類中心的迭代操作的第二序列號(hào)。聚類中心的向量值可以任意設(shè)置。例如,可以選擇初始K個(gè)模式樣本的向量值作為初始聚類中心。
第二步是根據(jù)最小距離準(zhǔn)則將模式樣本{x}分配給K個(gè)聚類中心之一。
假設(shè)I=J,則K為迭代運(yùn)算的次序列號(hào),第一次迭代K=1,SJ為第J個(gè)簇,其簇中心為ZJ。
第3步:計(jì)算每個(gè)聚類中心的新向量值ZJ(k1),j=1,2,K
找到每個(gè)聚類域中樣本的平均向量:
其中NJ是第j個(gè)聚類域中的樣本數(shù)SJ。以均值向量作為新的聚類中心,可以最小化以下聚類準(zhǔn)則函數(shù):
在這一步中,我們需要分別計(jì)算K個(gè)聚類的樣本均值向量,因此稱為K-means算法。
第4步:如果J=1,2,K,則返回第二步,逐個(gè)重新分類模式樣本,并重復(fù)迭代操作;
如果J=1,2,則算法收斂,計(jì)算結(jié)束。
K-means的算法優(yōu)點(diǎn)?
K-means聚類算法的優(yōu)點(diǎn)如下:1。算法簡(jiǎn)單快速。對(duì)于大數(shù)據(jù)集具有較高的效率和可擴(kuò)展性。時(shí)間復(fù)雜度近似線性,適合于挖掘大型數(shù)據(jù)集。K-means聚類算法的時(shí)間復(fù)雜度為O(NKT),其中n表示數(shù)據(jù)集中的對(duì)象個(gè)數(shù),T表示迭代次數(shù),K表示聚類個(gè)數(shù)。
在大數(shù)據(jù)量時(shí),K-means算法和層次聚類算法誰(shuí)更有優(yōu)勢(shì)?
事實(shí)上,這個(gè)問題沒有解決辦法。該算法的分類效果和實(shí)際運(yùn)行時(shí)間因數(shù)據(jù)的不同而不同。在計(jì)算速度方面,K-means比hierarchy快。其原因是K-means算法是先找到中心,然后計(jì)算距離;層次是將樣本逐個(gè)合并,層次算法的復(fù)雜度較高。更重要的是,在很多情況下,K-means算法和層次聚類算法的分類效果只能用不同的觀點(diǎn)來(lái)描述。