K-Means Clustering

Pada lesson k-means clustering, akan dibahas apa yang dilakukan oleh k-means dibeakang layar dalam melakukan clustering. Lalu kita akan membuat program clustering sederhana, mengkelompokan negara berdasar koordinat.

K-Means clustering adalah metode clustering yang paling popular dan banyak digunakan. Berikut tahapan yang terjadi dalam K-means clustering:

  • Tentukan jumlah cluster
  • Tentukan cluster seeds atau centroid awal, penentuan seeds dilakukan random berdasarkan pengetahuan data scientist akan data tersebut.
  • Petakan tiap data points terhadap seed/centroid berdasarkan jarak terdekat.
  • Hitung centroid dari masing cluster.
  • Ulangi langkah ke-3.
  • Ulangi langkah ke-4.
  • Ulangi langkah diatas hingga semua data point sudah dipetakan terhadap centroid, dan posisi centroid sudah tidak bisa diubah.


K-means clustering
Pada tahapan diatas, langkah 2 dan seterusnya dilakukan oleh library. Kita hanya perlu menentukan jumlah cluster yang diinginkan dan input data yang diperlukan.

Berikut adalah contoh clustering country berdasarkan longitude dan latitude. Data download disini.

Tips: Untuk memudahkan dalam melakukan programming, gunakan jupyter notebook.



  1. import pandas as pd
  2. import numpy as np
  3. import matplotlib.pyplot as plt
  4. import seaborn as sns
  5. sns.set()
  6. from sklearn.cluster import KMeans
  7. data = pd.read_csv('CountryClusters.csv')
  8. x = data.iloc[:,1:3]
  9. kmeans = KMeans(3)
  10. kmeans.fit(x)
  11. identified_clusters = kmeans.fit_predict(x)
  12. data_with_clusters = data.copy()
  13. data_with_clusters['Cluster'] = identified_clusters
  14. plt.scatter(data_with_clusters['Longitude'],data_with_clusters['Latitude'],c=data_with_clusters['Cluster'],cmap='rainbow')
  15. plt.xlim(-180,180)
  16. plt.ylim(-90,90)
  17. plt.show()
K-Means Clustering K-Means Clustering Reviewed by noname needed on December 16, 2019 Rating: 5

No comments:

Powered by Blogger.