Analisis Cluster adalah teknik statistik yang digunakan untuk mengidentifikasi bagaimana berbagai unit - seperti orang, kelompok, atau masyarakat - dapat dikelompokkan bersama karena karakteristik yang mereka miliki bersama. Juga dikenal sebagai pengelompokan, ini adalah alat analisis data eksplorasi yang bertujuan untuk menyortir objek yang berbeda ke dalam kelompok sedemikian rupa sehingga ketika mereka milik kelompok yang sama mereka memiliki derajat asosiasi maksimal dan ketika mereka tidak termasuk kelompok yang sama derajat asosiasi mereka minimal. Tidak seperti yang lain teknik statistik, struktur yang ditemukan melalui analisis kluster tidak memerlukan penjelasan atau interpretasi - ia menemukan struktur dalam data tanpa menjelaskan mengapa mereka ada.
Apa itu Clustering?
Clustering ada di hampir setiap aspek kehidupan kita sehari-hari. Ambil, misalnya, barang-barang di toko grosir. Berbagai jenis barang selalu ditampilkan di lokasi yang sama atau berdekatan - daging, sayuran, soda, sereal, produk kertas, dll. Para peneliti sering ingin melakukan hal yang sama dengan data dan mengelompokkan objek atau subjek ke dalam kelompok yang masuk akal.
Untuk mengambil contoh dari ilmu sosial, katakanlah kita sedang melihat negara dan ingin mengelompokkan mereka ke dalam kelompok berdasarkan karakteristik seperti pembagian kerja, militer, teknologi, atau populasi yang berpendidikan. Kita akan menemukan bahwa Inggris, Jepang, Prancis, Jerman, dan Amerika Serikat memiliki karakteristik yang sama dan akan dikelompokkan bersama. Uganda, Nikaragua, dan Pakistan juga akan dikelompokkan bersama dalam kelompok yang berbeda karena mereka memiliki karakteristik yang berbeda, termasuk tingkat kekayaan yang rendah, pembagian kerja yang lebih sederhana, institusi politik yang relatif tidak stabil dan tidak demokratis, dan teknologi yang rendah pengembangan.
Analisis cluster biasanya digunakan dalam tahap eksplorasi penelitian ketika peneliti tidak memiliki hipotesis pra-konsepsi. Ini biasanya bukan satu-satunya metode statistik yang digunakan, tetapi lebih dilakukan pada tahap awal proyek untuk membantu memandu sisa analisis. Untuk alasan ini, pengujian signifikansi biasanya tidak relevan atau tidak sesuai.
Ada beberapa jenis analisis kluster. Dua yang paling umum digunakan adalah K-means clustering dan hierarchical clustering.
K-artinya Clustering
K-means clustering memperlakukan pengamatan dalam data sebagai objek yang memiliki lokasi dan jarak satu sama lain (perhatikan bahwa jarak yang digunakan dalam clustering sering tidak mewakili jarak spasial). Ini mempartisi objek menjadi K cluster yang saling eksklusif sehingga objek dalam setiap cluster adalah sebagai sedekat mungkin satu sama lain dan pada saat yang sama, sejauh mungkin dari objek dalam kelompok lain. Setiap cluster kemudian ditandai olehnya mean atau titik pusat.
Clustering Hirarkis
Hierarchical clustering adalah cara untuk menyelidiki pengelompokan dalam data secara bersamaan melalui berbagai skala dan jarak. Ini dilakukan dengan membuat pohon cluster dengan berbagai tingkatan. Tidak seperti pengelompokan K-means, pohon itu bukan satu set cluster. Sebaliknya, pohon adalah hierarki multi-level di mana cluster di satu tingkat bergabung sebagai cluster di tingkat yang lebih tinggi berikutnya. Algoritma yang digunakan dimulai dengan setiap case atau variabel dalam cluster yang terpisah dan kemudian menggabungkan cluster sampai hanya satu yang tersisa. Hal ini memungkinkan peneliti untuk memutuskan tingkat pengelompokan apa yang paling tepat untuk penelitiannya.
Melakukan Analisis Cluster
Paling program perangkat lunak statistik dapat melakukan analisis kluster. Di SPSS, pilih menganalisa dari menu, lalu menggolongkan dan analisis klaster. Di SAS, the klaster proc fungsi bisa digunakan.
diperbaharui oleh Nicki Lisa Cole, Ph. D.