Analisis Pengelompokan Metode Hirarki Clustering dengan R [data: Aspek Pendidikan Pemuda di Indonesia]

Halima Tusyakdiah
6 min readJul 13, 2020

--

بِسْمِ ٱللَّٰهِ ٱلرَّحْمَٰنِ ٱلرَّحِيمِ

Assalamualaikum warahmatullahi wabarakatuh.. Pada kesempatan ini kita akan belajar bersama mengenai hirarki clustering :)

source: https://stackoverflow.com/questions/18036094/how-to-create-a-dendrogram-with-colored-branches

Pemuda menurut Undang-Undang No 40 tahun 2009 adalah warga negara Indonesia yang berusia 16 sampai 30 tahun yang merupakan periode penting usia pertumbuhan dan perkembangan. Menurut hasil Susenas Tahun 2019, perkiraan jumlah pemuda sebesar 64,19 juta jiwa atau seperempat dari total penduduk Indonesia (Badan Pusat Statistik, 2019). Pemuda sebagai Generasi Penerus Bangsa. Masa depan Bangsa Indonesia sangatlah ditentukan oleh para generasi muda Bangsa ini. Namun pada kenyataannya di tahun 2019 masih ada pemuda yang tidak bisa membaca dan menulis. Kualitas pemuda terutama dilihat dari capaian pendidikan dan kesehatannya. Makadari itu sangatlah penting untuk memperhatikan kondisi pemuda indonesia terutama dibidang pendidikan.

Clustering?

Analisis cluster atau pengelompokan merupakan suatu teknik analisis statistik yang ditujukan untuk menempatkan sekumpulan obyek ke dalam dua atau lebih grup berdasarkan kesamaan-kesamaan obyek atas dasar berbagai karakteristik (Simamora, 2005). Analisis cluster dalam statistika terdiri dari 2 metode, yaitu metode hirarki dan metode non-hirarki.

Hirariki Clustering?

Metode hirarki dimulai dengan mengelompokkan dua atau lebih objek yang mempunyai kesamaaan yang paling dekat. Tipe dasar dalam metode hierarki bisa aglomeratif atau devisif. Pada pengclusteran aglomeratif, dimulai dengan menempatkan obyek dalam cluster –cluster yang berbeda kemudian mengelompokkan obyek secara bertahap ke dalam cluster-cluster yang lebih besar, sedangkan pada pengclusteran devisif dimulai dengan menempatkan semua obyek sebagai satu cluster. Kemudian secara bertahap obyek-obyek dipisahkan ke dalam cluster-cluster yang berbeda, dua cluster, tiga cluster, dan seterusnya (Simamora, 2005: 215).

Ada lima metode hierarki aglomeratif dalam pembentukan cluster yaitu:

  1. Pautan Tunggal (Single Linkage) 2)
  2. Pautan Lengkap (Complete Linkage)
  3. Pautan Rata-rata (Average Linkage)
  4. Metode Ward (Ward’s Method)
  5. Metode Centroid (pusat)

Langkah-langkah dalam metode cluster hierarki aglomeratif adalah sebagai berikut :

a) Dimulai dengan N cluster, dimana masing-masing memuat satu kesatuan. Jika terdapat matriks N x N dengan jarak D ={dik}.

b) Mencari matriks jarak untuk pasangan cluster terdekat. Misalkan pasangan cluster paling mirip obyek U dan V maka D = {duv}, sehingga U dan V dipilih.

c) Menggabungkan cluster U dan V menjadi cluster baru (UV). Memperbaharui masukan dalam matriks jarak dengan cara 1) Menghapus baris dan kolom sesuai dengan cluster U dan V 2) Menambahkan baris dan kolom dengan memberikan nilai jarak antara cluster baru (UV) dan semua sisa cluster.

d) Mengulangi langkah (b) dan ©sebanyak (n-1) kali.

Asumsi Cluster

Dalam melakukan analisis cluster ada beberapa hal yang perlu diperhatikan, diantaranya sebagai berikut: 1) Uji Outlier: Menurut Ghozali (2006:41) outlier adalah kasus atau data yang memiliki karakteristik unik yang terlihat sangat berbeda jauh dari observasi-observasi lainnya dan muncul dalam bentuk nilai ekstrim. 2) Uji No Multikolinearitas: Analisis cluster harus memenuhi asumsi no-multikolinearitas yaitu tidak terdapat korelasi antar variabel, salah pengujian dengan menghitung koefisien korelasi dan menghitung nilai tolerance atau VIF, jika nilai VIF melebihi 10 maka menunjukkan bahwa terjadi multikolinearitas antar variabel.

pada kasus ini kita akan mencoba menggunakan metode Ward’s (Metode Ward).

metode Ward’s ini menggunakan perhitungan yang lengkap dan memaksimumkan homogenitas di dalam satu cluster

DATA:

Data yang digunakan adalah data mengenai pendidikan pemuda di indonesia 2019 yang diperoleh dari Badan Pusat Statistik. Data dapat di download di link berikut: https://drive.google.com/drive/folders/13Y6Hn7b6yvBu6U1zWNAp_bz409FOkOhX?usp=sharing

Variabel:

  1. ABH: Persentase Angka Buta Huruf Pemuda
  2. SD: Persentase Pemuda Menurut Pendidikan Tertinggi yang Ditamatkan SD
  3. SMP: Persentase Pemuda Menurut Pendidikan Tertinggi yang Ditamatkan SMP
  4. SM: Persentase Pemuda Menurut Pendidikan Tertinggi yang Ditamatkan SMA/SMK
  5. PT: Persentase Pemuda Menurut Pendidikan Tertinggi yang Ditamatkan Perguruan Tinggi
  6. Menggunakan Komputer: Persentase Pemuda yang Menggunakan Komputer dalam Tiga Bulan Terakhir
  7. Menggunakan Internet: Persentase Pemuda yang Menggunakan Internet dalam Tiga Bulan Terakhir

Goals:

Mendapatkan Kelompok-Kelompok berdasarkan kesamaan kharakteristik.

Kali ini clustering menggunakan bantuan program R. Maka pastikan program sudah terinstall pada laptop kalian ! :)

Langkah 1: Cleaning Data dan Statistika Deskriptif

Pertama masukkan data yang telah di download ke program r dengan menggunakan perintah “read.delim(‘clipboard’)”. Kemudian lihat datanya untuk memastikan.

pemuda <- read.delim('clipboard')
View(pemuda)
dim(pemuda)
data

diketahui data memiliki 34 baris dan 9 kolom. selanjutnya di lakukan pengecekkan data outlier dari data kolom 2 hingga kolom 8 dengan menggunakan bantuan “library(MVN)”.

library(MVN)
outlier=mvn(pemuda[,2:8],multivariateOutlierMethod = "quan", showNewData = TRUE)

berdasarkan Q-Q plot diketahui ada 7 data outlier, namun dari ke 7 data outlier peneliti hanya akan membuang satu data outlier yaitu observasi ke 34 (provinsi papua) karena jaraknya sangat jauh dari obeservasi lainnya.

pemuda<- pemuda[-34,]

kemudian melihat statistik 5 serangkai dari data yang telah dibuang data pencilan.

summary(pemuda[,2:8])

dari statistik sekriptif diatas diketahui dari 34 provinsi, variabel ABH mempunyai rata-rata 0.2118, variabel SD mempunyai rata-rata 7.743, variabel SMP mempunyai rata-rata 29.98, variabel SM mempunyai rata-rata 42.74, variabel PT mempunyai rata-rata 14.6 dst..

Langkah 2: Pengujian Asumsi

selanjutnya dilakukan pengujian asumsi multikolinieritas dengan menggunakan asumsi nilai VIF <10 no multikolinieritas. Variabel SUM yang merupakan jumlahan dari seluruh variabel masing-masing provinsi dan dijadikan variabel dependen.

library(car)
(multiko=vif(lm(SUM~.,data = pemuda[2:9])))
nilai VIF variabel independen

Berdasarkan nilai VIF diatas, seluruh nilai VIF lebih kecil dari 10, maka dapat disimpulkan data tidak terdapat multikolinearitas. Selanjutnya melakukan pengelompokan hirarki clustering metode ward.

Langkah 3: Hirarki Clustering Meode Ward

Langkah pertama yang dilakukan adalah menentukan jumlah cluster. Pada penelitian ini jumlah cluster ditentukan dari nilai K optimal metode Silhouette, hirarki ward.

nb: jika ingin menggunakan metode hirarki lain dapat menggantikan sintaks hc_method=”” dengan → “complete” “average” “centroid” “single”

fviz_nbclust(pemuda[,2:8],FUN=hcut,method = "silhouette", hc_method="ward.D")

Berdasarkan nilai average sihhouette width didapatkan K Optimum sebanyak dua. Maka jumlah cluster yang terbaik dibentuk sebanyak dua cluster.

Melihat cluster dendogram.

fviz_nbclust(pemuda[,2:8],FUN=hcut,method = "silhouette", hc_method="ward.D")

Melihat hasil pengelompokan data sebanyak 2 cluster.

library(sparcl)
y = cutree(metode_ward, 2)
ColorDendrogram(metode_ward, y = y, labels = names(y), main = "Colored Dendogram (2 groups)",
branchlength = 80)

Berdasarkan hasil pengelompokan dendogram diatas, cluster 1 terdiri dari 9 provinsi dan cluster 2 terdiri dari 24 provinsi.

selanjutnya melihat anggota cluster.

#hasil kelompok data dalam format data frame
anggotaward = cutree(metode_ward,2)
tabelward=data.frame(pemuda[,1], anggotaward)
tabelward

Langkah 4: Menghitung Profilisasi

Kemudian kita akan menghitung profilisi setiap cluster untuk mengetahui karakteristik / ciri khas masing-masing cluster kualitas pendidikan pemuda di Indonesia tahun 2019. Pertama menggabungkan anggota cluster pada data “pemuda” dari kolom 2 hingga 8.

hasil=data.frame(pemuda[,2:8], anggotaward)
hasil

kemudian mengelompokan masing-masing data kluster 1 dan cluster 2.

kluster1=subset(hasil, anggotaward==1)
kluster2=subset(hasil, anggotaward==2)
kluster_1=sapply(kluster1, mean)
kluster_2=sapply(kluster2, mean)

menghitung rata-rata total masing-masing cluster.

mean_total=rbind(kluster_1,kluster_2)
mean_total
profilisasi

Keterangan:

dikotak merah tinggi

Berdasarkan profilisasi, maka diperoleh kharakteristik masing-masing cluster sebagai berikut:

· Cluster 1 : merupakan wilayah yang tinggi pada persentase SM, PT, Menggunakan Komputer dan Menggunakan internet.

· Cluster 2 : merupakan wilayah yang tinggi pada persentase angka buta huruf (ABH), SD, SMP. kluster ini terdiri dari provinsi Lampung Jawa Barat, Jawa Tengah, Jawa Timur, Banten, NTT, NTB, Sulawesi Barat dan Papua barat.

THX :)

Referensi:

Simamora, Bilson. (2005). Analisis Multivariat Pemasaran Edisi Pertama. Jakarta: PT. Gramedia Pustaka tama

Rahmawati, Ina. 2007. “Analisis Cluster Dengan Menggunakan Metode Hierarki Untuk Pengelompokan Kabupaten/Kota Di Jawa Timur Berdasar Indikator Kesehatan”. Diakses pada tanggal 9 November 2017 dari http://jurnalonline.um.ac.id/data/artikel/artikel1768E9E20B8E53209B2AAE90144ED 66D.pdf

--

--

Halima Tusyakdiah
Halima Tusyakdiah

Written by Halima Tusyakdiah

Statistics student at Islamic University of Indonesian

No responses yet