Salam sejahtera untuk kita semua, pada kali ini saya ingin menjelaskan serta membuat jawaban yang saya dapatkan dari mata kuliah data mining pada semester 5, semoga bisa menambah ilmu para pembaca sekalian.
1. jelaskan
definisi dari k means dan DBSCAN? dan jelaskan perbedaan dari kedua algoritma
tersebut
2. jelaskan
definisi dari k medoid dan mixture modeling? dan jelaskan perbedaan dari kedua
algoritma tersebut
3. sebutkan
dan jelaskan tahapan dari metodologi crisp dm yang ada pada data mining
4. jelaskan
definisi dari decision tree, c 4.5 dan c 5.0? jelaskan juga perbedaan dari
setiap algoritma tersebut
5. tuliskan
rumus dari algoritma c 4.5 naive bayes dan knn?
Jawab
1.
Metode K-Means adalah pengelompokan data
nonhierarki (sekatan) yang mempartisi data ke dalam bentuk dua atau lebih
kelompok, sehingga data yang berkarakteristik sama dimasukkan ke dalam satu
kelompok yang sama.
Density-Based Spatial Clustering Algorithm with
noise (DBSCAN) adalah algoritma pengelompokan yang didasarkan pada kepadatan
(density) data. Konsep kepadatan dalam DBSCAN menghasilkan tiga macam status
dari setiap data, yaitu inti (core), batas (border), dan noise.
Perbedaan k
means dan DBSCAN
Pengelompokan data dengan metode K-Means secara
umum dilakukan dengan algoritma sebagai berikut:
1. Menentukan
banyaknya k kelompok.
2. Membagi
data ke dalam k kelompok
3. Menghitung
pusat kelompok (sentroid) dari data yang ada di masing-masing kelompok dan
dinyatakan dalam bentuk persamaan dimana C adalah sentroid, M adalah banyak
data, i adalah banyak kelompok.
4. Masing-masing
data dialokasikan ke sentroid terdekat. Menghitung jarak data ke setiap sentoid
menggunakan jarak Euclidean dan dinyatakan dalam bentuk persamaan .
5. Kembali
ke langkah 3 apabila masih ada data yang berpindah kelompok
Konsep kepadatan DBSCAN seperti ini menghasilkan
tiga macam status dari setiap data, yaitu inti (core), batas (border), dan
noise.
-Data inti merupakan data yang jumlah data di dalam
radius eps lebih dari minPts,
-data noise merupakan data yang jumlah data di
dalam radius eps kurang dari minPts, dan ----data batas merupakan data yang
jumlah data di dalam radius eps kurang dari minPts tetapi menjadikan data
tetangganya menjadi data inti.
2. Mix Model
Mixture modelling (Mixture Modeling atau Mixture
Model) adalah suatu metode penganalisaan data atau data mining yang juga
disebut dengan istilah-istilah lain seperti clustering, intrinsic
classification dan numerical taxonomy.
Algoritma
K-Medoids
Algoritma k-medoids adalah algoritma clustering
yang berkaitan dengan algoritma k-means dan algoritma medoidshift. Baik k-means
dan algoritma k-medoids adalah teknik partisi (memecah dataset ke dalam
kelompok) dan keduanya berusaha untuk meminimalkan square error (jarak antara
titik berlabel berada dalam cluster dan titik yang ditunjuk sebagai pusat
cluster tersebut).
Perbedaan
mix model dan k medoids
K-medoid adalah teknik partisi klasik untuk
clustering yang melakukan klasterisasi data dari n objek ke dalam k cluster
yang dikenal dengan a priori. Sebuah alat yang berguna untuk menentukan k
adalah silhouette.
K-medoid lebih kuat terhadap noise dan outliner
dibandingkan dengan k-means karena meminimalkan jumlah dari ketidaksamaan
bukannya meminimalkan jumlah kuadrat jarak Euclidean.
Metode mix modeling ini memodel atau mengelompokkan data-data di
dalam suatu dataset menjadi kelompok-kelompok data yang sebelumnya tidak
terdifinisikan.
3. Tahapan dari metodologi crisp dm yang ada
pada data mining
1. Business Understanding
Secara garis besar untuk mendefinisikan proyek. Ini
adalah tahap pertama dalam CRISP-DM dan termasuk bagian yang cukup vital dalam
proyek dan selama pengerjaan pada proses selanjutnya.
2. Data
Understanding
Secara garis besar untuk memeriksa data, sehingga
dapat mengidentifikasi masalah dalam data.
3. Data
Preperation
Secara garis besar untuk memperbaiki masalah dalam
data, kemudian membuat variabel derived
4.Modeling
Secara garis besar untuk membuat model prediktif
atau deskriptif
5.Evaluation
Secara garis besar untuk menilai model agar dapat
melaporkan efek yang diharapkan dari model
6.Deployment
Secara garis besar untuk rencana penggunaan model
4.
(Decision Tree 4.5) merupakan metode klasifikasi
dan prediksi yang sangat kuat dan terkenal. Metode pohon keputusan mengubah
fakta yang sangat besar menjadi pohon keputusan yang merepresentasikan aturan.
Aturan dapat dengan mudah dipahami dengan bahasa alami. Aturan ini juga dapat
diekspresikan dalam bentuk bahasa basis data seperti SQL untuk mencari record
pada kategori tertentu. Pohon keputusan juga berguna untuk mengeksplorasi data,
menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan
sebuah variabel target.
(Decision
Tree 5.0) bekerja dengan memecah sampel berdasarkan bidang yang memberikan
penguatan informasi maksimum . Setiap subsampel yang ditentukan oleh pemisahan
pertama kemudian dibagi lagi, biasanya berdasarkan bidang yang berbeda, dan
proses ini diulang sampai subsampel tidak dapat dibagi lebih jauh. Akhirnya,
pemisahan level terendah diperiksa ulang, dan yang tidak berkontribusi
signifikan terhadap nilai model dihapus atau dipangkas .
5.
C4.5
Algotirma C4.5merupakan algoritma yang umum
digunakan untuk pengambilan keputusan. C4.5akan mencari solusi permasalahan
dengan menjadikan kriteria sebagai node yang saling berhubungan membentuk
seperti struktur pohon(Mantas & Abean, 2014). C4.5adalah model prediksi
terhadap suatu keputusan menggunakan struktur hirarki atau pohon. Setiap pohon
memiliki cabang, cabang mewakili suatu atribut yang harus dipenuhi untuk menuju
cabang selanjutnya hingga berakhir di daun (tidak ada cabang lagi). Konsep data
dalam C4.5adalah data dinyatakan dalam bentuk tabel yang terdiri dari atribut
dan record. Atribut digunakan sebagai parameter yang dibuat sebagaikriteria
dalam pembuatan pohon, untuk pohon pertama adalah nilai Gain tertinggi dan
berulang sampai tidak ada cabang lagi. Persamaan yang digunakan untuk
menghitung Gain seperti berikut:
Naïve Bayes
Naïve Bayes adalah algoritma yang digunakan dalam
statistika untuk menghitung peluang dari suatu hipotesis, Naïve Bayes
menghitung peluang suatu label berdasarkan pada atribut yang dimiliki dan
menentukan label yang memiliki peluang paling tinggi(Lu, Ling, & Huang,
2003). Naïve Bayes mengklasifikasikan label berdasarkan pada probabilitas
sederhana dengan mangasumsikan bahwa setiap atribut dalam data tersebut
bersifat saling terpisah. Naïve Bayes merupakan salah satu metode yang banyak
digunakan berdasarkan beberapa sifatnya yang sederhana. Naïve Bayes
mengklasifikasikan data berdasarkan peluang
atribut dari setiap label data. Model
peluang setiap label dan jumlah atribut yang dapat
dituliskan seperti persamaan berikut.
k-Nearest Neighbour
k-Nearest Neighbour adalah algoritma
pengklasifikasian yang didasarkan pada analogi, yaitu membandingkan data uji
dengan data pelatihan yang berada dekat dengan dan memiliki kemiripan dengan
data uji tersebut (S. Tan, 2006). Kemiripan data uji dengan data pelatihan didasarkan
pada jaraknya. Banyak persamaan yang dapat digunakan untuk menghitung jarak
antara data uji dan data pelatihan. Perhitungan selanjutnya adalah persamaan
untuk mencari kemiripan dengan k-nearest neighbour yaitu:
EmoticonEmoticon