-->
logo blog

Saturday 12 January 2019

Contoh soal dan jawaban DATA MINING k means dan DBSCAN, k medoid dan mixture modeling, decision tree, c 4.5 dan c 5.0



Salam sejahtera untuk kita semua, pada kali ini saya ingin menjelaskan serta membuat jawaban yang saya dapatkan dari mata kuliah data mining pada semester 5, semoga bisa menambah ilmu para pembaca sekalian.

1. jelaskan definisi dari k means dan DBSCAN? dan jelaskan perbedaan dari kedua algoritma tersebut
2. jelaskan definisi dari k medoid dan mixture modeling? dan jelaskan perbedaan dari kedua algoritma tersebut
3. sebutkan dan jelaskan tahapan dari metodologi crisp dm yang ada pada data mining
4. jelaskan definisi dari decision tree, c 4.5 dan c 5.0? jelaskan juga perbedaan dari setiap algoritma tersebut
5. tuliskan rumus dari algoritma c 4.5 naive bayes dan knn?

Jawab

      1.       Metode K-Means adalah pengelompokan data nonhierarki (sekatan) yang mempartisi data ke dalam bentuk dua atau lebih kelompok, sehingga data yang berkarakteristik sama dimasukkan ke dalam satu kelompok yang sama.

Density-Based Spatial Clustering Algorithm with noise (DBSCAN) adalah algoritma pengelompokan yang didasarkan pada kepadatan (density) data. Konsep kepadatan dalam DBSCAN menghasilkan tiga macam status dari setiap data, yaitu inti (core), batas (border), dan noise.

Perbedaan k means dan DBSCAN

Pengelompokan data dengan metode K-Means secara umum dilakukan dengan algoritma sebagai berikut:
1.            Menentukan banyaknya k kelompok.
2.            Membagi data ke dalam k kelompok
3.            Menghitung pusat kelompok (sentroid) dari data yang ada di masing-masing kelompok dan dinyatakan dalam bentuk persamaan dimana C adalah sentroid, M adalah banyak data, i adalah banyak kelompok.
4.            Masing-masing data dialokasikan ke sentroid terdekat. Menghitung jarak data ke setiap sentoid menggunakan jarak Euclidean dan dinyatakan dalam bentuk persamaan .
5.            Kembali ke langkah 3 apabila masih ada data yang berpindah kelompok

Konsep kepadatan DBSCAN seperti ini menghasilkan tiga macam status dari setiap data, yaitu inti (core), batas (border), dan noise.
-Data inti merupakan data yang jumlah data di dalam radius eps lebih dari minPts,
-data noise merupakan data yang jumlah data di dalam radius eps kurang dari minPts, dan ----data batas merupakan data yang jumlah data di dalam radius eps kurang dari minPts tetapi menjadikan data tetangganya menjadi data inti.

      2.       Mix Model
Mixture modelling (Mixture Modeling atau Mixture Model) adalah suatu metode penganalisaan data atau data mining yang juga disebut dengan istilah-istilah lain seperti clustering, intrinsic classification dan numerical taxonomy.


Algoritma K-Medoids
Algoritma k-medoids adalah algoritma clustering yang berkaitan dengan algoritma k-means dan algoritma medoidshift. Baik k-means dan algoritma k-medoids adalah teknik partisi (memecah dataset ke dalam kelompok) dan keduanya berusaha untuk meminimalkan square error (jarak antara titik berlabel berada dalam cluster dan titik yang ditunjuk sebagai pusat cluster tersebut).

Perbedaan mix model dan k medoids
K-medoid adalah teknik partisi klasik untuk clustering yang melakukan klasterisasi data dari n objek ke dalam k cluster yang dikenal dengan a priori. Sebuah alat yang berguna untuk menentukan k adalah silhouette.
K-medoid lebih kuat terhadap noise dan outliner dibandingkan dengan k-means karena meminimalkan jumlah dari ketidaksamaan bukannya meminimalkan jumlah kuadrat jarak Euclidean.

Metode mix modeling  ini memodel atau mengelompokkan data-data di dalam suatu dataset menjadi kelompok-kelompok data yang sebelumnya tidak terdifinisikan.


     3.       Tahapan dari metodologi crisp dm yang ada pada data mining      
      1.       Business Understanding
Secara garis besar untuk mendefinisikan proyek. Ini adalah tahap pertama dalam CRISP-DM dan termasuk bagian yang cukup vital dalam proyek dan selama pengerjaan pada proses selanjutnya.
2. Data Understanding
Secara garis besar untuk memeriksa data, sehingga dapat mengidentifikasi masalah dalam data.
3. Data Preperation
Secara garis besar untuk memperbaiki masalah dalam data, kemudian membuat variabel derived
4.Modeling
Secara garis besar untuk membuat model prediktif atau deskriptif
5.Evaluation
Secara garis besar untuk menilai model agar dapat melaporkan efek yang diharapkan dari model
6.Deployment
Secara garis besar untuk rencana penggunaan model


      4.       (Decision Tree 4.5) merupakan metode klasifikasi dan prediksi yang sangat kuat dan terkenal. Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang merepresentasikan aturan. Aturan dapat dengan mudah dipahami dengan bahasa alami. Aturan ini juga dapat diekspresikan dalam bentuk bahasa basis data seperti SQL untuk mencari record pada kategori tertentu. Pohon keputusan juga berguna untuk mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target.

 (Decision Tree 5.0) bekerja dengan memecah sampel berdasarkan bidang yang memberikan penguatan informasi maksimum . Setiap subsampel yang ditentukan oleh pemisahan pertama kemudian dibagi lagi, biasanya berdasarkan bidang yang berbeda, dan proses ini diulang sampai subsampel tidak dapat dibagi lebih jauh. Akhirnya, pemisahan level terendah diperiksa ulang, dan yang tidak berkontribusi signifikan terhadap nilai model dihapus atau dipangkas .
      
      5.        
C4.5
Algotirma C4.5merupakan algoritma yang umum digunakan untuk pengambilan keputusan. C4.5akan mencari solusi permasalahan dengan menjadikan kriteria sebagai node yang saling berhubungan membentuk seperti struktur pohon(Mantas & Abean, 2014). C4.5adalah model prediksi terhadap suatu keputusan menggunakan struktur hirarki atau pohon. Setiap pohon memiliki cabang, cabang mewakili suatu atribut yang harus dipenuhi untuk menuju cabang selanjutnya hingga berakhir di daun (tidak ada cabang lagi). Konsep data dalam C4.5adalah data dinyatakan dalam bentuk tabel yang terdiri dari atribut dan record. Atribut digunakan sebagai parameter yang dibuat sebagaikriteria dalam pembuatan pohon, untuk pohon pertama adalah nilai Gain tertinggi dan berulang sampai tidak ada cabang lagi. Persamaan yang digunakan untuk menghitung Gain seperti berikut:



Naïve Bayes
Naïve Bayes adalah algoritma yang digunakan dalam statistika untuk menghitung peluang dari suatu hipotesis, Naïve Bayes menghitung peluang suatu label berdasarkan pada atribut yang dimiliki dan menentukan label yang memiliki peluang paling tinggi(Lu, Ling, & Huang, 2003). Naïve Bayes mengklasifikasikan label berdasarkan pada probabilitas sederhana dengan mangasumsikan bahwa setiap atribut dalam data tersebut bersifat saling terpisah. Naïve Bayes merupakan salah satu metode yang banyak digunakan berdasarkan beberapa sifatnya yang sederhana. Naïve Bayes mengklasifikasikan data berdasarkan peluang   atribut  dari setiap label   data. Model
peluang setiap label dan jumlah atribut yang dapat dituliskan seperti persamaan berikut.


k-Nearest Neighbour
k-Nearest Neighbour adalah algoritma pengklasifikasian yang didasarkan pada analogi, yaitu membandingkan data uji dengan data pelatihan yang berada dekat dengan dan memiliki kemiripan dengan data uji tersebut (S. Tan, 2006). Kemiripan data uji dengan data pelatihan didasarkan pada jaraknya. Banyak persamaan yang dapat digunakan untuk menghitung jarak antara data uji dan data pelatihan. Perhitungan selanjutnya adalah persamaan untuk mencari kemiripan dengan k-nearest neighbour yaitu:




 sekian semoga bermanfaat.


EmoticonEmoticon