DEFINISI
Data Mining (Penggalian data) adalah ekstraksi pola yang menarik dari data dalam jumlah besar. Suatu pola dikatakan menarik apabila pola tersebut tidak sepele, implisit, tidak diketahui sebelumnya, dan berguna.
Pola yang disajikan haruslah mudah dipahami, berlaku untuk data yang akan diprediksi dengan derajat kepastian tertentu, berguna, dan baru. Penggalian data memiliki beberapa nama alternatif,
meskipun definisi eksaknya berbeda, seperti KDD (knowledge
discovery in database), analisis pola, arkeologi data, pemanenan informasi, dan intelegensia bisnis.
Data mining diperlukan saat data yang tersedia terlalu banyak (misalnya data yang diperoleh dari sistem basis data perusahaan,
e-commerce, data saham, dan data bioinformatika), tapi tidak tahu pola apa yang bisa didapatkan.
LATAR BELAKANG
Data Mining (Penggalian data) adalah ekstraksi pola yang menarik dari data dalam jumlah besar. Suatu pola dikatakan menarik apabila pola tersebut tidak sepele, implisit, tidak diketahui sebelumnya, dan berguna.
Pola yang disajikan haruslah mudah dipahami, berlaku untuk data yang akan diprediksi dengan derajat kepastian tertentu, berguna, dan baru. Penggalian data memiliki beberapa nama alternatif,
meskipun definisi eksaknya berbeda, seperti KDD (knowledge
discovery in database), analisis pola, arkeologi data, pemanenan informasi, dan intelegensia bisnis.
Data mining diperlukan saat data yang tersedia terlalu banyak (misalnya data yang diperoleh dari sistem basis data perusahaan,
e-commerce, data saham, dan data bioinformatika), tapi tidak tahu pola apa yang bisa didapatkan.
Pada dasarnya data mining dibedakan menjadi dua fungsionalitas, yaitu deskripsi dan prediksi. Berikut ini beberapa fungsionalitas data mining yang sering digunakan:
Karakterisasi dan Diskriminasi : yaitu menggeneralisasi, merangkum, dan mengkontraskan karakteristik data.
Penggalian pola berulang : yaitu pencarian pola asosiasi (association rule) atau pola intra-transaksi, atau pola pembelian yang terjadi dalam satu kali transaksi.
Klasifikasi : yaitu membangun suatu model yang bisa mengklasifikasikan suatu objek berdasar atribut-atributnya. Kelas target sudah tersedia dalam data sebelumnya, sehingga fokusnya adalah bagaimana mempelajari data yang ada agar klasifikator bisa mengklasifikasikan sendiri.
Prediksi : yaitu memprediksi nilai yang tidak diketahui atau nilai yang hilang, menggunakan model dari klasifikasi.
Penggugusan/Cluster analysis : yaitu mengelompokkan sekumpulan objek data berdasarkan kemiripannya. Kelas target tidak tersedia dalam data sebelumnya, sehingga fokusnya adalah memaksimalkan kemiripan intrakelas dan meminimalkan kemiripan antarkelas.
Analisis outlier : yaitu proses pengenalan data yang tidak sesuai dengan perilaku umum dari data lainnya. Contoh: mengenali noise dan pengecualian dalam data.
Analisis trend dan evolusi : meliputi analisis regresi, penggalian pola sekuensial, analisis periodisitas, dan analisis berbasis kemiripan.
Data mining adalah salah satu bagian dari proses pencarian pola. Berikut ini urutan proses pencarian pola:
Pembersihan Data
: yaitu menghapus data pengganggu (noise) dan mengisi data yang hilang.
Integrasi Data
: yaitu menggabungkan berbagai sumber data.
Pemilihan Data
: yaitu memilih data yang relevan.
Transformasi Data
: yaitu mentransformasi data ke dalam format untuk diproses dalam penggalian data.
Penggalian Data: yaitu menerapkan metode cerdas untuk ekstraksi pola.
Evaluasi pola : yaitu mengenali pola-pola yang menarik saja.
Penyajian pola : yaitu memvisualisasi pola ke pengguna.
Mitos Data Mining :
1. DM menyediakan prediksi sekejap, kenyataannya merupakan proses yang panjang dan
proaktif
2. DM belum jelas untuk aplikasi bisnis apa, kenyataannya hampir semua aplikasi bisnis
dapat menggunakan DM
3. DM memerlukan database terpisah, kenyataannya oleh perkembangan teknologi
informasi DM dapat tidak memiliki database terpisah
4. Hanya seorang ilmuwan yang dapat menerapkan DM, kenyataannya aplikasi DM sekarang
memungkinkan seorang manager menengah menggunakan DM
5. DM hanya untuk perusahaan yang mempunyai data yang sangat besar, kenyataanya jika
data secara akurat dapat mencerminkan bisnis makan perusahaan kecilpun dapat
menggunakan DM