Iklan

Social Icons

Powered by Blogger.

Pengertian Data Mining



Advertisements



1.1.1.   Data Mining
Data Mining adalah serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui secara manual dari suatu basisdata dengan melakukan penggalian pola-pola dari data dengan tujuan untuk memanipulasi data menjadi informasi yang lebih berharga yang diperoleh dengan cara mengekstraksi dan mengenali pola yang penting atau menarik dari data yang terdapat dalam basisdata.
Data mining biasa juga dikenal nama lain seperti : Knowledge discovery (mining) in databases (KDD), ekstraksi pengetahuan (knowledge extraction) Analisa data/pola dan kecerdasan bisnis (business intelligence) dan merupakan alat yang penting untuk memanipulasi data untuk penyajian informasi sesuai kebutuhan user dengan tujuan untuk membantu dalam analisis koleksi pengamatan perilaku, secara umum definisi data-mining dapat diartikan sebagai berikut:
·         Proses penemuan pola yang menarik dari data yang tersimpan dalam jumlah besar.
·         Ekstraksi dari suatu informasi yang berguna atau menarik (non-trivial, implisit, sebelumnya belum diketahui potensial kegunaannya) pola atau pengetahuan dari data yang disimpan dalam jumlah besar.
·         Ekplorasi dari analisa secara otomatis atau semiotomatis terhadap data-data dalam jumlah besar untuk mencari pola dan aturan yang berarti.

1.1.2.      Data Preprocessing
Data Preparation atau bisa disebut juga dengan data preprocessing adalah suatu proses/langkah yang dilakukan untuk membuat data mentah menjadi data yang berkualitas(input yang baik untuk data mining tools).
Karena dalam data mentah masih terdapat data yang :
1.      Incomplete, yaitu data yang kekurangan nilai atribut atau hanya mengandung agregat data (contoh : address = " ").
2.      Noisy, yaitu data yang masih mengandung error dan outliers (contoh : salary = -10).
3.      Inconsistent, yaitu data yang mengandung discrepansi dalam code dan nama atau
singkatnya datanya tidak konsisten (contoh : dulu rating = 1,2,3 sekarang a,b,c).
Tujuannya yaitu :
1.      Jika data masukan tidak berkualitas, maka hasil data mining juga tidak akan berkualitas.
2.      Keputusan yang berkualitas pasti berasal/berdasarkan data yang berkualitas.
3.      Data Warehouse membutuhkan integrasi yang konsisten dari data yang berkualitas.
4.      Jangan sampai terjadi Garbage In Garbage Out.

Langkah-Langkah dalam data preparation :
1.      Data Cleaning
Dalam data cleaning yang akan kita lakukan antara lain mengisi missing value, mengidentifikasi outlier, menangani data noise, mengoreksi data yang tidak konsisten, dan menyelesaikan masalah redudansi data akibat integrasi data.
2.      Data Integration
pengertian data mining
Data integration adalah suatu langkah untuk menggabungkan data dari beberapa sumber. Data integration hanya dilakukan jika data berasal dari tempat yang berbeda-beda (sumber data tidak hanya dari 1 tempat). Langkah yang dilakukan antara lain mengintegrasikan skema, mengidentifikasi masalah entitas,
dan mendeteksi sekaligus menyelesaikan konflik pada nilai data.
3.      Data Transformation
Data transformation yaitu mengubah suatu data supaya diperoleh data yang lebih berkualitas. Yang akan dilakukan antara lain menghilangkan noise dari data (smoothing), meng-agregasi data, generalisasi data, normalisasi data, dan pembentukan atribut/fitur.
4.      Dara Reduction
Data Reduction yaitu langkah untuk mereduksi dimensi, atribut ataupun jumlah data. Yang akan dilakukan antara lain agregasi data cube, reduksi dimensi, diskretisasi, dan kompresi data.

1.1.3.         Regresi Linier
Regresi linear adalah alat statistik yang dipergunakan untuk mengetahui pengaruh antara satu atau beberapa variabel terhadap satu buah variabel. Variabel yang mempengaruhi sering disebut variabel bebas, variabel independen atau variabel penjelas. Variabel yang dipengaruhi sering disebut dengan variabel terikat atau variabel dependen. Regresi linear hanya dapat digunakan pada skala interval dan ratio.

Secara umum regresi linear terdiri dari dua, yaitu regresi linear sederhana yaitu dengan satu buah variabel bebas dan satu buah variabel terikat; dan regresi linear berganda dengan beberapa variabel bebas dan satu buah variabel terikat. Analisis regresi linear merupakan metode statistik yang paling jamak dipergunakan dalam penelitian-penelitian sosial, terutama penelitian ekonomi. Program komputer yang paling banyak digunakan adalah SPSS (Statistical Package For Service Solutions).


Artikel Terkait



Advertisements


Title : Pengertian Data Mining
Description : 1.1.1.    Data Mining Data Mining adalah serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui ...

0 Response to "Pengertian Data Mining"

Post a Comment