Advertisements
1.1.1.
Data Mining
Data Mining adalah serangkaian proses
untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui
secara manual dari suatu basisdata dengan melakukan penggalian pola-pola dari
data dengan tujuan untuk memanipulasi data menjadi informasi yang lebih
berharga yang diperoleh dengan cara mengekstraksi dan mengenali pola yang
penting atau menarik dari data yang terdapat dalam basisdata.
Data mining biasa
juga dikenal nama lain seperti : Knowledge discovery (mining) in databases
(KDD), ekstraksi pengetahuan (knowledge extraction) Analisa data/pola dan
kecerdasan bisnis (business intelligence) dan merupakan alat yang penting untuk
memanipulasi data untuk penyajian informasi sesuai kebutuhan user dengan tujuan
untuk membantu dalam analisis koleksi pengamatan perilaku, secara umum definisi
data-mining dapat diartikan sebagai berikut:
·
Proses
penemuan pola yang menarik dari data yang tersimpan dalam jumlah besar.
·
Ekstraksi
dari suatu informasi yang berguna atau menarik (non-trivial, implisit,
sebelumnya belum diketahui potensial kegunaannya) pola atau pengetahuan dari
data yang disimpan dalam jumlah besar.
·
Ekplorasi
dari analisa secara otomatis atau semiotomatis terhadap data-data dalam jumlah
besar untuk mencari pola dan aturan yang berarti.
1.1.2.
Data Preprocessing
Data
Preparation atau bisa disebut juga dengan data preprocessing adalah suatu
proses/langkah yang dilakukan untuk membuat data mentah menjadi data yang
berkualitas(input yang baik untuk data mining tools).
Karena
dalam data mentah masih terdapat data yang :
1. Incomplete, yaitu data yang
kekurangan nilai atribut atau hanya mengandung agregat data (contoh : address =
" ").
2. Noisy, yaitu data yang masih
mengandung error dan outliers (contoh : salary = -10).
3. Inconsistent, yaitu data yang
mengandung discrepansi dalam code dan nama atau
singkatnya
datanya tidak konsisten (contoh : dulu rating = 1,2,3 sekarang a,b,c).
Tujuannya yaitu :
1.
Jika
data masukan tidak berkualitas, maka hasil data mining juga tidak akan berkualitas.
2.
Keputusan
yang berkualitas pasti berasal/berdasarkan data yang berkualitas.
3.
Data
Warehouse membutuhkan integrasi yang konsisten dari data yang berkualitas.
4.
Jangan
sampai terjadi Garbage In Garbage Out.
Langkah-Langkah dalam data
preparation :
1.
Data Cleaning
Dalam data cleaning yang akan kita lakukan
antara lain mengisi missing value, mengidentifikasi outlier, menangani data
noise, mengoreksi data yang tidak konsisten, dan menyelesaikan masalah
redudansi data akibat integrasi data.
2.
Data Integration
Data integration adalah suatu langkah
untuk menggabungkan data dari beberapa sumber. Data integration hanya dilakukan
jika data berasal dari tempat yang berbeda-beda (sumber data tidak hanya dari 1
tempat). Langkah yang dilakukan antara lain mengintegrasikan skema,
mengidentifikasi masalah entitas,
dan mendeteksi sekaligus menyelesaikan
konflik pada nilai data.
3.
Data Transformation
Data transformation yaitu mengubah suatu
data supaya diperoleh data yang lebih berkualitas. Yang akan dilakukan antara
lain menghilangkan noise dari data (smoothing), meng-agregasi data,
generalisasi data, normalisasi data, dan pembentukan atribut/fitur.
4.
Dara Reduction
Data Reduction yaitu langkah untuk
mereduksi dimensi, atribut ataupun jumlah data. Yang akan dilakukan antara lain
agregasi data cube, reduksi dimensi, diskretisasi, dan kompresi data.
1.1.3.
Regresi Linier
Regresi linear adalah alat statistik yang dipergunakan
untuk mengetahui pengaruh antara satu atau beberapa variabel terhadap satu buah
variabel. Variabel yang mempengaruhi sering disebut variabel bebas, variabel
independen atau variabel penjelas. Variabel yang dipengaruhi sering disebut
dengan variabel terikat atau variabel dependen. Regresi linear hanya dapat
digunakan pada skala interval dan ratio.
Secara umum regresi linear terdiri dari dua, yaitu
regresi linear sederhana yaitu dengan satu buah variabel bebas dan satu buah
variabel terikat; dan regresi linear berganda dengan beberapa variabel bebas
dan satu buah variabel terikat. Analisis regresi linear merupakan metode
statistik yang paling jamak dipergunakan dalam penelitian-penelitian sosial,
terutama penelitian ekonomi. Program komputer yang paling banyak digunakan
adalah SPSS (Statistical Package For Service Solutions).
Artikel Terkait
Advertisements
Title : Pengertian Data Mining
Description : 1.1.1. Data Mining Data Mining adalah serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui ...
Description : 1.1.1. Data Mining Data Mining adalah serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui ...
0 Response to "Pengertian Data Mining"
Post a Comment