1.Melimpahnya
data (overload data) yang dialami oleh berbagai institusi, perusahaan
atau organisasi.
Merlimpahnya data ini merupakan akumulasi data transaksi
yang terekam bertahun-tahun..
Data–data tersebut merupakan data transaksi yang
umumnya diproses menggunakan aplikasi komputer yang biasa disebut dengan OLTP (On
Line Transaction Processing).
2.1. Data
selection
Pemilihan (seleksi) data dari sekumpulan
data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD
dimulai. Data hasil seleksi yang digunakan untuk proses data mining, disimpan
dalam suatu berkas, terpisah dari basis data operasional.
2. Pre-processing / cleaning
Sebelum proses data mining dapat
dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD.
Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data
yang inkonsisten, dan memperbaiki kesalahan pada data.
3. Transformation
Coding adalah proses transformasi
pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data
mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung
pada jenis atau pola informasi yang akan dicari dalam basis data.
4. Data mining
Data mining adalah proses mencari
pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau
metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat
bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada
tujuan dan proses KDD secara keseluruhan.
5. Interpretation / evalution
Pola
informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam
bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan
bagian dari proses KDD yang disebut interpretation. Tahap ini mencakup
pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta
atau hipotesis yang ada sebelumnya.
3.Atribut identik dengan istilah “kolom data” tetapi dapat
menunjukkan fungsinya sebagai pembentuk karakteristik (sifat-sifat) yang
melekat dalam sebuah tabel.Pada penerapan aturan normalisasi, bisa berdampak
pada penghilangan atau penambahan kolom tertentu, atau bahkan dapat memebentuk
suatu tabel baru.
Selain penamaan
yang unik berdasarkan fungsinya di tiap tabel, atribut juga dapat dibedakan
berdasarkan sejumlah pengelompokkan sbb :
- Atribut kunci dan Atribut Deskriptif
- Atribut Sederhana ( Simple Attribute ) dan Atribut Komposit ( Composite Attribute )
- Atribut Bernilai Tunggal ( Single-Valued Attribute ) dan Atribut Bernilai Banyak ( Multi-Valued Attribute )
- Atribut Harus Bernilai ( Mandatory Attribute ) dan Atribut Nilai Null ( Null Value Attribute)
- Atribut Turunan ( Derrived Attribute )
tribut DeskriptifAtribut
Deskriptif adalah atribut-atribut yang tidak menjadi atau merupakan anggota
dari primary key.Jadi, dalam tabel mahasiswa yang menjadi atribut deskriptif
adalah selain NIM.Atribut Sederhana (simple attribute )Atribut
Sederhana adalah atribut atomik yang tidak dapat dipilah lagi. Contoh Atribut
Sederhana pada tabel customer adalah no_identitas dan jaminan, dimana atribut
ini tidak bisa dipecah lagi.Atribut Komposit (composite attribute )Atribut
Komposit (composite attribute ) adalah atribut yang masih dapat diuraikan lagi
menjadi sub-sub atribut yang masing-masing memiliki makna.
Contoh pada tabel customer adalah atribut alamat, dimana dapat diuraikan lagi menjadi alamat, kota dan kode_pos.
Atribut Bernilai Tunggal (single-valued attribute)
Atribut bernilai tunggal adalah atribut-atribut yang memiliki paling banyak satu nilai untuk setiap baris data. Contoh : Bila seorang mahasiswa memiliki 2 tempat tinggal, maka hanya 1 saja yang boleh diisikan ke atribut alamat_mhs.Atribut Bernilai Banyak (multiple-valued attribute)Atribut bernilai banyak adalah atribut-atribut yang dapat diisi dengan lebih dari satu nilai, tetapi jenisnya sama. Contoh : Atribut hobi pada data mahasiswa.Ada mahasiswa yang punya banyak hobi, ada yang cuma satu hobi dan ada yang tidak ada sama sekali.Atribut Harus Bernilai (mandatory attribute)Atribut harus bernilai adalah jika berisi data dan nilainya tidak boleh kosong.
Contoh : no_identitas dan nama_customer harus ada nilainya dalam tabel customer.Atribut Nilai Null ( non-mandatory attribute )Atribut nilai null adalah atribut yang nilainya boleh dikosongkan. Dapat digunakan untuk menyatakan/mengisi atribut-atribut yang nilainya memang belum siap atau tidak ada.Nilai null tidak sama dengan spasi.Atribut TurunanAtribut turunan adalah atribut-atribut yang nilai-nilainya diperoleh dari pengolahan atau dapat diturunkan dari atribut tabel lain yang berhubungan.Dapat ditiadakan dari sebuah tabel, karena nilainya bergantung pada nilai yang ada di atribut lain.
Contoh pada tabel customer adalah atribut alamat, dimana dapat diuraikan lagi menjadi alamat, kota dan kode_pos.
Atribut Bernilai Tunggal (single-valued attribute)
Atribut bernilai tunggal adalah atribut-atribut yang memiliki paling banyak satu nilai untuk setiap baris data. Contoh : Bila seorang mahasiswa memiliki 2 tempat tinggal, maka hanya 1 saja yang boleh diisikan ke atribut alamat_mhs.Atribut Bernilai Banyak (multiple-valued attribute)Atribut bernilai banyak adalah atribut-atribut yang dapat diisi dengan lebih dari satu nilai, tetapi jenisnya sama. Contoh : Atribut hobi pada data mahasiswa.Ada mahasiswa yang punya banyak hobi, ada yang cuma satu hobi dan ada yang tidak ada sama sekali.Atribut Harus Bernilai (mandatory attribute)Atribut harus bernilai adalah jika berisi data dan nilainya tidak boleh kosong.
Contoh : no_identitas dan nama_customer harus ada nilainya dalam tabel customer.Atribut Nilai Null ( non-mandatory attribute )Atribut nilai null adalah atribut yang nilainya boleh dikosongkan. Dapat digunakan untuk menyatakan/mengisi atribut-atribut yang nilainya memang belum siap atau tidak ada.Nilai null tidak sama dengan spasi.Atribut TurunanAtribut turunan adalah atribut-atribut yang nilai-nilainya diperoleh dari pengolahan atau dapat diturunkan dari atribut tabel lain yang berhubungan.Dapat ditiadakan dari sebuah tabel, karena nilainya bergantung pada nilai yang ada di atribut lain.
4. Predictive
Modeling
Aplikasi Predictive Modeling menghasilkan klasifikasi atau prediksi. Tujuan dari predictive modeling adalah menemukan pola yang melibatkan variabel untuk memprediksi dan mengklasifikasi perilaku masa depan dari sebuah entitas. Ada dua tipe masalah yang diselesaikan oleh predictive modeling: klasifikasi dan regresi.
Aplikasi Predictive Modeling menghasilkan klasifikasi atau prediksi. Tujuan dari predictive modeling adalah menemukan pola yang melibatkan variabel untuk memprediksi dan mengklasifikasi perilaku masa depan dari sebuah entitas. Ada dua tipe masalah yang diselesaikan oleh predictive modeling: klasifikasi dan regresi.
Discovery
Aplikasi discovery adalah pendekatan eksploratoris untuk analisis data. Aplikasi discovery menggunakan teknik yang menganalisis data set yang besar untuk menemukan association rules(atau pola), atau menemukan kluster dari sampel yang dapat dikelompokan. Hasil dari metode discovery umumnya dimaksudkan untuk pengguna. Walau begitu, hasilnya juga dapat diaplikasikan ke metode data mining yang lain
Aplikasi discovery adalah pendekatan eksploratoris untuk analisis data. Aplikasi discovery menggunakan teknik yang menganalisis data set yang besar untuk menemukan association rules(atau pola), atau menemukan kluster dari sampel yang dapat dikelompokan. Hasil dari metode discovery umumnya dimaksudkan untuk pengguna. Walau begitu, hasilnya juga dapat diaplikasikan ke metode data mining yang lain
Deviation Detection
Deviation Detection melakukan deteksi anomali secara otomatis. Tujuannya untuk mengidentifikasi kebiasaan suatu entitas dan menetapkan sejumlah norm melalui pattern discovery. Sampel yang berdeviasi dari norm lalu diidentifikasi sebagai tidak biasa. teknik Deviation Detection melalui visualisasi melalui parallel coordinates, scatterplots, dan surface plots.
Deviation Detection melakukan deteksi anomali secara otomatis. Tujuannya untuk mengidentifikasi kebiasaan suatu entitas dan menetapkan sejumlah norm melalui pattern discovery. Sampel yang berdeviasi dari norm lalu diidentifikasi sebagai tidak biasa. teknik Deviation Detection melalui visualisasi melalui parallel coordinates, scatterplots, dan surface plots.
5. Object X masuk ke Class II
If attr A <= 50 and Attr
C < 20 Then Class I
If attr A <= 50 and Attr C >= 20
and Attr B = 10 Then Class I
If attr A <= 50 and Attr C >= 20
and Attr B = 0 Then Class II
If attr A < 5 and Attr B = 0 Then
Class I
If attr A < 5 and Attr B = 10 and Attr A
< 20 Then Class II
If attr A < 5 and Attr B = 10 and Attr A
>= 20 Then Class III
6.TERJADINYA PERCERAIAN ATAU TIDAK
Tabel
Perhitungan Node
NAMA KELUARGA
|
KOMUNIKASI
|
HUBUNGAN SEX
|
TEMPAT TINGGAL
|
PERCERAIAN
|
A
|
TERBUKA
|
TIDAK PERNAH
|
BERBEDA
|
TIDAK
|
B
|
TERTUTUP
|
PERNAH
|
SAMA
|
YA
|
C
|
KADANG-KADANG
|
JARANG
|
BERBEDA
|
TIDAK
|
D
|
TERTUTUP
|
JARANG
|
BERBEDA
|
YA
|
E
|
TERBUKA
|
TIDAK PERNAH
|
SAMA
|
TIDAK
|
F
|
TERTUTUP
|
PERNAH
|
SAMA
|
YA
|
No comments:
Post a Comment