Thursday 19 September 2019

UTS DATA MINING


1.Melimpahnya data (overload data) yang dialami oleh berbagai institusi, perusahaan atau organisasi.
Merlimpahnya data ini merupakan akumulasi data transaksi yang terekam bertahun-tahun..
Data–data tersebut merupakan data transaksi yang umumnya diproses menggunakan aplikasi komputer yang biasa disebut dengan OLTP (On Line Transaction Processing).
2.1. Data selection 
Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.
2. Pre-processing / cleaning 
Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data.
3. Transformation 
Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data.
4. Data mining 
Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.
5. Interpretation / evalution 
Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya.


3.Atribut identik dengan istilah “kolom data” tetapi dapat menunjukkan fungsinya sebagai pembentuk karakteristik (sifat-sifat) yang melekat dalam sebuah tabel.Pada penerapan aturan normalisasi, bisa berdampak pada penghilangan atau penambahan kolom tertentu, atau bahkan dapat memebentuk suatu tabel baru.
Selain penamaan yang unik berdasarkan fungsinya di tiap tabel, atribut juga dapat dibedakan berdasarkan sejumlah pengelompokkan sbb :
  • Atribut kunci dan Atribut Deskriptif
  • Atribut Sederhana ( Simple Attribute ) dan Atribut Komposit ( Composite Attribute )
  • Atribut Bernilai Tunggal ( Single-Valued Attribute ) dan Atribut Bernilai Banyak ( Multi-Valued Attribute )
  • Atribut Harus Bernilai ( Mandatory Attribute ) dan Atribut Nilai Null ( Null Value Attribute)
  • Atribut Turunan ( Derrived Attribute )
tribut DeskriptifAtribut Deskriptif adalah atribut-atribut yang tidak menjadi atau merupakan anggota dari primary key.Jadi, dalam tabel mahasiswa yang menjadi atribut deskriptif adalah selain NIM.Atribut Sederhana (simple attribute )Atribut Sederhana adalah atribut atomik yang tidak dapat dipilah lagi. Contoh Atribut Sederhana pada tabel customer adalah no_identitas dan jaminan, dimana atribut ini tidak bisa dipecah lagi.Atribut Komposit (composite attribute )Atribut Komposit (composite attribute ) adalah atribut yang masih dapat diuraikan lagi menjadi sub-sub atribut yang masing-masing memiliki makna.

Contoh pada tabel customer adalah atribut alamat, dimana dapat diuraikan lagi menjadi alamat, kota dan kode_pos.

Atribut Bernilai Tunggal (single-valued attribute)

Atribut bernilai tunggal adalah atribut-atribut yang memiliki paling banyak satu nilai untuk setiap baris data. Contoh : Bila seorang mahasiswa memiliki 2 tempat tinggal, maka hanya 1 saja yang boleh diisikan ke atribut alamat_mhs.Atribut Bernilai Banyak (multiple-valued attribute)Atribut bernilai banyak adalah atribut-atribut yang dapat diisi dengan lebih dari satu nilai, tetapi jenisnya sama. Contoh : Atribut hobi pada data mahasiswa.Ada mahasiswa yang punya banyak hobi, ada yang cuma satu hobi dan ada yang tidak ada sama sekali.Atribut Harus Bernilai (mandatory attribute)Atribut harus bernilai adalah jika berisi data dan nilainya tidak boleh kosong.
Contoh : no_identitas dan nama_customer harus ada nilainya dalam tabel customer.Atribut Nilai Null ( non-mandatory attribute )Atribut nilai null adalah atribut yang nilainya boleh dikosongkan. Dapat digunakan untuk menyatakan/mengisi atribut-atribut yang nilainya memang belum siap atau tidak ada.Nilai null tidak sama dengan spasi.Atribut TurunanAtribut turunan adalah atribut-atribut yang nilai-nilainya diperoleh dari pengolahan atau dapat diturunkan dari atribut tabel lain yang berhubungan.Dapat ditiadakan dari sebuah tabel, karena nilainya bergantung pada nilai yang ada di atribut lain.

4.          Predictive Modeling

Aplikasi Predictive Modeling menghasilkan klasifikasi atau prediksi. Tujuan dari predictive modeling adalah menemukan pola yang melibatkan variabel untuk memprediksi dan mengklasifikasi perilaku masa depan dari sebuah entitas. Ada dua tipe masalah yang diselesaikan oleh predictive modeling: klasifikasi dan regresi.
Discovery

Aplikasi discovery adalah pendekatan eksploratoris untuk analisis data. Aplikasi discovery menggunakan teknik yang menganalisis data set yang besar untuk menemukan association rules(atau pola), atau menemukan kluster dari sampel yang dapat dikelompokan. Hasil dari metode discovery umumnya dimaksudkan untuk pengguna. Walau begitu, hasilnya juga dapat diaplikasikan ke metode data mining yang lain
Deviation Detection

Deviation Detection melakukan deteksi anomali secara otomatis. Tujuannya untuk mengidentifikasi kebiasaan suatu entitas dan menetapkan sejumlah norm melalui pattern discovery. Sampel yang berdeviasi dari norm lalu diidentifikasi sebagai tidak biasa. teknik Deviation Detection melalui visualisasi melalui parallel coordinates, scatterplots, dan surface plots.









5. Object X masuk ke Class II
        If attr A <= 50 and Attr C < 20 Then Class I
        If attr A <= 50 and Attr C >= 20  and Attr B = 10 Then Class I
        If attr A <= 50 and Attr C >= 20  and Attr B = 0 Then Class II
        If attr A < 5  and Attr B = 0 Then Class I
        If attr A < 5 and Attr B = 10 and Attr A < 20 Then Class II
        If attr A < 5 and Attr B = 10 and Attr A >= 20 Then Class III

























6.TERJADINYA PERCERAIAN ATAU TIDAK

https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEje6xqSptzBM535BXwzvJERcXDSyL530slBPM5LmeUvPhByLYb1miQ9reAqTX9eglcOsbwaM2JhwdRPmv0xdmk7o5M6MkSSUIZ5nPttcC2vR9GKkvWMqrUB7acoB2Vu0FaOd3vBl7KhSeA/s400/4.jpg

https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEikoYQiAfbwEq0OrERTeCdUcSmlh9QgFTtDYLpFK9qvKwXpoDyymnNpOQ2OFyvqRvxCG_lmbfOGBx3O94s6gGeZNyz1tNUIaJ_rP7wiITDdgWdCppriOADa8BJdseXmP8mcdWBsF5WO2Uo/s400/1.jpg










Tabel Perhitungan Node
https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEiuRcyezEvNTmJGoWWgo7IOIEW49nWT7nmRfmRZ0qV3RFUll7sl7qa-hBN6tGS39Z-b56jrdK9NRbeiJcLee0XB_NDuZnn6vHkHcEXlkEH6F7i2tOWTovk_OoOrNrLl8VLQX5c9tqq5twk/s400/2.jpg





https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEim-dZ6-3Xcg3qsgIYYRPpvccQvBgkP9qvbafkBmGKtLSp4HLmwtExZ1W2FuTTKNHwOGEhyt0OVKVtP3nsCcjNSPKRW4-PAzLQU8OGS6SF6x7OOnV7VDq4nHsnLn_3K_D1C6XVn383n0fQ/s400/3.jpg















NAMA KELUARGA
KOMUNIKASI
HUBUNGAN SEX
TEMPAT TINGGAL
PERCERAIAN
A
TERBUKA
TIDAK PERNAH
BERBEDA
TIDAK
B
TERTUTUP
PERNAH
SAMA
YA
C
KADANG-KADANG
JARANG
BERBEDA
TIDAK
D
TERTUTUP
JARANG
BERBEDA
YA
E
TERBUKA
TIDAK PERNAH
SAMA
TIDAK
F
TERTUTUP
PERNAH
SAMA
YA






















Jurnal Data Mining



PENERAPAN METODE DECISION TREE ALGORITMA C4.5 UNTUK KLASIFIKASI MAHASISWA BERPRESTASI


1Program Studi Teknik Informatika Universitas Islam Kalimantan, Banjarmasin E-mail: nadyahijriana@yahoo.com


ABSTRACT


Informatic Engineering is a field of study from Information Technology Faculty (FTI) at Islamic University of Kalimantan (UNISKA). Informatic Engineering was established in 2007 and it has around 2441 students until now included by student who has graduated and student who still studying. Fact of so many students in Informatic Engineering can make a lot of data that it can used as strategic resource for Faculty to manage and monitoring of academic activity. This research using Decision Tree Method from Algorithm C4.5 and RapidMiner 5.3 as software for making classification of achievement students in field of study Informatic Engineering at Islamic University of Kalimantan. The result can be used as tool for monitoring of academic activity and it can help Faculty to improve the quality of their students.

Keywords: Classification, Data, Student, Algoritma C4.5



PENDAHULUAN

Universitas   Islam   Kalimantan   (UNISKA) Muhammad Arsyad Al Banjary adalah PTS tertua dan terbesar di Kalimantan Selatan, didirikan oleh yayasan UNISKA berdasarkan akte Notaris Bachtiar Nomor 6 tanggal            7 Juli 1981. Saat ini UNISKA MAAB telah memiliki Program PASCA SARJANA, 8 (Delapan) Fakultas, 12 (Dua Belas) Program Studi S-1 dan 1 (Satu) Program Studi D-3. Salah satu dari kedua belas Program Studi S-1 tersebut adalah Program Studi Teknik Informatika yang merupakan bagian dari Fakultas Teknologi Informasi (FTI). Sejak berdirinya Prodi Teknik Informatika sampai sekarang, Prodi yang didirikan mulai tahun 2007 ini telah memiliki mahasiswa sebanyak 2441 orang baik yang lulus maupun belum lulus. Bagi sebuah Prodi yang baru berumur kurang lebih 9 tahun dengan jenjang perkuliahan Strata Satu atau S-1, jumlah tersebut        merupakan       suatu    keberhasilan                yang membanggakan.
Dengan membludaknya jumlah mahasiswa yang ada di FTI, maka data-data akademik yang dimiliki juga semakin bertambah banyak. Apabila tidak diolah dengan baik dan benar, hanya akan menjadi tumpukan data yang tidak berguna dan tidak bermanfaat. Padahal data tersebut bisa dijadikan

sebagai    sumber    data    strategis    yang    sangat bermanfaat bagi Fakultas Teknologi Informasi.
Berdasarkan permasalahan tersebut, maka peneliti akan mengklasifikasikan mahasiswa Prodi Teknik Informatika yang berprestasi dengan menggunakan metode Decision Tree Algoritma C4.5. Tujuan dari penelitian ini adalah untuk mengklasifikasi mahasiswa berprestasi yang ada di Prodi Teknik Informatika FTI UNISKA dimana hasil penelitian tersebut dapat digunakan sebagai  alat bantu bagi Fakultas untuk pengembangan akademis dalam hal pembimbingan dan pengarahan yang lebih intensif bagi mahasiswa IPK-nya kurang memuaskan.

METODE PENELITIAN

Perancangan Penelitian
Pengertian penelitian dalam akademik yaitu digunakan untuk mengacu pada aktivitas yang rajin dan penyelidikan sistematis atau  investigasi  di suatu daerah, dengan tujuan menemukan atau merevisi fakta, teori, aplikasi dan tujuannya adalah untuk menemukan dan menyebarkan pengetahuan baru (Berndtssom et. al. 2008).
Metode penelitian yang dilakukan adalah metode penelitian eksperimen, dengan tahapan sebagai berikut:

1.     Pengumpulan Data
Pada tahap ini ditentukan data yang akan diproses. Mencari data yang tersedia, memperoleh data tambahan yang dibutuhkan, mengintegrasikan semua datake dalam data set, termasuk variabel yang diperlukan dalam proses.
2.     Pengolahan Data Awal (Data Pre-processing)
Di tahap ini dilakukan penyeleksian data, data dibersihkan dan ditransformasikan ke bentuk yang diinginkan sehingga dapat dilakukan persiapan dalam pembuatan model.
3.     Model/Metode    yang    Diusulkan    (Proposed Model/Method)
Pada tahap ini data dianalisis, dikelompokkan variabel mana yang berhubungan dengan satu sama lainnya. Setelah data dianalisis lalu diterapkan model-model yang sesuai dengan jenis data. Pembagian data ke dalam data latihan (training data) dan data uji (testing data) juga diperlukan untuk pembuatan model.
4.     Eksperimen dan Pengujian Metode (Method Test and Experiment)
Pada tahap ini model yang diusulkan akan diuji untuk melihat hasil berupa rule yang akan dimanfaatkan dalam pengambilan keputusan.
5.     Evaluasi dan Validasi Hasil (Result Evaluation and Validation)
Pada tahap ini dilakukan evaluasi terhadap model yang ditetapkan untuk mengetahui tingkat keakurasian model.

Metode Pengumpulan Data

Data sekunder adalah data yang diperoleh secara tidak langsung bersumber dari dokumentasi, literatur, buku, jurnal dan informasi lainnya yang ada hubungannya dengan masalah yang diteliti. Data sekunder pada penelitian ini adalah : buku-buku, jurnal tentang metode Decision Tree Algoritma C4.5 dan data mining serta data mahasiswa Prodi Teknik Informatika FTI UNISKA Banjarmasin tahun akademik 2014/2015. Sedangkan Data primer adalah data yang diperoleh dari hasil penelitian. Data primer dalam penelitian ini adalah data hasil uji dengan menggunakan metode Decision Tree Algoritma C4.5.
Data yang dibutuhkan dalam penelitian ini adalah data mahasiswa Program Studi Teknik Informatika Angkatan 2012, dimana atribut yang nantinya akan dipakai antara lain NPM, Status

Mahasiswa, Indeks Prestasi Semester 5 dan Indeks Prestasi Semester 6.

Pengolahan Data Awal

Data awal yang didapatkan dari BAK UNISKA MAB Banjarmasin yaitu data mahasiswa seluruh angkatan dengan atribut NIM, Nama, Program Studi, Status Mahasiswa, Indeks Prestasi Semester (IPS), SKS per Semester, Indeks Prestasi Kumulatif, SKS Total. Dari data awal tersebut dilakukan pengolahan data lagi sehingga didapatkan data mahasiswa Angkatan 2012 dan data Indeks Prestasi untuk semester 5 dan semester 6. Selanjutnya dilakukan pengolahan data untuk menggabungkan kedua semester dan memastikan status mahasiswa akan diuji berada pada status “Aktif” baik untuk semester
5 maupun untuk semester 6 sehingga hasil akhir berupa atribut yang akan digunakan dalam pengujian adalah NPM, Status Mahasiswa, Indeks Prestasi Semester 5 dan Indeks Prestasi Semester 6 dimana jumlah mahasiswa sebanyak 444 orang.

Metode yang diusulkan

Metode yang diusulkan untuk menentukan klasifikasi mahasiswa yang berprestasi adalah metode Decision Tree Algoritma C4.5 dengan menggunakan software RapidMiner 5.3 untuk pembuatan analisa dan pengujian model.
Tahapan Algoritma Decision Tree C4.5:
1)     Menyiapkan data training
2)     Menentukan akar dari pohon.
3)     Hitung nilai Gain:



4)     Ulangi   langkah   ke-2   hingga   semua   tupel terpartisi

5)    Proses partisi pohon keputusan akan berhenti saat semua tupel dalam node N mendapat kelas yang sama dan atau tidak ada atribut di dalam tupel yang dipartisi lagi dan atau tidak ada tupel di dalam cabang yang kosong.

Eksperimen dan Pengujian Metode

Metode yang telah dikembangkan dalam penelitian ini akan diterapkan pada data mahasiswa Prodi Teknik Informatika UNISKA Banjarmasin

Angkatan 2012 dengan sampel data pada tahun akademik 2014/2015 melalui suatu simulasi menggunakan software RapidMiner 5.3. Data Sampel terdiri dari atribut NPM, Status Mahasiswa (Aktif), IPK Semester 5, IPK Semester 6 dimana jumlah mahasiswa sebanyak 444 orang. Sebanyak
90 % data akan digunakan untuk membangun struktur pohon keputusan melalui metode Decision Tree Algoritma C4.5. Sedangkan 10 % lainnya akan digunakan sebagai data uji.

Evaluasi dan Validasi Hasil

Validasi hasil penelitian dilakukan dengan mengambil sampel data mahasiswa dari Angkatan 2012 yang mempunyai status Aktif. Hasil pengolahan data awal didapatkan sebanyak 444 mahasiswa aktif. Data diuji dengan menggunakan metode Decision Tree Algoritma C4.5 sebanyak 9 kali, dimana field data yang akan diuji adalah NPM, Status Mahasiswa (Aktif), IPK Semester 5 dan IPK Semester 6. Selain itu, untuk membentuk pohon keputusan maka atribut IPK Semester 5 dan IPK Semester 6 perlu diklasifikasi menjadi:

Tabel 1. Klasifikasi Nilai

No        IPK Semester                Klasifikasi

1                            >= 3,51                  Dengan Pujian
2                            >= 2,76               Sangat Memuaskan
3                        >= 2,0                        Memuaskan
4                               < 2,0                          Kurang


Evaluasi dilakukan dengan menganalisa hasil klasifikasi dari penggunaan metode algoritma Decision Tree C4.5, yaitu membandingkan nilai Akurasi, nilai Precision, dan nilai Recall. Perhitungan akurasi dengan tabel confusion matrix adalah sebagai berikut (sumber):



Penjelasan tentang pengukuran Precision dan Recall

Relevant
Not Relevant
Retrieved
A
B
Not Retrieved
C
D

 
dapat dilihat pada Tabel 2 dan perhitungan berikut: Tabel 2. Perhitungan Precision dan Recall

HASIL DAN PEMBAHASAN


Hasil Eksperimen dan Pengujian Model/Metode
Nilai akurasi dalam penelitian ini didapatkan dengan melakukan pengujian terhadap sampel data mahasiswa aktif Angkatan 2012 sebanyak 444 orang. Atribut yang digunakan antara lain NPM, Status Aktif, IPK Semester 5 dan IPK Semester 6. Pengujian data dilakukan dengan menggunakan software RapidMiner 5.3 dimana uji data dilakukan sebanyak sembilan kali. Dari kesembilan pengujian tersebut, dapat diketahui bahwa pengujian Validasi K-6 dan Validasi K-9 memiliki bobot nilai akurasi paling tinggi yaitu 99.10% dengan +/- 1.01% dan Mikro 99.10%. Hasil pengujian dapat dilihat pada gambar berikut:



Gambar 1. Hasil Perhitungan Akurasi pada Validasi K-6



Gambar 2.   Hasil     Perhitungan     Akurasi    pada Validasi K-9

Evaluasi dan Validasi Hasil

Setelah melakukan sembilan kali pengujian data menggunakan RapidMiner 5.3, selanjutnya dilakukan analisa data untuk mencari nilai akurasi yang paling tinggi. Hasilnya adalah bahwa nilai akurasi tertinggi diperoleh melalui pengujian Validasi K-6 dan Validasi K-9, yakni sebesar 99.10%. Dengan demikian maka klasifikasi

keakuratan   tes    diagnostiknya   termasuk   dalam kategori sangat baik.
Berikut hasil evaluasi pengukuran data Performance Vector dengan membandingkan nilai Precision dan nilai Recall seperti pada tabel dibawah ini:

Tabel 3. Performance Vector C4.5 dari Validasi K-6

RapidMiner 5.3, dapat diketahui bahwa dari sembilan kali proses pengujian tersebut, didapatlkan hasil nilai akurasi tertinggi melalui pengujian Validasi K-6 dan Validasi K-9, yakni sebesar 99.10%. Dari nilai akurasi tertinggi tersebut didapatkan tabel klasifikasi Indeks Prestasi Kumulatif (IPK) mahasiswa sebagai berikut:

Klasifikasi (IPK)

Jumlah Mahasiswa

Class Recall

Class Precision

Tabel 4.  Hasil     Klasifikasi     IPK      Mahasiswa Berdasarkan Urutan Jumlah Terbanyak

(orang)

(%)

Range

Klasifikasi

Jumlah

Dengan

78                98,72              100,00

No          IPK

Nilai (IPK)

Mahasiswa

Pujian Sangat memuaskan


288              100,00                99,31

1                               ≥ 2,76       Sangat Memuaskan        288 orang
2                               ≥ 3,51       Dengan Pujian                    78 orang
3                               2,0          Memuaskan                       67 orang

Memuaskan
67
97,01
98,48
4
< 2,0
Kurang
11 orang
Kurang
11
90,91
90,91






Analisis Evaluasi dan Validasi Model

Dari hasil pengujian yang sudah dilakukan, dapat dilihat bahwa pengujian Validasi K-6 dan Validasi K-9 memiliki nilai akurasi paling tinggi yakni sebesar 99.10% dengan +/- 1.01% dan Mikro 99.10% seperti yang tampak pada gambar berikut:
Gambar 3. Hasil Perhitungan  Akurasi  pada Validasi K-6 beserta nilai Class Recall dan nilai Class Precision

Dari gambar 3 dapat dilihat bahwa IPK mahasiswa dengan predikat “Sangat Memuaskan” merupakan jumlah paling banyak yakni 288 orang, diikuti oleh jumlah mahasiswa yang IPK-nya mencapai predikat “Dengan Pujian” sebanyak 78 orang. Urutan ketiga adalah mahasiswa yang IPK- nya mencapai predikat “Memuaskan” dengan jumlah mahasiswa adalah 67 orang. Urutan terakhir adalah
11 mahasiswa mendapat IPK dengan predikat “Kurang“.
Berdasarkan hasil pengujian yang telah dilakukan dengan menerapkan metode Decision Tree Algoritma C4.5 dan menggunakan software

Selain itu validasi dari tingginya hasil nilai akurasi diatas dibuktikan pula menggunakan klasifikasi pohon keputusan (Decision Tree), dimana hasilnya adalah sebagai berikut:



Gambar 4.   Hasil    pengujian    pohon    keputusan ((Decision Tree)

Dari gambar 4 terlihat klasifikasi kelompok nilai Indeks Prestasi Kumulatif (IPK) mahasiswa, dimana kelompok IPK dengan predikat “Sangat Memuaskan” menempati urutan pertama atau kelompok yang terbesar, diikuti oleh kelompok IPK dengan predikat “Dengan Pujian”. Urutan ketiga dan keempat adalah kelompok IPK dengan predikat “Memuaskan” dan kelompok IPK dengan predikat “Kurang”.
Dengan demikian, dari hasil pengujian terlihat bahwa klasifikasi keakuratan tes diagnostiknya termasuk dalam kategori sangat baik dimana hasil akurasi pengujian Validasi K-6 dan Validasi K-9 juga telah sesuai dengan pengujian pohon keputusan

(Decision Tree). Dan metode Decision Tree Algoritma C4.5 dapat diterapkan untuk memberikan solusi dalam permasalahan mengolah data untuk klasifikasi, dalam hal ini mengolah data akademik untuk mengklasifikasi mahasiswa berprestasi yang ada di program studi Teknik Informatika FTI UNISKA MAB Banjarmasin.

KESIMPULAN


Hasil klasifikasi dengan software Rapid Miner menggunakan metode Decision Tree Algoritma C4.5 menunjukkan bahwa data akademik dapat diolah berdasarkan atribut-atribut yang dibutuhkan menjadi data yang bermanfaat bagi Fakultas, dibuktikan dengan hasil klasifikasi yang terdapat pada penelitian ini. Hasil klasifikasi mahasiswa berprestasi pada Angkatan 2012 yang diperoleh tidak hanya dapat dijadikan sebagai acuan untuk pengolahan data lebih lanjut misalnya untuk pengolahan data penerima beasiswa, tetapi juga dapat dijadikan sebagai alat bantu bagi Fakultas untuk monitoring kegiatan akademik, salah satunya untuk memonitor mahasiswa yang masuk ke dalam klasifikasi mahasiswa yang berpotensi lulus dengan IPK berpredikat “Kurang” yang nantinya bisa menurunkan mutu lulusan sebuah Perguruan Tinggi.

DAFTAR PUSTAKA


Alimancon Sijabat. 2015. Penerapan Data Mining Untuk Pengolahan Data Siswa Dengan Metode Decision Tree (Studi Kasus Yayasan Perguruan Kristen Andreas). Majalah Ilmiah Informasi dan Teknologi Ilmiah (INTI) Vol.5 No.3.

Berndtssom, M., Hansson, J., Olsson, B., and Lundell, B. 2008. A Guide For Students In Computer Science And Information Systems. London. Springer.

Dwi Untari. 2014. Data Mining Untuk Menganalisa Prediksi Mahasiswa Berpotensi Non-Aktif Menggunakan Metode Decision Tree C4.5. Semarang. Universitas Dian Nuswantoro.

Fajar   Astuti   Hermawan.   2013.   Data   Mining.
Yogyakarta. Penerbit Andi.

Indri Rahmayuni. 2014. Perbandingan Performansi Algoritma C4.5 dan Cart dalam Klasifikasi Data Nilai Mahasiswa Prodi  Teknik Komputer Politeknik Negeri Padang. Jurnal TEKNOIF Vol.2 No.1.

Kusrini dan Emma Taufiq Luthfi. 2009. Algoritma Data Mining. Yogyakarta. Penerbit Andi

Kusrini, Sri Hartati, Retantyo Wardoyo dan Agus Harjoko. 2009. Perbandingan Metode Nearest Neighbor dan Algoritma C4.5 Untuk Menganalisis Kemungkinan Pengunduran Diri Calon Mahasiswa di STMIK AMIKOM Yogyakarta. Jurnal DASI Vol.10 No.1

Liliana Swastina. 2013. Penerapan Algoritma C4.5 Untuk Penentuan Jurusan Mahasiswa. Jurnal GEMA AKTUALITA Vol.2 No.1.

Lillyan Hadjaratie. 2014. Prediksi dan Pemetaan Data Mahasiswa Fakultas Teknik Menggunakan Pendekatan Data Mining. Gorontalo. Universitas Negeri Gorontalo.

Setyawan dan Yusuf Sulistyo, ST., M.Eng. 2014. Klasifikasi Prestasi Akademik Mahasiswa FKI UMS Menggunakan Metode Decision Tree. Solo. Universitas

PENDAHULUAN

Universitas   Islam   Kalimantan   (UNISKA) Muhammad Arsyad Al Banjary adalah PTS tertua dan terbesar di Kalimantan Selatan, didirikan oleh yayasan UNISKA berdasarkan akte Notaris Bachtiar Nomor 6 tanggal            7 Juli 1981. Saat ini UNISKA MAAB telah memiliki Program PASCA SARJANA, 8 (Delapan) Fakultas, 12 (Dua Belas) Program Studi S-1 dan 1 (Satu) Program Studi D-3. Salah satu dari kedua belas Program Studi S-1 tersebut adalah Program Studi Teknik Informatika yang merupakan bagian dari Fakultas Teknologi Informasi (FTI). Sejak berdirinya Prodi Teknik Informatika sampai sekarang, Prodi yang didirikan mulai tahun 2007 ini telah memiliki mahasiswa sebanyak 2441 orang baik yang lulus maupun belum lulus. Bagi sebuah Prodi yang baru berumur kurang lebih 9 tahun dengan jenjang perkuliahan Strata Satu atau S-1, jumlah tersebut        merupakan       suatu    keberhasilan                yang membanggakan.
Dengan membludaknya jumlah mahasiswa yang ada di FTI, maka data-data akademik yang dimiliki juga semakin bertambah banyak. Apabila tidak diolah dengan baik dan benar, hanya akan menjadi tumpukan data yang tidak berguna dan tidak bermanfaat. Padahal data tersebut bisa dijadikan

sebagai    sumber    data    strategis    yang    sangat bermanfaat bagi Fakultas Teknologi Informasi.
Berdasarkan permasalahan tersebut, maka peneliti akan mengklasifikasikan mahasiswa Prodi Teknik Informatika yang berprestasi dengan menggunakan metode Decision Tree Algoritma C4.5. Tujuan dari penelitian ini adalah untuk mengklasifikasi mahasiswa berprestasi yang ada di Prodi Teknik Informatika FTI UNISKA dimana hasil penelitian tersebut dapat digunakan sebagai  alat bantu bagi Fakultas untuk pengembangan akademis dalam hal pembimbingan dan pengarahan yang lebih intensif bagi mahasiswa IPK-nya kurang memuaskan.

METODE PENELITIAN

Perancangan Penelitian
Pengertian penelitian dalam akademik yaitu digunakan untuk mengacu pada aktivitas yang rajin dan penyelidikan sistematis atau  investigasi  di suatu daerah, dengan tujuan menemukan atau merevisi fakta, teori, aplikasi dan tujuannya adalah untuk menemukan dan menyebarkan pengetahuan baru (Berndtssom et. al. 2008).
Metode penelitian yang dilakukan adalah metode penelitian eksperimen, dengan tahapan sebagai berikut:

1.     Pengumpulan Data
Pada tahap ini ditentukan data yang akan diproses. Mencari data yang tersedia, memperoleh data tambahan yang dibutuhkan, mengintegrasikan semua datake dalam data set, termasuk variabel yang diperlukan dalam proses.
2.     Pengolahan Data Awal (Data Pre-processing)
Di tahap ini dilakukan penyeleksian data, data dibersihkan dan ditransformasikan ke bentuk yang diinginkan sehingga dapat dilakukan persiapan dalam pembuatan model.
3.     Model/Metode    yang    Diusulkan    (Proposed Model/Method)
Pada tahap ini data dianalisis, dikelompokkan variabel mana yang berhubungan dengan satu sama lainnya. Setelah data dianalisis lalu diterapkan model-model yang sesuai dengan jenis data. Pembagian data ke dalam data latihan (training data) dan data uji (testing data) juga diperlukan untuk pembuatan model.
4.     Eksperimen dan Pengujian Metode (Method Test and Experiment)
Pada tahap ini model yang diusulkan akan diuji untuk melihat hasil berupa rule yang akan dimanfaatkan dalam pengambilan keputusan.
5.     Evaluasi dan Validasi Hasil (Result Evaluation and Validation)
Pada tahap ini dilakukan evaluasi terhadap model yang ditetapkan untuk mengetahui tingkat keakurasian model.

Metode Pengumpulan Data

Data sekunder adalah data yang diperoleh secara tidak langsung bersumber dari dokumentasi, literatur, buku, jurnal dan informasi lainnya yang ada hubungannya dengan masalah yang diteliti. Data sekunder pada penelitian ini adalah : buku-buku, jurnal tentang metode Decision Tree Algoritma C4.5 dan data mining serta data mahasiswa Prodi Teknik Informatika FTI UNISKA Banjarmasin tahun akademik 2014/2015. Sedangkan Data primer adalah data yang diperoleh dari hasil penelitian. Data primer dalam penelitian ini adalah data hasil uji dengan menggunakan metode Decision Tree Algoritma C4.5.
Data yang dibutuhkan dalam penelitian ini adalah data mahasiswa Program Studi Teknik Informatika Angkatan 2012, dimana atribut yang nantinya akan dipakai antara lain NPM, Status

Mahasiswa, Indeks Prestasi Semester 5 dan Indeks Prestasi Semester 6.

Pengolahan Data Awal

Data awal yang didapatkan dari BAK UNISKA MAB Banjarmasin yaitu data mahasiswa seluruh angkatan dengan atribut NIM, Nama, Program Studi, Status Mahasiswa, Indeks Prestasi Semester (IPS), SKS per Semester, Indeks Prestasi Kumulatif, SKS Total. Dari data awal tersebut dilakukan pengolahan data lagi sehingga didapatkan data mahasiswa Angkatan 2012 dan data Indeks Prestasi untuk semester 5 dan semester 6. Selanjutnya dilakukan pengolahan data untuk menggabungkan kedua semester dan memastikan status mahasiswa akan diuji berada pada status “Aktif” baik untuk semester
5 maupun untuk semester 6 sehingga hasil akhir berupa atribut yang akan digunakan dalam pengujian adalah NPM, Status Mahasiswa, Indeks Prestasi Semester 5 dan Indeks Prestasi Semester 6 dimana jumlah mahasiswa sebanyak 444 orang.

Metode yang diusulkan

Metode yang diusulkan untuk menentukan klasifikasi mahasiswa yang berprestasi adalah metode Decision Tree Algoritma C4.5 dengan menggunakan software RapidMiner 5.3 untuk pembuatan analisa dan pengujian model.
Tahapan Algoritma Decision Tree C4.5:
1)     Menyiapkan data training
2)     Menentukan akar dari pohon.
3)     Hitung nilai Gain:



4)     Ulangi   langkah   ke-2   hingga   semua   tupel terpartisi

5)    Proses partisi pohon keputusan akan berhenti saat semua tupel dalam node N mendapat kelas yang sama dan atau tidak ada atribut di dalam tupel yang dipartisi lagi dan atau tidak ada tupel di dalam cabang yang kosong.

Eksperimen dan Pengujian Metode

Metode yang telah dikembangkan dalam penelitian ini akan diterapkan pada data mahasiswa Prodi Teknik Informatika UNISKA Banjarmasin

Angkatan 2012 dengan sampel data pada tahun akademik 2014/2015 melalui suatu simulasi menggunakan software RapidMiner 5.3. Data Sampel terdiri dari atribut NPM, Status Mahasiswa (Aktif), IPK Semester 5, IPK Semester 6 dimana jumlah mahasiswa sebanyak 444 orang. Sebanyak
90 % data akan digunakan untuk membangun struktur pohon keputusan melalui metode Decision Tree Algoritma C4.5. Sedangkan 10 % lainnya akan digunakan sebagai data uji.

Evaluasi dan Validasi Hasil

Validasi hasil penelitian dilakukan dengan mengambil sampel data mahasiswa dari Angkatan 2012 yang mempunyai status Aktif. Hasil pengolahan data awal didapatkan sebanyak 444 mahasiswa aktif. Data diuji dengan menggunakan metode Decision Tree Algoritma C4.5 sebanyak 9 kali, dimana field data yang akan diuji adalah NPM, Status Mahasiswa (Aktif), IPK Semester 5 dan IPK Semester 6. Selain itu, untuk membentuk pohon keputusan maka atribut IPK Semester 5 dan IPK Semester 6 perlu diklasifikasi menjadi:

Tabel 1. Klasifikasi Nilai

No        IPK Semester                Klasifikasi

1                            >= 3,51                  Dengan Pujian
2                            >= 2,76               Sangat Memuaskan
3                        >= 2,0                        Memuaskan
4                               < 2,0                          Kurang


Evaluasi dilakukan dengan menganalisa hasil klasifikasi dari penggunaan metode algoritma Decision Tree C4.5, yaitu membandingkan nilai Akurasi, nilai Precision, dan nilai Recall. Perhitungan akurasi dengan tabel confusion matrix adalah sebagai berikut (sumber):



Penjelasan tentang pengukuran Precision dan Recall

Relevant
Not Relevant
Retrieved
A
B
Not Retrieved
C
D

 
dapat dilihat pada Tabel 2 dan perhitungan berikut: Tabel 2. Perhitungan Precision dan Recall

HASIL DAN PEMBAHASAN


Hasil Eksperimen dan Pengujian Model/Metode
Nilai akurasi dalam penelitian ini didapatkan dengan melakukan pengujian terhadap sampel data mahasiswa aktif Angkatan 2012 sebanyak 444 orang. Atribut yang digunakan antara lain NPM, Status Aktif, IPK Semester 5 dan IPK Semester 6. Pengujian data dilakukan dengan menggunakan software RapidMiner 5.3 dimana uji data dilakukan sebanyak sembilan kali. Dari kesembilan pengujian tersebut, dapat diketahui bahwa pengujian Validasi K-6 dan Validasi K-9 memiliki bobot nilai akurasi paling tinggi yaitu 99.10% dengan +/- 1.01% dan Mikro 99.10%. Hasil pengujian dapat dilihat pada gambar berikut:



Gambar 1. Hasil Perhitungan Akurasi pada Validasi K-6



Gambar 2.   Hasil     Perhitungan     Akurasi    pada Validasi K-9

Evaluasi dan Validasi Hasil

Setelah melakukan sembilan kali pengujian data menggunakan RapidMiner 5.3, selanjutnya dilakukan analisa data untuk mencari nilai akurasi yang paling tinggi. Hasilnya adalah bahwa nilai akurasi tertinggi diperoleh melalui pengujian Validasi K-6 dan Validasi K-9, yakni sebesar 99.10%. Dengan demikian maka klasifikasi

keakuratan   tes    diagnostiknya   termasuk   dalam kategori sangat baik.
Berikut hasil evaluasi pengukuran data Performance Vector dengan membandingkan nilai Precision dan nilai Recall seperti pada tabel dibawah ini:

Tabel 3. Performance Vector C4.5 dari Validasi K-6

RapidMiner 5.3, dapat diketahui bahwa dari sembilan kali proses pengujian tersebut, didapatlkan hasil nilai akurasi tertinggi melalui pengujian Validasi K-6 dan Validasi K-9, yakni sebesar 99.10%. Dari nilai akurasi tertinggi tersebut didapatkan tabel klasifikasi Indeks Prestasi Kumulatif (IPK) mahasiswa sebagai berikut:

Klasifikasi (IPK)

Jumlah Mahasiswa

Class Recall

Class Precision

Tabel 4.  Hasil     Klasifikasi     IPK      Mahasiswa Berdasarkan Urutan Jumlah Terbanyak

(orang)

(%)

Range

Klasifikasi

Jumlah

Dengan

78                98,72              100,00

No          IPK

Nilai (IPK)

Mahasiswa

Pujian Sangat memuaskan


288              100,00                99,31

1                               ≥ 2,76       Sangat Memuaskan        288 orang
2                               ≥ 3,51       Dengan Pujian                    78 orang
3                               2,0          Memuaskan                       67 orang

Memuaskan
67
97,01
98,48
4
< 2,0
Kurang
11 orang
Kurang
11
90,91
90,91






Analisis Evaluasi dan Validasi Model

Dari hasil pengujian yang sudah dilakukan, dapat dilihat bahwa pengujian Validasi K-6 dan Validasi K-9 memiliki nilai akurasi paling tinggi yakni sebesar 99.10% dengan +/- 1.01% dan Mikro 99.10% seperti yang tampak pada gambar berikut:
Gambar 3. Hasil Perhitungan  Akurasi  pada Validasi K-6 beserta nilai Class Recall dan nilai Class Precision

Dari gambar 3 dapat dilihat bahwa IPK mahasiswa dengan predikat “Sangat Memuaskan” merupakan jumlah paling banyak yakni 288 orang, diikuti oleh jumlah mahasiswa yang IPK-nya mencapai predikat “Dengan Pujian” sebanyak 78 orang. Urutan ketiga adalah mahasiswa yang IPK- nya mencapai predikat “Memuaskan” dengan jumlah mahasiswa adalah 67 orang. Urutan terakhir adalah
11 mahasiswa mendapat IPK dengan predikat “Kurang“.
Berdasarkan hasil pengujian yang telah dilakukan dengan menerapkan metode Decision Tree Algoritma C4.5 dan menggunakan software

Selain itu validasi dari tingginya hasil nilai akurasi diatas dibuktikan pula menggunakan klasifikasi pohon keputusan (Decision Tree), dimana hasilnya adalah sebagai berikut:



Gambar 4.   Hasil    pengujian    pohon    keputusan ((Decision Tree)

Dari gambar 4 terlihat klasifikasi kelompok nilai Indeks Prestasi Kumulatif (IPK) mahasiswa, dimana kelompok IPK dengan predikat “Sangat Memuaskan” menempati urutan pertama atau kelompok yang terbesar, diikuti oleh kelompok IPK dengan predikat “Dengan Pujian”. Urutan ketiga dan keempat adalah kelompok IPK dengan predikat “Memuaskan” dan kelompok IPK dengan predikat “Kurang”.
Dengan demikian, dari hasil pengujian terlihat bahwa klasifikasi keakuratan tes diagnostiknya termasuk dalam kategori sangat baik dimana hasil akurasi pengujian Validasi K-6 dan Validasi K-9 juga telah sesuai dengan pengujian pohon keputusan

(Decision Tree). Dan metode Decision Tree Algoritma C4.5 dapat diterapkan untuk memberikan solusi dalam permasalahan mengolah data untuk klasifikasi, dalam hal ini mengolah data akademik untuk mengklasifikasi mahasiswa berprestasi yang ada di program studi Teknik Informatika FTI UNISKA MAB Banjarmasin.

KESIMPULAN


Hasil klasifikasi dengan software Rapid Miner menggunakan metode Decision Tree Algoritma C4.5 menunjukkan bahwa data akademik dapat diolah berdasarkan atribut-atribut yang dibutuhkan menjadi data yang bermanfaat bagi Fakultas, dibuktikan dengan hasil klasifikasi yang terdapat pada penelitian ini. Hasil klasifikasi mahasiswa berprestasi pada Angkatan 2012 yang diperoleh tidak hanya dapat dijadikan sebagai acuan untuk pengolahan data lebih lanjut misalnya untuk pengolahan data penerima beasiswa, tetapi juga dapat dijadikan sebagai alat bantu bagi Fakultas untuk monitoring kegiatan akademik, salah satunya untuk memonitor mahasiswa yang masuk ke dalam klasifikasi mahasiswa yang berpotensi lulus dengan IPK berpredikat “Kurang” yang nantinya bisa menurunkan mutu lulusan sebuah Perguruan Tinggi.

DAFTAR PUSTAKA


Alimancon Sijabat. 2015. Penerapan Data Mining Untuk Pengolahan Data Siswa Dengan Metode Decision Tree (Studi Kasus Yayasan Perguruan Kristen Andreas). Majalah Ilmiah Informasi dan Teknologi Ilmiah (INTI) Vol.5 No.3.

Berndtssom, M., Hansson, J., Olsson, B., and Lundell, B. 2008. A Guide For Students In Computer Science And Information Systems. London. Springer.

Dwi Untari. 2014. Data Mining Untuk Menganalisa Prediksi Mahasiswa Berpotensi Non-Aktif Menggunakan Metode Decision Tree C4.5. Semarang. Universitas Dian Nuswantoro.

Fajar   Astuti   Hermawan.   2013.   Data   Mining.
Yogyakarta. Penerbit Andi.

Indri Rahmayuni. 2014. Perbandingan Performansi Algoritma C4.5 dan Cart dalam Klasifikasi Data Nilai Mahasiswa Prodi  Teknik Komputer Politeknik Negeri Padang. Jurnal TEKNOIF Vol.2 No.1.

Kusrini dan Emma Taufiq Luthfi. 2009. Algoritma Data Mining. Yogyakarta. Penerbit Andi

Kusrini, Sri Hartati, Retantyo Wardoyo dan Agus Harjoko. 2009. Perbandingan Metode Nearest Neighbor dan Algoritma C4.5 Untuk Menganalisis Kemungkinan Pengunduran Diri Calon Mahasiswa di STMIK AMIKOM Yogyakarta. Jurnal DASI Vol.10 No.1

Liliana Swastina. 2013. Penerapan Algoritma C4.5 Untuk Penentuan Jurusan Mahasiswa. Jurnal GEMA AKTUALITA Vol.2 No.1.

Lillyan Hadjaratie. 2014. Prediksi dan Pemetaan Data Mahasiswa Fakultas Teknik Menggunakan Pendekatan Data Mining. Gorontalo. Universitas Negeri Gorontalo.

Setyawan dan Yusuf Sulistyo, ST., M.Eng. 2014. Klasifikasi Prestasi Akademik Mahasiswa FKI UMS Menggunakan Metode Decision Tree. Solo. Universitas

PROSEDUR KESELAMATAN KERJA DALAM MERAKIT PC

  PROSEDUR KESELAMATAN KERJA DALAM MERAKIT PC Hal-hal yang perlu di perhatikan adalah sebagai berikut:    1. Pastikan tangan dalam kondi...