Peningkatan Performa Klasifikasi Biner pada Data Tidak Seimbang Menggunakan Generative Adversarial Network
- FEBRI AINUN JARIYAH
- 14210195
ABSTRAK
ABSTRAK
Nama : Febri Ainun Jariyah
NIM : 14210195
Program Studi : Ilmu Komputer
Fakultas : Teknologi Informasi
Jenjang : Strata Dua (S2)
Konsentrasi : Data Mining
Judul : Peningkatan Performa Klasifikasi Biner pada Data Tidak Seimbang Menggunakan Generative Adversarial Network
Masalah ketidakseimbangan data sering terjadi di dunia nyata dan berdampak besar pada kinerja algoritma pengajaran mesin. Jika data tidak seimbang, setiap target (kelas) tidak seimbang. Untuk meningkatkan kinerja algoritma klasifikasi pada kumpulan data yang tidak seimbang, penelitian ini akan menyelidiki metode Generative Adversarial Networks (GAN) yang berbasis oversampling. Ada kemungkinan bahwa GAN memiliki kemampuan untuk memahami distribusi data yang sebenarnya. Metode yang disarankan dievaluasi berdasarkan sejumlah metrik, seperti AUC, Accuracy, Precision, Recall dan F1- score. Hasil eksperimen membuktikan bahwa penerapan GAN berkinerja lebih baik daripada metode lain dibeberapa metrik Pada dataset IBM, metode GAN memiliki nilai dengan hasil nilai tertinggi yaitu: dataset IBM AdaBoost AUC 0.88, Accuracy 0.89, Precision 0.90, Rcall 0.98, F1-Score 0.94. sedangkan pada Dataset TIP GAN dengan model Decision Tree dan ExtraTree mendapatkan nilai yang sama tinggi, lebih tinggi dari jurnal acuan dengan nilai AUC 0.964, Accuracy 0.89, Precision 0.88, Rcall 0.95, F1-Score 0.91. Dan pada dataset Bank Marketing GAN belum bisa menggungguli penelitian sebelumnya pada nilai Accuracy. Diharapkan juga dapat digunakan sebagai cara alternatif untuk meningkatkan kinerja model klasifikasi pada data yang tidak seimbang.
KATA KUNCI
GAN,Imbalance,machine learning,Klasifikasi,Oversampling
DAFTAR PUSTAKA
DAFTAR REFERENSI
[1] Kaggle, “IBM HR Analytics Employee Attrition & Performance”, [Online]. Available: https://www.kaggle.com/datasets/pavansubhasht/ibm-hranalytics-attrition-dataset
[2] Kaggle, “Travel Insurance Prediction”, [Online]. Available: https://www.kaggle.com/datasets/mdhasanimambijoy/travel-insuranceprediction
[3] Kaggle, “Bank Marketing Data Set”, [Online]. Available: https://www.kaggle.com/datasets/alexkataev/bank-marketing-data-set
[4] H. Ali, M. N. M. Salleh, R. Saedudin, K. Hussain, and M. F. Mushtaq, “Imbalance class problems in data mining: A review,” Indones. J. Electr. Eng. Comput. Sci., vol. 14, no. 3, pp. 1552–1563, 2019, doi: 10.11591/ijeecs.v14.i3.pp1552-1563.
[5] “A survey on addressing high?class.pdf.”
[6] M. Ricky and M. E. Al Rivan, “Implementasi Deep Convolutional Generative Adversarial Network untuk Pewarnaan Citra Grayscale,” J. Tek. Inform. dan Sist. Inf., vol. 8, no. 3, pp. 556–566, 2022, doi: 10.28932/jutisi.v8i3.5218.
[7] S. Song, T. Mukerji, and J. Hou, “GANSim: Conditional Facies Simulation Using an Improved Progressive Growing of Generative Adversarial Networks (GANs),” Math. Geosci., vol. 53, no. 7, pp. 1413–1444, 2021, doi: 10.1007/s11004-021-09934-0.
[8] A. Ali-Gombe and E. Elyan, “MFC-GAN: Class-imbalanced dataset classification using Multiple Fake Class Generative Adversarial Network,” Neurocomputing, vol. 361, pp. 212–221, 2019, doi: 10.1016/j.neucom.2019.06.043.
[9] G. Douzas and F. Bacao, “Effective data generation for imbalanced learning using conditional generative adversarial networks,” Expert Syst. Appl., vol. 91, pp. 464–471, 2018, doi: 10.1016/j.eswa.2017.09.030.
[10] S. Anastassia Amellia Kharis and A. Haqqi Anna Zili, “Learning Analytics dan Educational Data Mining pada Data Pendidikan,” J. Ris. Pembelajaran Mat. Sekol., vol. 6, pp. 12–20, 2022.
[11] N. Syafrina, “MANAJEMEN SUMBER DAYA MANUSIA Eri Susan 1,” J. Manaj. Pendidik., vol. 9, no. 2, pp. 952–962, 2019.
[12] Y. Christian and K. O. Y. R. Qi, “Penerapan K-Means pada Segmentasi Pasar untuk Riset Pemasaran pada Startup Early Stage dengan Menggunakan CRISP-DM,” JURIKOM (Jurnal Ris. Komputer), vol. 9, no. 4, p. 966, 2022, doi: 10.30865/jurikom.v9i4.4486.
[13] Y. Suhanda, I. Kurniati, and S. Norma, “Penerapan Metode Crisp-DM Dengan Algoritma K-Means Clustering Untuk Segmentasi Mahasiswa Berdasarkan Kualitas Akademik,” J. Teknol. Inform. dan Komput., vol. 6, no. 2, pp. 12–20, 2020, doi: 10.37012/jtik.v6i2.299.
[14] F. Fallucchi, M. Coladangelo, and R. Giuliano, “Predicting Employee Attrition Using Machine Learning Techniques,” pp. 1–17, doi: 10.3390/computers9040086.
[15] I. Junaedi, N. Nuswantari, and V. Yasin, “Perancangan Dan Implementasi 64 Program Studi Ilmu Komputer (S2) Universitas Nusa Mandiri Algoritma C4 . 5 Untuk Data Mining,” J. Inf. Syst. Informatics Comput., vol. 3, no. 1, pp. 29–44, 2019, [Online]. Available: http://journal.stmikjayakarta.ac.id/index.php/jisicom/article/view/203%0Ah ttp://journal.stmikjayakarta.ac.id/index.php/jisicom/article/download/203/1 58
[16] R. Mohammed, J. Rawashdeh, and M. Abdullah, “Machine Learning with Oversampling and Undersampling Techniques: Overview Study and Experimental Results,” 2020 11th Int. Conf. Inf. Commun. Syst. ICICS 2020, no. May, pp. 243–248, 2020, doi: 10.1109/ICICS49469.2020.239556.
[17] R. Siringoringo, “Klasifikasi data tidak Seimbang menggunakan algoritma SMOTE dan k-nearest neighbor,” J. ISD, vol. 3, no. 1, pp. 44–49, 2018.
[18] S. Keputusan Dirjen Penguatan Riset dan Pengembangan Ristek Dikti, A. Nikmatul Kasanah, U. Pujianto, T. Elektro, F. Teknik, and U. Negeri Malang, “Terakreditasi SINTA Peringkat 2 Penerapan Teknik SMOTE untuk Mengatasi Imbalance Class dalam Klasifikasi Objektivitas Berita Online Menggunakan Algoritma KNN,” Masa Berlaku Mulai, vol. 1, no. 3, pp. 196–201, 2017.
[19] Y. A. Sir and A. H. H. Soepranoto, “Pendekatan Resampling Data Untuk Menangani Masalah Ketidakseimbangan Kelas,” J. Komput. dan Inform., vol. 10, no. 1, pp. 31–38, 2022, doi: 10.35508/jicon.v10i1.6554.
[20] N. G. Ramadhan, “Comparative Analysis of ADASYN-SVM and SMOTESVM Methods on the Detection of Type 2 Diabetes Mellitus,” Sci. J. Informatics, vol. 8, no. 2, pp. 276–282, 2021, doi: 10.15294/sji.v8i2.32484.
[21] F. Koto, “SMOTE-Out, SMOTE-Cosine, and Selected-SMOTE: An enhancement strategy to handle imbalance in data level,” Proc. - ICACSIS 2014 2014 Int. Conf. Adv. Comput. Sci. Inf. Syst., pp. 280–284, 2014, doi: 10.1109/ICACSIS.2014.7065849.
[22] A. Rahmansyah, O. Dewi, P. Andini, T. Hastuti, P. Ningrum, and M. E. Suryana, “Membandingkan Pengaruh Feature Selection Terhadap Algoritma Naïve Bayes dan Support Vector Machine,” Semin. Nas. Apl. Teknol. Inf., pp. 1–7, 2018.
[23] Z. Zhang, Mengyan Li, and Jun Yu, “D2PGGAN?: TWO DISCRIMINATORS USED IN PROGRESSIVE GROWING OF GANS Zhaoyu Zhang , Mengyan Li and Jun Yu ∗ Department of Automation , University of Science and Technology of China,” pp. 3177–3181, 2019.
[24] “Introduction to Generative Adversarial Networks (GANs),” 2020, [Online]. Available: https://medium.com/analytics-vidhya/introduction-to-generativeadversarial-networks-gans-7d05b01e66fa
[25] H. Oh, “A YouTube Spam Comments Detection Scheme Using Cascaded Ensemble Machine Learning Model,” pp. 144121–144128, 2021.
[26] L. M. Sotarjua and D. B. Santoso, “PERBANDINGAN ALGORITMA KNN , DECISION TREE ,* DAN RANDOM * FOREST PADA DATA IMBALANCED CLASS UNTUK KLASIFIKASI PROMOSI KARYAWAN,” vol. 7, pp. 192–200, 2022.
[27] A. Faktor, S. P. Data, R. Medik, and K. Pengobatan, “ANALISIS FAKTOR SOSIAL-EKONOMI PADA DATA REKAM MEDIK PASIEN TB MENGGUNAKAN TEKNOLOGI MLP CLASSIFIER-ANN DALAM KASUS KEGAGALAN PENGOBATAN,” vol. 13, pp. 422–428, 2022. 65 Program Studi Ilmu Komputer (S2) Universitas Nusa Mandiri
[28] D. Irawan, E. B. Perkasa, D. Wahyuningsih, and E. Helmud, “Perbandingan Klassifikasi SMS Berbasis Support Vector Machine , Naive Bayes Classifier , Random Forest dan Bagging Classifier,” vol. 10, pp. 432–437, 2021.
[29] E. Zuviyanto, T. B. Adji, and N. A. Setiawan, “PERBANDINGAN ALGORITME-ALGORITME PEMBELAJARAN,” pp. 20–26, 2018.
[30] S. Khomsah and Agus Sasmito Aribowo, “Text-Preprocessing Model Youtube Comments in Indonesian,” J. RESTI (Rekayasa Sist. dan Teknol. Informasi), vol. 4, no. 4, pp. 648–654, 2020, doi: 10.29207/resti.v4i4.2035.
[31] A. N. Iman, A. G. Putrada, S. Prabowo, and D. Perdana, “Peningkatan Kinerja AMG8833 sebagai Thermocam dengan Metode Regresi AdaBoost untuk Pelaksanaan Protokol COVID-19,” J. Elektro dan Telekomun. Terap., vol. 8, no. 1, p. 978, 2021, doi: 10.25124/jett.v8i1.3894.
[32] F. Guerranti and G. M. Dimitri, “A Comparison of Machine Learning Approaches for Predicting Employee Attrition,” Appl. Sci., vol. 13, no. 1, 2023, doi: 10.3390/app13010267.
[33] E. N. Fauziyah and S. R. Nudin, “Sistem Pendukung Keputusan Penentuan Jurusan di SMKN 1 Pungging Menggunakan Gradient Boosting Tree,” vol. 3, pp. 42–50, 2021.
[34] D. Normawati and S. A. Prayogi, “Implementasi Naïve Bayes Classifier Dan Confusion Matrix Pada Analisis Sentimen Berbasis Teks Pada Twitter,” J. Sains Komput. Inform. (J-SAKTI, vol. 5, no. 2, pp. 697–711, 2021, [Online]. Available: http://ejurnal.tunasbangsa.ac.id/index.php/jsakti/article/view/369
[35] D. Putra and A. Wibowo, “Prediksi Keputusan Minat Penjurusan Siswa SMA Yadika 5 Menggunakan Algoritma Naïve Bayes,” Pros. Semin. Nas. Ris. Dan Inf. Sci., vol. 2, pp. 84–92, 2020.
[36] F. Guerranti, “Employee attrition: what causes employees to quit? EMPLOYEE ATTRITION DETECTION: WHAT CAUSES EMPLOYEES TO QUIT?,” no. July, pp. 0–18, 2021, [Online]. Available: https://github.com/filippoguerranti/employee_attrition
[37] M. A. Rubi, “Machine Learning Prediction of Consumer Travel Insurance Purchase Behavior,” 2022.
[38] M. A. Fitriani and D. C. Febrianto, “Data Mining for Potential Customer Segmentation in the Marketing Bank Dataset,” vol. 9, no. 1, pp. 25–32, 2021.
[39] R. Mohammed, J. Rawashdeh, and M. Abdullah, “Machine Learning with Oversampling and Undersampling Techniques?: Overview Study and Experimental Results,” no. May, 2020, doi: 10.1109/ICICS49469.2020.239556.
[40] A. Cuesta-infante and M. Skoularidou, “Modeling Tabular Data using Conditional GAN,” no. NeurIPS, 2019.
[41] J. Engelmann, “C t w d,” no. Ml, 2020.
[42] N. Mansor, N. S. Sani, and M. Aliff, “Machine Learning for Predicting Employee Attrition,” Int. J. Adv. Comput. Sci. Appl., vol. 12, no. 11, pp. 435– 445, 2021, doi: 10.14569/IJACSA.2021.0121149.
[43] H. A. Abdulmalik, “Employee Attrition Prediction Using Deep Neural Networks,” pp. 1–11, 2021.
[44] A. Mhatre, A. Mahalingam, M. Narayanan, A. Nair, and S. Jaju, “Predicting Employee Attrition along with Identifying High Risk Employees using Big Data and Machine Learning,” pp. 269–276, 2020. 66 Program Studi Ilmu Komputer (S2) Universitas Nusa Mandiri
[45] A. Surip, M. A. Pratama, I. Ali, A. R. Dikananda, and A. I. Purnamasari, “Penerapan Machine Learning menggunakan algoritma C4.5 berbasis PSO dalam Menganalisa Data Siswa Putus Sekolah,” INFORMATICS Educ. Prof. J. Informatics, vol. 5, no. 2, p. 147, 2021, doi: 10.51211/itbi.v5i2.1530.
Detail Informasi
Tesis ini ditulis oleh :
- Nama : FEBRI AINUN JARIYAH
- NIM : 14210195
- Prodi : Ilmu Komputer
- Kampus : Margonda
- Tahun : 2023
- Periode : I
- Pembimbing : Dr. Muhammad Haris, M.Eng
- Asisten :
- Kode : 0032.S2.IK.TESIS.I.2023
- Diinput oleh : NZH
- Terakhir update : 24 Juni 2024
- Dilihat : 154 kali
TENTANG PERPUSTAKAAN

E-Library Perpustakaan Universitas Nusa Mandiri merupakan
platform digital yang menyedikan akses informasi di lingkungan kampus Universitas Nusa Mandiri seperti akses koleksi buku, jurnal, e-book dan sebagainya.
INFORMASI
Alamat : Jln. Jatiwaringin Raya No.02 RT08 RW 013 Kelurahan Cipinang Melayu Kecamatan Makassar Jakarta Timur
Email : perpustakaan@nusamandiri.ac.id
Jam Operasional
Senin - Jumat : 08.00 s/d 20.00 WIB
Isitirahat Siang : 12.00 s/d 13.00 WIB
Istirahat Sore : 18.00 s/d 19.00 WIB
Perpustakaan Universitas Nusa Mandiri @ 2020