Perbandingan Performa Model Klasifikasi Random Forest dan XGBoost untuk Deteksi Dini Diabetes Berdasarkan Teknik Imputasi

Cindy Viona Dzul Qurnayn; Ricky Eka Putra

Authors

Cindy Viona Dzul Qurnayn Universitas Negeri Surabaya
Ricky Eka Putra Universitas Negeri Surabaya

Abstract

Abstrak— Missing value pada dataset medis dapat menurunkan kualitas data dan memengaruhi performa model machine learning dalam prediksi penyakit. Pada Pima Indians Diabetes Dataset, beberapa fitur seperti glucose, bloodpressure, skinthickness, insulin, dan BMI memiliki nilai 0 yang dianggap tidak valid secara medis. Penelitian ini bertujuan untuk menganalisis pengaruh missing value terhadap performa model klasifikasi diabetes, membandingkan teknik imputasi, serta menentukan kombinasi model terbaik untuk implementasi sistem prediksi diabetes berbasis web. Penelitian menggunakan model Random Forest, XGBoost, dan Stacking dengan teknik imputasi KNN, MICE, dan Autoencoder (AE). Evaluasi dilakukan menggunakan K-Fold CV dengan k=5, 10, dan 20 serta metrik AUC-ROC, accuracy, precision, recall, dan F1-score. Hasil penelitian menunjukkan bahwa penanganan missing value berpengaruh signifikan terhadap performa model. Teknik imputasi KNN dan MICE menghasilkan performa yang lebih baik dibandingkan AE. Kombinasi terbaik diperoleh pada model XGB_KNN dengan nilai AUC-ROC sebesar 0.8458, accuracy 0.7772, precision 0.7249, dan F1-score 0.649 pada k=10. Model terbaik kemudian berhasil diimplementasikan ke dalam sistem prediksi diabetes berbasis web menggunakan Flask.

Kata Kunci— Diabetes melitus, Missing value, Imputasi data, K-Fold Cross Validation, Machine learning.

Downloads

Download data is not yet available.

Perbandingan Performa Model Klasifikasi Random Forest dan XGBoost untuk Deteksi Dini Diabetes Berdasarkan Teknik Imputasi

Authors

Abstract

Downloads

Downloads

Published

Issue

Section

Submission

Submissions

menu

Menu

coba

Acreditation

template

Template

statistic

Visitor Statistics

tool

Tools

Alamat kantor Journal of Informatics and Computer Science (JINACS)