Perbandingan Performa Model Klasifikasi Random Forest dan XGBoost untuk Deteksi Dini Diabetes Berdasarkan Teknik Imputasi

Authors

  • Cindy Viona Dzul Qurnayn Universitas Negeri Surabaya
  • Ricky Eka Putra Universitas Negeri Surabaya

Abstract

Abstrak— Missing value pada dataset medis dapat menurunkan kualitas data dan memengaruhi performa model machine learning dalam prediksi penyakit. Pada Pima Indians Diabetes Dataset, beberapa fitur seperti glucose, bloodpressure, skinthickness, insulin, dan BMI memiliki nilai 0 yang dianggap tidak valid secara medis. Penelitian ini bertujuan untuk menganalisis pengaruh missing value terhadap performa model klasifikasi diabetes, membandingkan teknik imputasi, serta menentukan kombinasi model terbaik untuk implementasi sistem prediksi diabetes berbasis web. Penelitian menggunakan model Random Forest, XGBoost, dan Stacking dengan teknik imputasi KNN, MICE, dan Autoencoder (AE). Evaluasi dilakukan menggunakan K-Fold CV dengan k=5, 10, dan 20 serta metrik AUC-ROC, accuracy, precision, recall, dan F1-score. Hasil penelitian menunjukkan bahwa penanganan missing value berpengaruh signifikan terhadap performa model. Teknik imputasi KNN dan MICE menghasilkan performa yang lebih baik dibandingkan AE. Kombinasi terbaik diperoleh pada model XGB_KNN dengan nilai AUC-ROC sebesar 0.8458, accuracy 0.7772, precision 0.7249, dan F1-score 0.649 pada k=10. Model terbaik kemudian berhasil diimplementasikan ke dalam sistem prediksi diabetes berbasis web menggunakan Flask.

 

Kata Kunci— Diabetes melitus, Missing value, Imputasi data, K-Fold Cross Validation, Machine learning.

Downloads

Download data is not yet available.

Downloads

Published

2026-06-15

Issue

Section

Articles
Abstract views: 0 , PDF Downloads: 0