Analisa Perbandingan Model Machine Learning Untuk Prediksi Dampak Kesehatan Dari Kualitas Udara

Penulis

  • Zakha Aditya Hadinsyah University of Jember, Indonesia
  • Ahnaf Alvarez Sutrisno University of Jember, Indonesia
  • Devies Ade Irawan University of Jember, Indonesia

DOI:

https://doi.org/10.22441/jitkom.v10i1.007

Kata Kunci:

air quality prediction, health impact classification, machine learning, Random Forest, Extreme Gradient Boosting, SMOTE, public health analytics

Abstrak

Polusi udara masih menjadi salah satu permasalahan kesehatan masyarakat yang paling serius di tingkat global, karena paparan jangka panjang terhadap polutan berbahaya dapat meningkatkan risiko penyakit pernapasan, gangguan kardiovaskular, serta angka rawat inap. Penelitian ini bertujuan untuk membandingkan kinerja prediktif dua model machine learning berbasis ensemble, yaitu Random Forest dan Extreme Gradient Boosting (XGBoost), dalam mengklasifikasikan tingkat dampak kesehatan berdasarkan indikator kualitas udara. Penelitian ini menggunakan Air Quality and Health Impact Dataset yang diperoleh dari Kaggle dan menerapkan tahapan metodologi yang sistematis, meliputi analisis data eksploratif, prapemrosesan data, penskalaan fitur, penanganan ketidakseimbangan kelas menggunakan stratified sampling dan metode Synthetic Minority Over-sampling Technique (SMOTE), pembangunan model baseline, serta optimasi hiperparameter menggunakan RandomizedSearchCV. Dataset mencakup konsentrasi polutan udara (PM2.5, PM10, NO₂, SO₂, dan O₃), variabel meteorologi, serta indikator kesehatan harian. Hasil eksperimen menunjukkan bahwa kedua model mampu mempelajari pola hubungan antara paparan polusi udara dan risiko kesehatan masyarakat, namun XGBoost secara konsisten menunjukkan performa yang lebih unggul dibandingkan Random Forest. Setelah proses tuning, model XGBoost mencapai tingkat akurasi sebesar 0,9003 dengan nilai F1-score tertimbang sebesar 0,8902. Analisis feature importance menunjukkan bahwa indeks kualitas udara, partikulat PM2.5 dan PM10, konsentrasi ozon, serta jumlah rawat inap merupakan faktor yang paling berpengaruh dalam proses klasifikasi. Secara keseluruhan, hasil penelitian ini menegaskan bahwa Extreme Gradient Boosting merupakan pendekatan yang andal dan efektif untuk memprediksi dampak kesehatan akibat kualitas udara, serta memiliki potensi besar untuk mendukung pengembangan sistem peringatan dini dan kebijakan kesehatan lingkungan berbasis data.

Biografi Penulis

Zakha Aditya Hadinsyah, University of Jember

Informatics Program Study, Faculty of Computer Science

Ahnaf Alvarez Sutrisno, University of Jember

Informatics Program Study, Faculty of Computer Science

Devies Ade Irawan, University of Jember

Informatics Program Study, Faculty of Computer Science

Referensi

[1] Y. Chen et al., “Examining the importance of built and natural environment factors in predicting self-rated health in older adults: An extreme gradient boosting (XGBoost) approach,” Journal of Cleaner Production, vol. 413, p. 137432, Aug. 2023, doi: 10.1016/j.jclepro.2023.137432.

[2] M. Zamani Joharestani, C. Cao, X. Ni, B. Bashir, and S. Talebiesfandarani, “PM2.5 Prediction Based on Random Forest, XGBoost, and Deep Learning Using Multisource Remote Sensing Data,” Atmosphere, vol. 10, no. 7, p. 373, July 2019, doi: 10.3390/atmos10070373.

[3] A. M. Sapari, A. I. Hadiana, F. R. Umbara, “Air quality classification using extreme gradient boosting (XGBOOST) algorithm,” Innovation in Research of Informatics and Computing, 2023.

[4] S. Tırınk, “Machine learning-based forecasting of air quality index under long-term environmental patterns: A comparative approach with XGBoost, LightGBM, and SVM,” PLOS One, vol. 20, no. 10, p. e0334252, Oct. 2025, doi: 10.1371/journal.pone.0334252.

[5] ‌F. P. Arifianti and A. Salam, “XGBoost and Random Forest Optimization using SMOTE to Classify Air Quality,” Advance Sustainable Science, Engineering and Technology, vol. 6, no. 1, p. 02401025, Jan. 2024, doi: 10.26877/asset.v6i1.18136.

[6] B. Liu, X. Tan, Y. Jin, W. Yu, and C. Li, “Application of RR-XGBoost combined model in data calibration of micro air quality detector,” Scientific Reports, vol. 11, no. 1, Aug. 2021, doi: 10.1038/s41598-021-95027-1.

[7] J. Yang, Y. Tian, and C. H. Wu, “Air Quality Prediction and Ranking Assessment Based on Bootstrap-XGBoost Algorithm and Ordinal Classification Models,” Atmosphere, vol. 15, no. 8, p. 925, Aug. 2024, doi: 10.3390/atmos15080925.

[8] W. Ni et al., “Classification and Concentration Predictions of Volatile Organic Compounds Using an Electronic Nose Based on XGBoost-Random Forest Algorithms,” IEEE Sensors Journal, vol. 24, no. 1, pp. 671–678, Jan. 2024, doi: 10.1109/jsen.2023.3304355.

[9] ‌S. Poupry, C. Béler, and K. Medjaher, “Development of a reliable measurement station for air quality monitoring based on low-cost sensors and active redundancy,” IFAC-PapersOnLine, vol. 55, no. 5, pp. 7–12, 2022, doi: 10.1016/j.ifacol.2022.07.631.

[10] Z. Jiang et al., “Characteristics of ambient air quality and its air quality index (AQI) model in Shanghai, China,” Science of The Total Environment, vol. 896, p. 165284, Oct. 2023, doi: 10.1016/j.scitotenv.2023.165284

Diterbitkan

2026-01-31

Cara Mengutip

[1]
Z. A. Hadinsyah, A. A. Sutrisno, dan D. A. Irawan, “Analisa Perbandingan Model Machine Learning Untuk Prediksi Dampak Kesehatan Dari Kualitas Udara”, JITKOM, vol. 10, no. 1, hlm. 36–42, Jan 2026.

Terbitan

Bagian

Articles

Artikel Serupa

> >> 

Anda juga bisa Mulai pencarian similarity tingkat lanjut untuk artikel ini.