Responsive Banner

Klasifikasi risiko diabetes menggunakan Random Forest dengan kombinasi SMOTE-Tomek Links dan Recursive Feature Elimination

Al Hazmi, Muhammad Ihya' Ulumuddin (2025) Klasifikasi risiko diabetes menggunakan Random Forest dengan kombinasi SMOTE-Tomek Links dan Recursive Feature Elimination. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.

[img] Text (Fulltext)
210605110040.pdf - Accepted Version
Available under License Creative Commons Attribution Non-commercial No Derivatives.

(2MB)

Abstract

INDONESIAN:
Penelitian ini bertujuan untuk mengembangkan model klasifikasi risiko diabetes dengan mengimplementasikan algoritma Random Forest yang dikombinasikan dengan teknik SMOTE-Tomek Links dan Recursive Feature Elimination (RFE), sebagai respons terhadap tingginya prevalensi diabetes dan pentingnya deteksi dini. Dataset yang digunakan merupakan Diabetes Health Indicator Dataset (DHID), yang memiliki ketidakseimbangan kelas serta kemungkinan adanya fitur yang kurang relevan. Untuk mengatasi permasalahan tersebut, dilakukan empat skenario pengujian: model tanpa penanganan data, model dengan seleksi fitur menggunakan RFE, model dengan penyeimbangan data menggunakan SMOTE-Tomek Links, dan model yang menggabungkan keduanya. Evaluasi dilakukan menggunakan metrik akurasi, presisi, recall, dan f1-score. Hasil menunjukkan bahwa skenario keempat memberikan performa terbaik, dengan peningkatan signifikan pada recall dari 9,01% menjadi 60,49% dan f1-score dari 16,14% menjadi 45,05%. Meskipun akurasi dan presisi mengalami sedikit penurunan, model ini jauh lebih efektif dalam mendeteksi pasien yang berisiko diabetes, menunjukkan bahwa pendekatan kombinasi penyeimbangan kelas dan seleksi fitur mampu meningkatkan sensitivitas model dalam konteks klasifikasi medis.

ENGLISH:
This research aims to develop a diabetes risk classification model by implementing the Random Forest algorithm combined with SMOTE-Tomek Links to handling class imbalance and Recursive Feature Elimination (RFE) to optimize feature selection. This is a response to the high prevalence of diabetes and the critical importance of early detection. The Diabetes Health Indicator Dataset (DHID), which exhibits class imbalance and potentially irrelevant features, was used. To address these issues, four testing scenarios were conducted: a baseline model without data handling, a model with RFE for feature selection, a model using SMOTE-Tomek Links for data balancing, and a comprehensive model combining both techniques. Evaluation was performed using accuracy, precision, recall, and f1-score metrics. The results indicate that the fourth scenario achieved the best performance, showing a significant increase in recall from 9.01% to 60.49% and f1-score from 16.14% to 45.05%. Although accuracy and precision slightly decreased, this combined model proved to be substantially more effective in detecting patients at risk of diabetes, demonstrating that a combined approach of class balancing and feature selection can significantly enhance model sensitivity in the context of medical classification.

ARABIC:
يهدف هذا البحث إلى تطوير نموذج لتصنيف مخاطر مرض السكري من خلال تطبيق خوارزمية الغابة العشوائية (Random Forest)، بالاشتراك مع تقنيتي روابط SMOTE-Tomekلمعالجة عدم توازن الفئات وإزالة الميزات المتكررة (Recursive Feature Elimination - RFE) لاختيار الميزات المثلى. يأتي هذا استجابة للانتشار المتزايد لمرض السكري والأهمية البالغة للكشف المبكر عنه. تم استخدام مجموعة بيانات مؤشر صحة السكري , التي تتميز بعدم توازن الفئات واحتمال وجود ميزات غير ذات صلة. لمعالجة هذه المشكلات، تم إجراء أربعة سيناريوهات اختبار: نموذج أساسي بدون معالجة البيانات، نموذج مع اختيار الميزات باستخدام RFE، نموذج مع موازنة البيانات باستخدام SMOTE-Tomek Links، ونموذج شامل يجمع بين التقنيتين. تم التقييم باستخدام مقاييس الدقة (accuracy)، والضبط (precision)، والاستدعاء (recall)، ودرجة f1-score. تشير النتائج إلى أن السيناريو الرابع حقق أفضل أداء، مع زيادة كبيرة في الاستدعاء من 9.01% إلى 60.49% ودرجة f1-score من 16.14% إلى 45.05%. على الرغم من الانخفاض الطفيف في الدقة والضبط، أثبت هذا النموذج المدمج فعاليته بشكل كبير في الكشف عن المرضى المعرضين لخطر الإصابة بالسكري، مما يدل على أن النهج المشترك لموازنة الفئات واختيار الميزات يمكن أن يعزز بشكل كبير حساسية النموذج في سياق التصنيف الطبي

Item Type: Thesis (Undergraduate)
Supervisor: Al Hazmi, Muhammad Ihya' Ulumuddin and Suhartono, Suhartono and Santoso, Irwan Budi
Keywords: Indonesia: Diabetes; Klasifikasi; Random Forest; RFE, SMOTE-Tomek Links; Inggris: Classification; Diabetes; Random Forest; RFE, SMOTE-Tomek Links; Arab: السكري، التصنيف، الغابة العشوائية، إزالة الميزات المتكررة ، SMOTE-Tomek Links.
Subjects: 08 INFORMATION AND COMPUTING SCIENCES > 0802 Computation Theory and Mathematics > 080201 Analysis of Algorithms and Complexity
08 INFORMATION AND COMPUTING SCIENCES > 0803 Computer Software > 080301 Bioinformatics Software
08 INFORMATION AND COMPUTING SCIENCES > 0806 Information Systems > 080608 Information Systems Development Methodologies
Departement: Fakultas Sains dan Teknologi > Jurusan Teknik Informatika
Depositing User: Muhammad Ihya' Ulumuddin Al Hazmi
Date Deposited: 09 Sep 2025 11:18
Last Modified: 09 Sep 2025 11:18
URI: http://etheses.uin-malang.ac.id/id/eprint/79123

Downloads

Downloads per month over past year

Actions (login required)

View Item View Item