Responsive Banner

Klasifikasi penyakit Diabetes Melitus menggunakan Algoritma Naive Bayes dan Random Forest

Mahendra, Yusril Haza (2025) Klasifikasi penyakit Diabetes Melitus menggunakan Algoritma Naive Bayes dan Random Forest. Masters thesis, Universitas Islam Negeri Maulana Malik Ibrahim.

[img] Text (Fulltext)
230605220009.pdf - Accepted Version
Available under License Creative Commons Attribution Non-commercial No Derivatives.

(923kB)

Abstract

ABSTRAK

Diabetes Mellitus merupakan penyakit kronis dengan prevalensi yang terus meningkat dan membutuhkan sistem deteksi dini yang akurat untuk mendukung pengambilan keputusan medis secara cepat dan objektif. Penelitian ini bertujuan untuk menganalisis dan membandingkan performa algoritma Naive Bayes dan Random Forest dalam klasifikasi penyakit Diabetes Mellitus berdasarkan parameter klinis seperti kadar glukosa darah, Body Mass Index (BMI), tekanan darah, usia, dan riwayat penyakit. Data dibagi menjadi data latih dan data uji dengan rasio 70:30, kemudian melalui tahapan preprocessing, pemodelan, dan evaluasi menggunakan metrik akurasi, precision, recall, dan F1-score. Hasil pengujian menunjukkan bahwa algoritma Random Forest memberikan performa terbaik dengan akurasi sebesar 98,00%, precision 97,82%, recall 98,10%, dan F1-score 97,96%, sedangkan algoritma Naive Bayes menghasilkan akurasi 90,00%, precision 89,30%, recall 88,75%, dan F1-score 89,02%. Hasil klasifikasi menunjukkan bahwa sebesar 91,5% pasien diprediksi tidak terkena diabetes dan 8,5% pasien diprediksi positif diabetes, menggambarkan dominasi kelas negatif diabetes pada populasi data. Temuan ini menunjukkan bahwa Random Forest lebih unggul dalam mengidentifikasi pola data yang kompleks serta memberikan prediksi yang lebih akurat dan andal dibandingkan Naive Bayes. Analisis fitur juga mengungkap bahwa BMI, usia, riwayat merokok, dan kadar glukosa darah merupakan variabel paling berpengaruh dalam menentukan risiko Diabetes Mellitus.

مستخلص البحث

داء السكري هو مرض مزمن ينتشر بشكل متزايد ويتطلب نظاما دقيقا للكشف المبكر لدعم اتخاذ القرارات الطبية السريعة والموضوعية. تهدف هذه الدراسة إلى تحليل ومقارنة أداء خوارزميات ساذج بايز و غابة عشوائية في تصنيف مرض داء السكري بناء على المعايير السريرية مثل مستويات الجلوكوز في الدم ومؤشر كتلة الجسم (مؤشر كتلة الجسم) وضغط الدم والعمر وتاريخ المرض. تم تقسيم البيانات إلى بيانات التدريب وبيانات الاختبار بنسبة ٧٥:٣٥ ، ثم من خلال مراحل المعالجة المسبقة والنمذجة والتقييم باستخدام مقاييس الدقة والدقة والاستدعاء ودرجة F١. أظهرت نتائج الاختبار أن خوارزمية الغابة العشوائية قدمت أفضل أداء بدقة ٩٨٫٠٠٪ ، ودقة ٩٧٠٨٢ ٪ ، واستدعاء ٩٨.٠١٪ ، ودرجة F١ ٩٧.٩٦٪ ، بينما أنتجت خوارزمية ساذج بايز دقة ٩٠.٠٠٪ ، ودقة ٨٩.٣٠٪ ، واستدعاء ٨٨.٧٥٪ ، و درجة F١ ٨٩.٠٢٪ أظهرت نتائج التصنيف أنه من المتوقع ألا يكون ٩١.٥٪ من المرضى مصابين بمرض السكري و ٨٥٪ من المرضى متوقعون أن يكونوا مصابين بالسكري ، مما يوضح هيمنة الفئة السلبية لمرضى السكري في مجتمع البيانات. تظهر هذه النتائج أن غابة عشوائية متفوقة في تحديد أنماط البيانات المعقدة وتقديم تنبؤات أكثر دقة وموثوقية من ساذج بايز. كشف تحليل الميزات أيضا أن مؤشر كتلة الجسم والعمر وتاريخ التدخين ومستويات الجلوكوز في الدم كانت المتغيرات الأكثر تأثيرا في تحديد خطر الإصابة بداء السكري.

ABSTRACT

Diabetes Mellitus is a chronic disease with increasing prevalence and requires an accurate early detection system to support rapid and objective medical decision-making. This study aims to analyze and compare the performance of the Naive Bayes and Random Forest algorithms in the classification of Diabetes Mellitus disease based on clinical parameters such as blood glucose levels, Body Mass Index (BMI), blood pressure, age, and disease history. The data was divided into training data and test data with a 70:30 ratio, then through preprocessing, modeling, and evaluation stages using accuracy, precision, recall, and F1-score metrics. The test results showed that the Random Forest algorithm provided the best performance with an accuracy of 98.00%, precision of 97.82%, recall of 98.10%, and an F1-score of 97.96%, while the Naive Bayes algorithm produced an accuracy of 90.00%, precision of 89.30%, recall of 88.75%, and F1 score 89.02%. The classification results showed that 91.5% of patients were predicted not to have diabetes and 8.5% of patients were predicted to be diabetic, illustrating the dominance of the diabetic negative class in the data population. These findings show that Random Forest is superior at identifying complex data patterns and providing more accurate and reliable predictions than Naive Bayes. Feature analysis also revealed that BMI, age, smoking history, and blood glucose levels were the most influential variables in determining the risk of Diabetes Mellitus.

Item Type: Thesis (Masters)
Supervisor: Kusumawati, Ririen and Imamudin, Muhammad
Keywords: Kata Kunci: Diabetes Mellitus, Naive Bayes, Random Forest, Klasifikasi. الكلمات المفتاحية: داء السكري، بايز السادج ، الغابات العشوائية ، التصنيف. Keywords: Diabetes Mellitus, Naive Bayes, Random Forest, Classification.
Subjects: 08 INFORMATION AND COMPUTING SCIENCES > 0801 Artificial Intelligence and Image Processing > 080199 Artificial Intelligence and Image Processing not elsewhere classified
10 TECHNOLOGY > 1099 Other Technology > 109999 Technology not elsewhere classified
Departement: Fakultas Sains dan Teknologi > Jurusan Magister Tehnik Informatika
Depositing User: Abdulhalim Hamid
Date Deposited: 21 Nov 2025 13:43
Last Modified: 21 Nov 2025 14:04
URI: http://etheses.uin-malang.ac.id/id/eprint/81262

Downloads

Downloads per month over past year

Actions (login required)

View Item View Item