Putri, Firda Arinda Eka (2024) Pengaruh penanganan ketidakseimbangan kelas pada dataset penyakit stroke terhadap performa Algoritma Random Forest. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
![]() |
Text (Fulltext)
210605110115.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. Download (2MB) |
Abstract
INDONESIA:
Ketidakseimbangan kelas adalah kondisi di mana jumlah data pada kelas minoritas lebih kecil dibandingkan dengan kelas mayoritas. Dampak dari ketidakseimbangan kelas dalam dataset adalah terjadinya kesalahan klasifikasi pada kelas minoritas, sehingga dapat memengaruhi kinerja klasifikasi. Salah satu contoh data yang memiliki ketidakseimbangan yakni dataset penyakit stroke, yang memiliki perbedaan signifikan antara jumlah data yang mengindikasikan terjadinya stroke (kelas minoritas) dan data yang tidak mengindikasikan stroke (kelas mayoritas). Penelitian ini menggunakan teknik resampling yaitu SMOTE, ADASYN, dan Random Over Sampling (ROS) untuk mengatasi masalah ketidakseimbangan kelas yang dikombinasikan dengan algoritma klasifikasi Random Forest. Tujuan penelitian ini adalah untuk mengetahui pengaruh penanganan ketidakseimbangan kelas pada dataset terhadap kinerja klasifikasi. Pengujian dilakukan pada beberapa pengaturan parameter, dan berdasarkan hasil klasifikasi, metode SMOTE memberikan hasil terbaik dengan akurasi 87% dan F1-score 86%. Metode ROS menghasilkan akurasi yang sama (87%), namun performanya sedikit lebih rendah dibandingkan SMOTE dengan F1-Score 85%, sementara ADASYN menunjukkan akurasi terendah (84%) dan F1-score 82%. Hasil uji coba menunjukkan bahwa SMOTE adalah metode balancing data yang paling efektif dalam meningkatkan kinerja klasifikasi, khususnya dalam mendeteksi kelas minoritas.
ENGLISH:
Class imbalance is a condition where the amount of data in the minority class is smaller than the majority class. The impact of class imbalance in a dataset is the misclassification of the minority class, which can affect classification performance. One example of data that has imbalance is the stroke disease dataset, which has a significant difference between the amount of data that indicates a stroke (minority class) and data that does not indicate a stroke (majority class). This research uses resampling techniques namely SMOTE, ADASYN, and Random Over Sampling (ROS) to overcome the problem of class imbalance combined with the Random Forest classification algorithm. The purpose of this study is to determine the effect of handling class imbalance on the dataset on classification performance. Tests were conducted on several parameter settings, and based on the classification results, the SMOTE method gave the best results with 87% accuracy and 86% F1-score. The ROS method produced similar accuracy (87%), but performed slightly lower than SMOTE with an F1-score of 85%, while ADASYN showed the lowest accuracy (84%) and F1-score of 82%. The experimental results show that SMOTE is the most effective data balancing method in improving classification performance, especially in detecting minority classes.
ARABIC:
عدم التوازن الطبقي هو حالة تكون فيها كمية البيانات في فئة الأقلية أصغر مقارنة بفئة الأغلبية. يتمثل تأثير عدم التوازن الطبقي في مجموعة البيانات في حدوث أخطاء في التصنيف عند فئات الأقليات، بحيث يمكن أن يؤثر على أداء التصنيف. أحد الأمثلة على البيانات التي تحتوي على خلل في التوازن هو مجموعة بيانات مرض السكتة الدماغية، والتي لها فرق كبير بين كمية البيانات التي تشير إلى حدوث السكتة الدماغية (فئة الأقلية) والبيانات التي لا تشير إلى السكتة الدماغية (فئة الأغلبية). استخدم هذا البحث تقنيات إعادة العينات، وهي SMOTE و ADASYN و ROS للتغلب على مشكلة عدم التوازن الطبقي مع خوارزمية تصنيف الغابات العشوائية. الهدف من هذا البحث هو تحديد تأثير التعامل مع اختلالات الفئات في مجموعات البيانات على أداء التصنيف. تم إجراء الاختبار على عدة إعدادات للمعلمات، وبناء على نتائج التصنيف، أعطت طريقة أخذ عينات الأقليات الاصطناعية (SMOTE) أفضل النتائج بدقة 87٪ ودرجة ف1 بنسبة 86٪. أنتجت طريقة ، أخذ عينات زائدة عشوائية (ROS) نفس الدقة (87٪)، لكن أدائها كان أقل قليلا من أداء SMOTE مع درجة ف1 بنسبة 85%، بينما أظهرت طريقة أخذ عينات اصطناعية تكيفية (ADASYN) أدنى دقة (84٪) ودرجة ف1 بنسبة 82٪. أظهرت نتائج الاختبار أن SMOTE هي أكثر طرق موازنة البيانات فعالية في تحسين أداء التصنيف، خاصة في الكشف عن فئات الأقليات.
Item Type: | Thesis (Undergraduate) |
---|---|
Supervisor: | Aziz, Okta Qomaruddin and Sari, Nur Fitriyah Ayu Tunjung |
Keywords: | ADASYN; Ketidakseimbangan kelas; Klasifikasi; Random Forest; Random Over Sampling; SMOTE; Stroke; Class Imbalance; Classification; أخذ عينات اصطناعية تكيفية; عدم توازن طبقي; تصنيف; أخذ عينات أقليات اصطناعية; سكتة دماغية; غابة عشوائية، أخذ عينات زائدة عشوائية |
Departement: | Fakultas Sains dan Teknologi > Jurusan Teknik Informatika |
Depositing User: | Firda Arinda Eka Putri |
Date Deposited: | 24 Dec 2024 09:55 |
Last Modified: | 24 Dec 2024 09:55 |
URI: | http://etheses.uin-malang.ac.id/id/eprint/70971 |
Downloads
Downloads per month over past year
Actions (login required)
![]() |
View Item |