Kartika, Rizqi Amalia (2025) Pengaruh penyeimbangan data berbasis karakteristik fitur terhadap kinerja random forest dalam prediksi defect perangkat lunak. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
|
Text (Fulltext)
210605110064.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. (2MB) | Preview |
Abstract
ABSTRAK :
Ketidakseimbangan kelas pada dataset prediksi defect perangkat lunak dapat menyebabkan model cenderung mengabaikan kelas minoritas. Penelitian ini mengevaluasi kinerja model Random Forest dalam tiga skenario: tanpa penyeimbangan, menggunakan SMOTE, dan SMOTE dengan filtering berbasis karakteristik fitur. Pengujian dilakukan pada 13 dataset dengan berbagai rasio pelatihan-pengujian (90:10 hingga 70:30), menggunakan metrik akurasi dan F1-score. Hasil menunjukkan bahwa kombinasi SMOTE dan filtering menghasilkan F1-score tertinggi sebesar 90,72% pada dataset PC2 dengan rasio 70:30, serta performa paling stabil pada rasio yang sama dengan rata-rata akurasi 78,32% dan standar deviasi 2,38%. Pendekatan ini secara signifikan meningkatkan kemampuan model dalam mendeteksi defect dibandingkan dua skenario lainnya. Dengan demikian, metode ini terbukti efektif dalam mengatasi ketidakseimbangan kelas tanpa menimbulkan noise berlebih, serta meningkatkan keandalan prediksi perangkat lunak.
ABSTRACT :
Class imbalance in software defect prediction datasets can cause models to overlook the minority class. This study evaluates the performance of a Random Forest model under three scenarios: without resampling, with SMOTE, and with SMOTE combined with feature-based filtering. Experiments were conducted on 13 datasets with varying training-testing ratios (from 90:10 to 70:30), using accuracy and F1-score as evaluation metrics. The results show that the combination of SMOTE and filtering achieved the highest F1-score of 90.72% on the PC2 dataset with a 70:30 split, and demonstrated the most stable performance at the same ratio, with a mean accuracy of 78.32% and a standard deviation of 2.38%. This approach significantly improved the model’s ability to detect defects compared to the other two scenarios. Therefore, the proposed method is proven to be effective in addressing class imbalance without introducing excessive noise, while enhancing the reliability of software defect prediction.
مستخلص البحث :
يمكن أن يؤدي اختلال التوازن في الفئات داخل مجموعات بيانات التنبؤ بعيوب البرمجيات إلى جعل النموذج يتجاهل الفئة الأقل تمثيلًا. تهدف هذه الدراسة إلى تقييم أداء نموذج الغابة العشوائية (Random Forest) في ثلاث سيناريوهات: بدون توازن، باستخدام تقنية SMOTE ، واستخدام SMOTE مع ترشيح يعتمد على خصائص الميزات. تم إجراء الاختبارات على 13 مجموعة بيانات بنسب مختلفة بين التدريب والاختبار (من 90:10 إلى 70:30)، باستخدام مقاييس الدقة و F1-score. أظهرت النتائج أن دمج SMOTE مع الترشيح أعطى أعلى F1-score بنسبة 90.72% على مجموعة بيانات PC2 بنسبة تقسيم 70:30، كما أظهر أداءً أكثر استقرارًا على نفس النسبة بمتوسط دقة 78.32% وانحراف معياري قدره 2.38%. تعزز هذه الطريقة قدرة النموذج على الكشف عن العيوب بشكل كبير مقارنة بالسيناريوهين الآخرين. وعليه، فإن هذا النهج يثبت فعاليته في معالجة اختلال توازن الفئات دون التسبب في ضجيج زائد، كما يعزز موثوقية التنبؤ في البرمجيات.
Item Type: | Thesis (Undergraduate) |
---|---|
Supervisor: | Fatchurrochman, Fatchurrochman and Sari, Nur Fitriyah Ayu Tunjung |
Keywords: | Prediksi defect; ketidakseimbangan kelas; Random Forest; SMOTE; filtering berbasis fitur. Defect prediction; class imbalance; Random Forest; SMOTE; feature-based filtering. التنبؤ بالعيوب، اختلال التوازن في الفئات، الغابة العشوائية، SMOTE، الترشيح المستند إلى الخصائص. |
Subjects: | 08 INFORMATION AND COMPUTING SCIENCES > 0801 Artificial Intelligence and Image Processing > 080109 Pattern Recognition and Data Mining 08 INFORMATION AND COMPUTING SCIENCES > 0803 Computer Software > 080309 Software Engineering |
Departement: | Fakultas Sains dan Teknologi > Jurusan Teknik Informatika |
Depositing User: | Rizqi Amalia |
Date Deposited: | 16 Jul 2025 09:19 |
Last Modified: | 16 Jul 2025 09:19 |
URI: | http://etheses.uin-malang.ac.id/id/eprint/76563 |
Downloads
Downloads per month over past year
Actions (login required)
![]() |
View Item |