Hanin, Aida Nabila Yumna (2023) Penerapan algoritma C5.0 dan metode SMOTE pada klasifikasi status kesejahteraan rumah tangga. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
|
Text (Fulltext)
17610028.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. Download (1MB) | Preview |
Abstract
ABSTRAK
Data tidak seimbang merupakan permasalahan yang sering terjadi pada kasus klasifikasi. Metode yang digunakan untuk menangani data tidak seimbang adalah SMOTE (Synthetic Minority Oversampling Technique). Banyak algoritma yang dapat digunakan untuk membangun decision tree salah satunya adalah Algoritma C5.0. Dalam algoritma C5.0, pemilihan atribut menggunakan perhitungan ukuran gain ratio yang digunakan untuk memilih atribut uji pada tiap node di dalam pohon. Salah satu kegunaan Algoritma C5.0, dapat digunakan untuk mengklasifikasikan tingkat kesejahteraan. Kesejahteraan merupakan kondisi kebutuhan di dalam keluarga yang telah terpenuhi dengan baik. Penelitian ini bertujuan untuk mengidentifikasi tingkat akurasi dan tingkat kepentingan variabel pada klasifikasi status kesejahteraan rumah tangga di Kota Malang, yang diklasifikasikan menjadi kategori miskin dan tidak miskin. Variabel yang digunakan adalah jenis kelamin, umur, banyaknya anggota rumah tangga, tingkat pendidikan tertinggi, lapangan pekerjaan dan status pekerjaan kepala rumah tangga. Berdasarkan hasil penelitian dengan metode Algoritma C5.0 dan metode SMOTE menunjukkan bahwa nilai accuracy sebesar 76,32%, sensitivity sebesar 79,75%, specificity sebesar 72,60% dan nilai AUC sebesar 0,7617. Variabel terpenting yang mempengaruhi pohon klasifikasi adalah pendidikan dengan persentase sebesar 32,21%, kemudian variabel status pekerjaan dengan persentase 26,17%. Selanjutnya variabel banyak anggota rumah tangga dengan persentase 25,64%, yang ke-empat ada variabel jenis kelamin dengan persentase 6,71%. Kemudian variabel umur 4,97% dan terakhir variabel lapangan pekerjaan dengan persentase sebesar 4,26%.
ABSTRACT
Unbalanced data is a problem that often occurs in classification cases. The method used to handle unbalanced data is SMOTE (Synthetic Minority Oversampling Technique). There are many algorithms that can be used to build decision trees, one of which is the C5.0 algorithm. In the C5.0 algorithm, attribute selection uses a gain ratio calculation which is used to select test attributes at each node in the tree. One of the uses of the C5.0 algorithm is that it can be used to classify welfare levels. Welfare is a condition where needs in the family have been fulfilled properly. This research aims to identify the level of accuracy and importance of variables in the classification of the welfare status of households in Malang City, which are classified into poor and non-poor categories. The variables used are gender, age, number of household members, highest level of education, employment and employment status of the head of the household. Based on the results of research using the C5.0 Algorithm method and the SMOTE method, it shows that the accuracy value is 76.32%, the sensitivity is 79.75%, the specificity is 72.60% and the AUC value is 0.7617. The most important variable that influences the classification tree is education with a percentage of 32.21%, then the employment status variable with a percentage of 26.17%. Next, there is the variable number of household members with a percentage of 25.64%, fourthly there is the gender variable with a percentage of 6.71%. Then the age variable is 4.97% and finally the employment variable with a percentage of 4.26%.
مستخلص البحث
تعتبر البيانات غير المتوازنة مشكلة متكررة في حالة التصنيف. الطريقة المستخدمة للتعامل مع البيانات غير المتوازنة هي SMOTE (الاقلية الإصطتاعية على اخذ العينات). هناك العديد من الخوارزميات التي يمكن استخدامها لبناء أشجار القرار، إحداها هي خوارزمية C5.0. في خوارزمية C5.0 ، يستخدم تحديد السمة حساب نسبة الكسب الذي يتم استخدامه لتحديد سمة الاختبار في كل عقدة في الشجرة. أحد استخدامات خوارزمية C5.0 هو أنه يمكن استخدامها لتصنيف مستويات الرفاهية. الرفاهية هي حالة يتم فيها تلبية احتياجات الأسرة بشكل جيد. يهدف هذا البحث إلى تحديد مستوى دقة وأهمية المتغيرات في تصنيف حالة الرفاهية للأسر في مدينة مالانج والتي تم تجميعها إلى فئتين، الفقيرة وغير الفقيرة. والمتغيرات المستخدمة هي الجنس، والعمر، وعدد أفراد الأسرة، وأعلى مستوى تعليمي، والمهنة، والحالة الوظيفية لرب الأسرة. بناءً على نتائج البحث باستخدام طريقة الخوارزمية C5.0 وطريقة SMOTE ، تم الحصول على قيمة دقة تبلغ 76.32%، وقيمة حساسية 79.75%، ونوعية 72.60%، وقيمة AUC تبلغ 0.7617. أما المتغير الأكثر تأثيرا على شجرة التصنيف فهو التعليم بنسبة 32.21%، ثم متغير الحالة الوظيفية بنسبة 26.17%. يليه متغير عدد أفراد الأسرة بنسبة 25.64%، ورابعاً متغير الجنس بنسبة 6.71%. ثم متغير العمر بنسبة 4.97% وأخيرا متغير التوظيف بنسبة %4.26
Item Type: | Thesis (Undergraduate) |
---|---|
Supervisor: | Rozi, Fachrur and Herawati, Erna |
Keywords: | Klasifikasi; Algoritma C5.0; SMOTE (Synthetic Minority Oversampling Technique); Ketepatan Klasifikasi; AUC-ROC; Kesejahteraan Rumah Tangga Classification; C5.0 Algorithm; SMOTE (Synthetic Minority Oversampling Technique); Accuracy of Classification; AUC-ROC; Household Welfare التصنيف; خوارزمية C5.0، SMOTE (الاقلية الإصطتاعية على اخذ العينات); دقة التصنيف، AUC-ROC الأسرة المزدهرة. |
Subjects: | 01 MATHEMATICAL SCIENCES > 0104 Statistics > 010401 Applied Statistics |
Departement: | Fakultas Sains dan Teknologi > Jurusan Matematika |
Depositing User: | Aida Nabila Yumna Hanin |
Date Deposited: | 04 Jan 2024 13:55 |
Last Modified: | 04 Jan 2024 13:55 |
URI: | http://etheses.uin-malang.ac.id/id/eprint/60269 |
Downloads
Downloads per month over past year
Actions (login required)
View Item |