Prameswari, Mila Amarila (2024) Klasifikasi perokok berdasarkan kondisi tubuh menggunakan Metode Random Forest. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
Text (Fulltext)
200605110080.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. Download (2MB) |
Abstract
INDONESIA:
Perkembangan teknologi mempengaruhi pola hidup manusia dan meningkatkan resiko berbagai penyakit, termasuk akibat pola hidup tidak sehat dan merokok yang dapat menyebabkan penyakit yang berpotensi meningkatkan risiko kematian. Dalam penelitian ini digunakan metode Random Forest untuk mengklasifikasikan perokok. Tujuan penelitian ini adalah mengetahui Performance metode Random Forest melalui perhitungan accuracy, precision, recall dan f1-score dalam mengklasifikasikan perokok berdasarkan kondisi tubuh dengan menerapkan Random Forest. Data yang digunakakn dalam penelitian ini adalah data “Body Signal Of Smoking” yang diambil dari salah satu Perusahaan Asuransi Kesehatan Nasional milik Republik Korea Selatan. Kemudian dilakukan preprocessing data meliputi seleksi fitur, SMOTE, split data dan normalisasi. Terdapat dua model split data, Model A dengan data train 80% dan data test 20% serta Model B dengan data train 70% dan data test 30%. Berikutnya pada setiap model dilakukan pengujian yang berbeda yaitu tanpa normalisasi dan normalisasi, tanpa SMOTE dan menggunakan SMOTE, serta tanpa seleksi fitur dan menggunakan seleksi fitur. Nilai akurasi terbaik terjadi pada pengujian dengan normalisasi menggunakan SMOTE dan seleksi fitur dengan hasil nilai nilai Accuracy 82,50%, precision 81,58%, recall 89,39% dan f1-score 85,31% pada Model A dan nilai Accuracy 81,65%, precision 80,73%, recall 89,06%, dan f1-score 84,69% pada Model B.
ENGLISH:
The development of technology affects human life patterns and increases the risk of various diseases, including due to unhealthy lifestyles and smoking which can cause diseases that have the potential to increase the risk of death. In this study, the Random Forest method was used to classify smokers. The purpose of this study is to determine the Performance of the Random Forest method through the calculation of accuracy, precision, recall and f1-score in classifying smokers based on body condition by applying Random Forest. The data used in this study is the “Body Signal Of Smoking” data taken from one of the National Health Insurance Companies owned by the Republic of South Korea. Then data preprocessing is carried out including feature selection, SMOTE, split data and normalization. There are two data split models, Model A with 80% train data and 20% test data and Model B with 70% train data and 30% test data. Next, each model is tested differently, namely without normalization and normalization, without SMOTE and using SMOTE, and without feature selection and using feature selection. The best accuracy value occurs in testing with normalization using SMOTE and feature selection with the results of the Accuracy value of 82.50%, precision 81.58%, recall 89.39% and f1-score 85.31% in Model A and Accuracy value 81.65%, precision 80.73%, recall 89.06%, and f1-score 84.69% in Model B.
ARABIC:
تطوير التكنولوجيا التأثير نمط الحياة الإنسان ويزيد من خطر أمراض مختلفة, بما في ذلك نتيجة نمط الحياة غير الصحي والتدخين يمكن أن يسبب الأمراض التي يحتمل أن تزيد من خطر الوفاة . في هذه الدراسة باستخدام الطريقة Random Forest للقيام بما يلي تصنيف المدخنين . أهداف هذه الدراسة هي اكتشف أداء الطريقة Random Forest من خلال الحساب الدقة والدقة والاستدعاء دان f1- نقاط للقيام بما يلي تصنيف المدخنين بناءً على حالة الجسم من خلال تطبيق الطريقة . مجموعة البيانات المستخدمة في هذه الدراسة هي مجموعة البيانات “”“ المأخوذة من إحدى شركات التأمين الصحي الوطنية المملوكة لجمهورية كوريا الجنوبية. ثم يتم ذلك المعالجة المسبقة للبيانات بما في ذلك اختيار الميزات, تقنية أخذ العينات الزائدة من الأقليات الاصطناعية تقسيم البيانات وتطبيعها. هناك نوعان من نماذج البيانات المنقسمة المستخدمة في هذه الدراسة أي النموذج A مع بيانات تدريب بنسبة 80% وبيانات اختبار بنسبة 20%، والنموذج B مع بيانات تدريب بنسبة 70% وبيانات اختبار بنسبة 30%. بعد ذلك، تم اختبار كل نموذج بشكل مختلف، أي بدون تطبيع وتطبيع، وبدون SMOTE وباستخدام SMOTE، وبدون اختيار الميزة وباستخدام اختيار الميزة. تظهر أفضل قيمة دقة في الاختبار مع التطبيع باستخدام SMOTE واختيار السمات مع نتائج قيمة الدقة 82.50%، والدقة 81.58%، والتذكر 89.39%، والنتيجة f1-نتيجة 85.31% في النموذج A، وقيمة الدقة 81.65%، والدقة 80.73%، والتذكر 89.06%، والنتيجة f1-نتيجة 84.69% في النموذج B.
Item Type: | Thesis (Undergraduate) |
---|---|
Supervisor: | Suhartono, Suhartono and Santoso, Irwan Budi |
Keywords: | Klasifikasi; Perokok; Random Forest; Classification; Smoker; Random Forest; الكلمات المفتاحية ; التصنيف، المدخن،; Random Forest |
Subjects: | 01 MATHEMATICAL SCIENCES > 0199 Other Mathematical Sciences > 019999 Mathematical Sciences not elsewhere classified 08 INFORMATION AND COMPUTING SCIENCES > 0899 Other Information and Computing Sciences > 089999 Information and Computing Sciences not elsewhere classified |
Departement: | Fakultas Sains dan Teknologi > Jurusan Teknik Informatika |
Depositing User: | Mila Amarila Prameswari |
Date Deposited: | 23 Jul 2024 09:11 |
Last Modified: | 07 Aug 2024 09:27 |
URI: | http://etheses.uin-malang.ac.id/id/eprint/65494 |
Downloads
Downloads per month over past year
Actions (login required)
View Item |