Responsive Banner

Klasfikasi risiko stroke berdasarkan faktor medis dan gaya hidup menggunakan Random Forest dan SMOTE

Attamimi, An Nisa' Puja Karimah (2025) Klasfikasi risiko stroke berdasarkan faktor medis dan gaya hidup menggunakan Random Forest dan SMOTE. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.

[img]
Preview
Text (Full Text)
21060510078.pdf - Accepted Version
Available under License Creative Commons Attribution Non-commercial No Derivatives.

(1MB) | Preview

Abstract

INDONESIA:

Stroke merupakan penyakit yang menyerang saraf dan otak sehingga dapat menyebabkan kelumpuhan bahkan meninggal dan menjadi salah satu penyakit mematikan nomer 2 setelah penyakit jantung di dunia. Penelitian ini bertujuan untuk mengklasifikasi risiko stroke berdasarkan faktor medis dan gaya hidup dengan menggunakan model Random Forest dan teknik keseimbangan data SMOTE. Dilakukan dengan membagi data secara Hold-out dan K-Fold cross validation dan tuning parameter sebelum mengklasifikasi data publik yang tidak seimbang dengan model Random Forest tanpa SMOTE, menggunakan Borderline-SMOTE1 dan menggunakan Borderline-SMOTE2 yang kemudian dilakukan analisa performa model. Hasil rata-rata akurasi dari klasifikasi menggunakan Random Forest dengan tuning GridSearchCV tanpa SMOTE sebesar 94% menggunakan pembagian data Hold-out dan 96% menggunakan pembagian data K-Fold cross validation. Hasil rata-rata akurasi dengan Borderline-SMOTE1 sebesar 91% menggunakan pembagian data Hold-out dan 96% menggunakan pembagian data K-Fold cross validation. Hasil rata-rata akurasi dengan Borderline-SMOTE2 sebesar 91% menggunakan pembagian data Hold-out dan 96% menggunakan pembagian data K-Fold cross validation. Dengan tuning RandomizedSearchCV klasifikasi Random Forest tanpa SMOTE sebesar 94% menggunakan pembagian data Hold-out dan 96% menggunakan pembagian data K-Fold cross validation. Dengan Borderline-SMOTE1 sebesar 91% menggunakan pembagian data Hold-out dan 96% menggunakan pembagian data K-Fold cross validation. Dengan Borderline-SMOTE2 sebesar 92% menggunakan pembagian data Hold-out dan 96% menggunakan pembagian data K-Fold cross validation.

ENGLISH:

Stroke is a disease that attacks the nerves and brain, causing paralysis and even death, making it the second deadliest disease after heart disease worldwide. This study aims to classify stroke risk based on medical and lifestyle factors using the Random Forest model and the SMOTE data balancing technique. This was done by dividing the data into Hold-out and K-Fold cross validation and tuning parameters before classifying unbalanced public data with the Random Forest model without SMOTE, using Borderline-SMOTE1 and using Borderline-SMOTE2, followed by model performance analysis. The average accuracy of classification using Random Forest with GridSearchCV tuning without SMOTE was 94% using Hold-out data division and 96% using K-Fold cross validation data division. The average accuracy with Borderline-SMOTE1 was 91% using Hold-out data division and 96% using K-Fold cross validation data division. The average accuracy results with Borderline-SMOTE2 were 91% using Hold-out data division and 96% using K-Fold cross validation data division. With RandomizedSearchCV tuning, Random Forest classification without SMOTE was 94% using Hold-out data division and 96% using K-Fold cross validation data division. With Borderline-SMOTE1, the accuracy was 91% using Hold-out data division and 96% using K-Fold cross validation data division. With Borderline-SMOTE2, the accuracy was 92% using Hold-out data division and 96% using K-Fold cross validation data division.

ARABIC:

السكتة الدماغية هي مرض يصيب الأعصاب والدماغ وقد يؤدي إلى الشلل أو حتى الوفاة، وتُعدّ ثاني أكثر الأمراض فتكًا في العالم بعد أمراض القلب. يهدف هذا البحث إلى تصنيف مخاطر السكتة الدماغية بناءً على العوامل الطبية ونمط الحياة باستخدام نموذج Random Forest وتقنية الموازنة SMOTE.تم إجراء البحث من خلال تقسيم البيانات باستخدام طريقتي Holdout و K-Fold Cross Validation، بالإضافة إلى ضبط المعاملات قبل تصنيف البيانات العامة غير المتوازنة باستخدام نموذج Random Forest بدون SMOTE، ومع Borderline-SMOTE1، ومع Borderline-SMOTE2، ثم تحليل أداء النموذج.بلغ متوسط دقة التصنيف باستخدام Random Forest مع ضبط المعاملات بواسطة GridSearchCV وبدون SMOTE نسبة 94% باستخدام Holdout و96% باستخدام K-Fold Cross Validation. أما باستخدام Borderline-SMOTE1 فقد بلغت الدقة 91% مع Holdout و96% مع K-Fold Cross Validation. كما بلغت الدقة باستخدام Borderline-SMOTE2 نسبة 91% مع Holdout و96% مع .K-Fold Cross Validation وعند استخدام الضبط بواسطة RandomizedSearchCV، بلغ أداء نموذج Random Forest بدون SMOTE نسبة 94% باستخدام Holdout و96% باستخدام K-Fold Cross Validation. أما باستخدام Borderline-SMOTE1 فقد بلغت الدقة 91% مع Holdout و96% مع K-Fold Cross Validation، في حين بلغت باستخدام Borderline-SMOTE2 نسبة 92% مع Holdout و96% مع K-Fold Cross Validation.

Item Type: Thesis (Undergraduate)
Supervisor: Suhartono, Suhartono and Hariri, Fajar Rohman
Keywords: Strok; Klasifikasi; Random Forest; SMOTE; Stroke; Classification; Random Forest; SMOTE; ﺍﻟﺴﻜﺘﺔ ﺍﻟﺪﻣﺎﻏﻴ; ﺍﻟﺘﺼﻨﻴﻒ
Departement: Fakultas Sains dan Teknologi > Jurusan Teknik Informatika
Depositing User: Puja Attamimi
Date Deposited: 10 Dec 2025 08:53
Last Modified: 10 Dec 2025 08:53
URI: http://etheses.uin-malang.ac.id/id/eprint/81503

Downloads

Downloads per month over past year

Actions (login required)

View Item View Item