Mufiddin, Rifqi (2023) Klasifikasi kanker payudara menggunakan metode random forest. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
|
Text (Fulltext)
19650004.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. Download (4MB) | Preview |
Abstract
INDONESIA:
Kanker payudara adalah salah satu jenis kanker yang paling umum di kalangan wanita di seluruh dunia. Diagnosis dini dan pengobatan yang tepat sangat penting dalam meningkatkan tingkat kelangsungan hidup pasien. Banyak orang yang terlambat menyadari terkena kanker payudara dan baru menyadarinya disaat sudah tingkat stadium III dan IV. Penelitian ini memanfaatkan salah satu algoritma supervised learning yaitu random forest pada paket caret yang tersedia pada bahasa pemrograman R. Tujuan penelitian ini untuk mengetahui performa random forest dalam mengklasifikasi kanker payudara berdasarkan Breast Cancer Wisconsin (Diagnostic) Dataset dan menghasilkan model yang dapat mengetahui apakah seseorang mengidap kanker payudara jinak atau ganas. Data diolah menggunakan teknik preprocessing dengan 2 tahapan yaitu data cleaning dan data exploration, serta dilakukan pembagian data menjadi 4 bagian, yaitu model A dengan perbandingan 90% data train : 10% data test, model B dengan perbandingan 80% data train : 20% data test, model C dengan perbandingan 75% data train : 25% data test, dan model D dengan perbandingan 70% data train : 30% data test. Pada penelitian ini, terdapat pengujian dengan menggunakan random forest secara default dengan data yang tidak dinormalisasi dan random forest yang telah di-tuning memakai teknik grid search dengan data yang telah dinormalisasi. Didapatkan hasil terbaik pada model C yang telah dinormalisasi dan di tuning dengan perbandingan data train 75% dan 25 % data uji menghasilkan nilai akurasi tertinggi sebesar 98.59% yang dikategorikan sangat baik. Serta penggunaan repeated 10-fold cross validation dengan 3 kali pengulangan pada masing-masing model yang di-tuning didapatkan jumlah mtry terbaik yaitu 2.
ENGLISH:
Breast cancer is one of the most common types of cancer among women worldwide. Early diagnosis and appropriate treatment are very important in increasing the patient's survival rate. Many people are late in realizing they have breast cancer and only realize it when they are at stages III and IV. This study utilizes one of the supervised learning algorithms, namely random forest in the caret package available in the R programming language. The purpose of this study is to determine the performance of a random forest in classifying breast cancer based on the Wisconsin Breast Cancer Dataset (Diagnostic) and to produce a model that can determine whether a person has benign or malignant breast cancer. The data is processed using preprocessing techniques with 2 stages, namely data cleaning and data exploration, and the data is divided into 4 parts, namely model A with a ratio of 90% data train: 10% data test, model B with a comparison of 80% data train: 20% data test, model C with a ratio of 75% data train: 25% test data, and model D with a ratio of 70% data train: 30% test data. In this study, there is a test using a random forest by default with non-normalized data and a random forest that has been tuned using a grid search technique with normalized data. The best results were obtained in the normalized and tuned C model with a ratio of 75% train data and 25% test data resulting in the highest accuracy value of 98.59% which is categorized as very good. As well as using repeated 10-fold cross-validation with 3 repetitions for each tuned model, the best number of mtry is 2.
ARABIC:
سرطان الثدي أحد من أنواع السرطانات شيوعًا بين النساء في جميع العالم. التشخيص المبكر والعلاج المناسب مهمان
زيادة معدل بقاء حياة المريض. كثير من الناس يتأخرون في إدراك أنهم مصابون بسرطان الثدي وأدركت عندما كانت في المرحلة الثالثة والرابعة. يستخدم هذا البحث إحدى خوارزميات التعلم الخاضعة يعني الغابة العشوائية في حزمة الإقحام المتوفرة بلغة البرمجة R. هذا البحث يهدف لتصنيف سرطان الثدي من Breast Cancer Wisconsin (Diagnostic) Dataset. وتحتصل النموذج لمعرفة ما إذا كان الشخص مصابًا بسرطان الثدي الحميد أو الخبيث. البيانات المعالجة باستخدام preprocessing بمرحلتين، هما تنظيف البيانات واستكشاف البيانات وتقسيم البيانات إلى 4 أجزاء، النموذج أ بالمقارنة ۹۰% مجموعة البيانات ۱۰% بيانات الاختبار، النموذج ب بالمقارنة ٨۰% مجموعة البيانات ۲۰% بيانات الاختبار، النموذج ج بالمقارنة ۷۵% مجموعة البيانات ٢۵% بيانات الاختبار، النموذج د بالمقارنة ۷۰% مجموعة البيانات ٣۰% بيانات الاختبار.في هذا البحث، يوجد اختبار يستخدم غابة عشوائية افتراضيًا مع بيانات غير طبيعية وغابة عشوائية مضبوطة باستخدام تقنية grid search مع البيانات الطبيعية. نتائج هذا البحث تحتصل أفضل النموذج يعني النموذج "ج" مع البيانات الطبيعية بالمقارنة ۷۵% مجموعة البيانات ٢۵% بيانات الاختبار ينتج أعلى قيمة دقة تبلغ ۹٨،۵۹% مع معايير جيد جدا. واستخدام repeated 10-fold cross validation مع ٣ تكريرات لكل نموذج مضبوط، فإن أفضل عدد من المرات هو 2.
Item Type: | Thesis (Undergraduate) |
---|---|
Supervisor: | Suhartono, Suhartono and Almais, Agung Teguh Wibowo |
Keywords: | Klasifikasi Kanker Payudara;Random forest;Normalisasi;Classification Of Breast Cancer;Random forest;Data Scaling;تصنيف سرطان الثدي;غابة عشوائية;تحجيم البيانات |
Subjects: | 08 INFORMATION AND COMPUTING SCIENCES > 0801 Artificial Intelligence and Image Processing > 080102 Artificial Life 08 INFORMATION AND COMPUTING SCIENCES > 0801 Artificial Intelligence and Image Processing > 080109 Pattern Recognition and Data Mining 08 INFORMATION AND COMPUTING SCIENCES > 0803 Computer Software > 080301 Bioinformatics Software |
Departement: | Fakultas Sains dan Teknologi > Jurusan Teknik Informatika |
Depositing User: | Rifqi Mufiddin |
Date Deposited: | 07 Jul 2023 10:31 |
Last Modified: | 07 Jul 2023 10:31 |
URI: | http://etheses.uin-malang.ac.id/id/eprint/51975 |
Downloads
Downloads per month over past year
Actions (login required)
View Item |