Nazemi, Mohammad Alfi Masykur (2023) Optimasi hyperparameter menggunakan gridsearchcv pada K-Nearest Neighbor Classifier untuk klasifikasi kanker payudara. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
|
Text (Fulltext)
19650006.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. Download (2MB) | Preview |
Abstract
INDONESIA:
Kanker payudara merupakan salah satu jenis kanker yang menyumbangkan angka kematian terbesar di dunia. Setidaknya mengacu pada data Global Cancer Observatory pada tahun 2020 hampir 10 juta kasus kematian yang diakibatkan oleh kanker payudara di dunia. Di Indonesia penyakit ini menjadi penyumbang kematian pertama dengan kasus kematian pada tahun 2020 mencapai lebih dari 22 ribu kasus kematian. Melihat jumlah kematian yang disebabkan oleh kanker payudara, dianggap sebagai ancaman besar bagi dunia medis. Salah satu cara untuk menekan angka kematian tersebut adalah dengan cara deteksi dini sel kanker, karena sel kanker dapat dideteksi lebih awal. Adanya deteksi sejak dini merupakan kunci utama untuk meningkatkan kemungkinan kelangsungan hidup, mengurangi dampak penyakit, dan meningkatkan standar hidup bagi mereka yang menderita kanker payudara. Penelitian ini memanfaatkan algoritma machine learning untuk memprediksi sel kanker dengan cepat dan efisien. Tujuan penelitian ini untuk mengetahui performa model K-Nearest Neighbor dalam mengklasifikasi penyakit kanker payudara pada dataset Wisconsin Diagnostic Breast Cancer (WDBC). Sebelumnya data melalui proses preprocessing data yang meliputi seleksi fitur, proses encoder, standrization data serta split data. Pada penelitian ini split data terbagi menjadi 3 model, yaitu model A dengan perbandingan 80% data training: 20% data testing, model B dengan perbandingan 70% data training: 30% data testing, model C dengan perbandingan 60% data training: 40% data testing. Selanjutnya, pada masing-masing pembagian model tersebut akan dilakukan perbandingan antara model K-Nearest Neighbor tanpa adanya penyetelan hyperparameter atau secara default dengan model K-Nearest Neighbor dengan penyetelan hyperparameter menggunakan GridSearchCV untuk mencari nilai parameter yang optimal serta dievaluasi menggunakan confusion matrix. Pada penelitian ini didapatkan nilai akurasi terbaik pada model B dengan nilai akurasi tanpa adanya penyetelan hyperparameter sebesar 94.7% sedangkan dengan adanya penyetelan hyperparameter nilai akurasi sebesar 97.6% dengan menggunakan Euclidean distance sebagai metode perhitungan jarak.
ENGLISH:
Breast cancer is one type of cancer that contributes to the largest mortality rate in the world. At least referring to Global Cancer Observatory data in 2020 almost 10 million cases of death caused by breast cancer in the world. In Indonesia, this disease became the first contributor to death with death cases in 2020, reaching more than 22 thousand cases of death. Looking at the number of deaths caused by breast cancer, it is considered a major threat to the medical world. One way to reduce the mortality rate is by early detection of cancer cells because cancer cells can be detected early. Early detection is key to increasing the chances of survival, reducing the impact of disease, and improving the standard of living for those with breast cancer. The research leverages machine learning algorithms to predict cancer cells quickly and efficiently. The purpose of this study was to determine the performance of the K-Nearest Neighbor model in classifying breast cancer in the Wisconsin Diagnostic Breast Cancer (WDBC) dataset. Previously, data went through a data preprocessing process which included feature selection, encoder process, data standrization and data split. In this study, split data is divided into 3 models, namely model A with a ratio of 80% training data: 20% testing data, model B with a ratio of 70% training data: 30% testing data, model C with a ratio of 60% training data: 40% testing data. Furthermore, in each of these model divisions, a comparison will be made between the K-Nearest Neighbor model without hyperparameter adjustment or by default with the K-Nearest Neighbor model with hyperparameter adjustment using GridSearchCV to find optimal parameter values and evaluated using a confusion matrix. In this study, the best accuracy value was obtained in model B with an accuracy value without hyperparameter adjustment of 94.7%, while with hyperparameter adjustment, an accuracy value of 97.6% was obtained using Euclidean distance as a distance calculation method.
ARABIC:
كانسر الثدي هو نوع من السرطان الذي يساهم في أكبر معدل وفيات في العالم. على الأقل بالإشارة إلى بيانات المرصد العالمي للسرطان، في عام ٢٠٢٠ كان هناك ما يقرب من ١٠ ملايين حالة وفاة بسبب سرطان الثدي في العالم. وفي إندونيسيا، يعد هذا المرض المساهم الأول في الوفيات، حيث وصلت الوفيات عام ٢٠٢٠ إلى أكثر من ٢٢ ألف حالة وفاة. ونظرًا لعدد الوفيات الناجمة عن سرطان الثدي، فهو يعتبر تهديدًا كبيرًا لعالم الطب. إحدى الطرق لتقليل معدل الوفيات هي الكشف المبكر عن الخلايا السرطانية، لأنه يمكن اكتشاف الخلايا السرطانية في وقت مبكر. فالكشف المبكر هو المفتاح الأساسي لزيادة فرص البقاء على قيد الحياة، وتقليل تأثير المرض، وتحسين المستوى المعيشي لمن يعانين من سرطان الثدي. تستفيد هذه الدراسة من خوارزمية تعلم الآلة لتوقع الخلايا السرطانية بسرعة وكفاءة. هدف هذه الدراسة هو تقييم أداء نموذج الجار الأقرب K-Nearest Neighbor في تصنيف مرض سرطان الثدي باستخدام مجموعة البيانات Wisconsin Diagnostic Breast Cancer (WDBC). تم معالجة البيانات مسبقاً من خلال عمليات تجهيز البيانات، بما في ذلك اختيار الميزات، وعمليات الترميز، وتوحيد البيانات، وتقسيم البيانات. في هذه الدراسة تم تقسيم البيانات المقسمة إلى ٣ نماذج وهي النموذج (أ) بنسبة ٨٠٪ بيانات تدريب: ٢٠٪ بيانات اختبار، النموذج (ب) بنسبة ٧٠٪ بيانات تدريب: ٣٠٪ بيانات اختبار، النموذج (ج) بنسبة ٦٠٪ من بيانات التدريب: ٤٠٪ من بيانات الاختبار. بعد ذلك، لكل قسم نموذج، سيتم إجراء مقارنة بين نموذج K-Nearest Neighbor بدون إعدادات المعلمة الفائقة أو بشكل افتراضي مع نموذج K-Nearest Neighbor مع إعدادات المعلمة الفائقة باستخدام GridSearchCV للعثور على قيم المعلمة المثالية وتقييمها باستخدام الارتباك مصفوفة. في هذا البحث تم الحصول على أفضل قيمة دقة في النموذج (ب) بقيمة دقة بدون تعديلات المعلمة الفائقة بنسبة ٩٤.٧٪، بينما مع تعديلات المعلمة الفائقة كانت قيمة الدقة ٩٧.٦٪ باستخدام المسافة الإقليدية كطريقة لحساب المسافة.
Item Type: | Thesis (Undergraduate) |
---|---|
Supervisor: | Suhartono, Suhartono and Hariri, Fajar Rohman |
Keywords: | GridSearchCV; Hyperparameter; K-Nearest Neighbor Classifier; Klasifikasi Kanker Payudara; Breast Cancer Classification; GridSearchCV; Hyperparameter; K-Nearest Neighbor Classifier; المعلمة الفائقة; GridSearchCV; K-Nearest Neighbor; تصنيف سرطان الثدي |
Subjects: | 17 PSYCHOLOGY AND COGNITIVE SCIENCES > 1702 Cognitive Sciences > 170203 Knowledge Representation and Machine Learning |
Departement: | Fakultas Sains dan Teknologi > Jurusan Teknik Informatika |
Depositing User: | Mohammad Alfi Masykur Nazemi |
Date Deposited: | 22 Dec 2023 14:17 |
Last Modified: | 22 Dec 2023 14:28 |
URI: | http://etheses.uin-malang.ac.id/id/eprint/58883 |
Downloads
Downloads per month over past year
Actions (login required)
View Item |