Wafiroh, Ni'matul (2024) Klasifikasi Kanker Serviks Menggunakan Metode Support Vector Machine Berbasis Principal Component Analysis. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
Text (Fulltext)
200605110006.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. Download (6MB) |
Abstract
INDONESIA:
Kanker serviks merupakan salah satu penyakit yang paling umum dan mematikan bagi perempuan di seluruh dunia, terutama di negara-negara berkembang. Untuk mengatasi masalah ini, pengembangan model klasifikasi berdasarkan data demografis, kebiasaan, dan riwayat medis menjadi penting. Penelitian ini menggunakan dataset Cervical cancer (Risk Factors) dari UCI Machine Learning, yang terdiri dari 32 faktor risiko dan 4 target kanker serviks. Fokus penelitian adalah pada klasifikasi kanker serviks menggunakan metode Support Vector Machine (SVM) berbasis Principal Component Analysis (PCA). Penelitian ini juga menerapkan teknik Synthetic Minority Over-sampling Technique (SMOTE) untuk menangani ketidakseimbangan kelas dalam dataset. SMOTE digunakan untuk memperbanyak sampel kelas minoritas secara sintetis sehingga setiap kelas memiliki jumlah data yang seimbang. Setelah penyeimbangan kelas dengan SMOTE, PCA diterapkan untuk mereduksi dimensi dataset dengan menyederhanakan dan menghilangkan fitur yang tidak relevan tanpa mengurangi informasi penting. Hasil penelitian menunjukkan bahwa kombinasi SMOTE dan PCA dengan SVM menghasilkan model klasifikasi yang lebih akurat dan stabil. Penggunaan PCA setelah SMOTE membantu dalam mengurangi overfitting, yang terlihat ketika PCA digunakan tanpa SMOTE. Kombinasi terbaik ditemukan dengan menggunakan SMOTE untuk penyeimbangan kelas dan SVM untuk klasifikasi, yang secara signifikan meningkatkan akurasi dan kemampuan generalisasi model. Penelitian ini berkontribusi pada pengembangan metode klasifikasi yang lebih efektif dan efisien untuk diagnosis kanker serviks, menekankan pentingnya penyeimbangan kelas dan pengurangan dimensi dalam meningkatkan kinerja model pembelajaran mesin.
ENGLISH:
Cervical cancer is one of the most common and deadly diseases for women throughout the world, especially in developing countries. To overcome this problem, the development of classification models based on demographic data, habits, and medical history is important. This research uses the Cervical Cancer (Risk Factors) dataset from UCI Machine Learning, which consists of 32 risk factors and 4 targets for cervical cancer. The focus of the research is on cervical cancer classification using the Support Vector Machine (SVM) method based on Principal Component Analysis (PCA). This research also applies the Synthetic Minority Over-sampling Technique (SMOTE) technique to handle class continuity in the dataset. SMOTE is used to synthetically increase minority class samples so that each class has a balanced amount of data. After class balancing with SMOTE, PCA is applied to reduce the dimensionality of the dataset with the help of and remove irrelevant features without reducing important information. The research results show that the combination of SMOTE and PCA with SVM produces a more accurate and stable classification model. The use of PCA after SMOTE helps in reducing overfitting, which is seen when PCA is used without SMOTE. The best combination was found to use SMOTE for class balancing and SVM for classification, which significantly improved the accuracy and generalization ability of the model. This research contributes to the development of more effective and efficient classification methods for cervical cancer diagnosis, the importance of class balancing and dimensionality reduction in improving the performance of machine learning models.
ARABIC:
يعد سرطان عنق الرحم أحد أكثر الأمراض شيوعًا وفتكًا بالنساء في جميع أنحاء العالم، وخاصة في البلدان النامية. للتغلب على هذه المشكلة، من المهم تطوير نماذج التصنيف بناءً على البيانات الديموغرافية والعادات والتاريخ الطبي. يستخدم هذا البحث مجموعة بيانات سرطان عنق الرحم عوامل الخطر من UCI Machine Learning، والتي تتكون من 32 عامل خطر و4 أهداف لسرطان عنق الرحم. ينصب تركيز البحث على تصنيف سرطان عنق الرحم باستخدام طريقة آلة ناقل الدعم SVM القائمة على تحليل المكونات الرئيسية PCA. يطبق هذا البحث أيضًا تقنية تقنية أخذ العينات الزائدة للأقليات الاصطناعية SMOTE للتعامل مع استمرارية الفصل في مجموعة البيانات. يتم استخدام SMOTE لزيادة عينات فئات الأقليات بشكل صناعي بحيث يكون لكل فئة كمية متوازنة من البيانات. بعد موازنة الفئة مع SMOTE، يتم تطبيق PCA لتقليل أبعاد مجموعة البيانات بمساعدة وإزالة الميزات غير ذات الصلة دون تقليل المعلومات المهمة. تظهر نتائج البحث أن الجمع بين SMOTE وPCA مع SVM ينتج تصنيفًا أكثر دقة واستقرارًا للنماذج. يساعد استخدام PCA بعد SMOTE في تقليل التجهيز الزائد، وهو ما يظهر عند استخدام PCA بدون SMOTE. تم العثور على أفضل مزيج لاستخدام SMOTE لموازنة الفئة وSVM للتصنيف، مما أدى إلى تحسين دقة النموذج وقدرته على التعميم بشكل كبير. يساهم هذا البحث في تطوير طرق تصنيف أكثر فعالية وكفاءة لتشخيص سرطان عنق الرحم، وأهمية التوازن الطبقي وتقليل الأبعاد في تحسين أداء نماذج التعلم الآلي
Item Type: | Thesis (Undergraduate) |
---|---|
Supervisor: | Suhartono, Suhartono and Melani, Roro Inda |
Keywords: | Klasifikasi Kanker Serviks; Support Vector Machine; Principal Analysis Component; Classification Cervical Cancer; Support Vector Machine; Principal Analysis Component; تصنيف سرطان عنق الرحم; جهاز ناقل الدعم; مكون التحليل الرئيسي |
Subjects: | 08 INFORMATION AND COMPUTING SCIENCES > 0801 Artificial Intelligence and Image Processing > 080109 Pattern Recognition and Data Mining |
Departement: | Fakultas Sains dan Teknologi > Jurusan Teknik Informatika |
Depositing User: | Ni'matul Wafiroh |
Date Deposited: | 30 Jul 2024 13:27 |
Last Modified: | 06 Aug 2024 14:15 |
URI: | http://etheses.uin-malang.ac.id/id/eprint/66086 |
Downloads
Downloads per month over past year
Actions (login required)
View Item |