Ameliya, Dhea Putri (2026) Implementasi wang's boosted support vector machine pada klasifikasi pasien kanker paru-paru berdasarkan faktor resiko. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
|
Text (Fulltext)
220601110070.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. (1MB) |
Abstract
INDONESIA:
Imbalanced data sering ditemukan pada klasifikasi data medis dan dapat menurunkan kinerja model, terutama pada kelas minoritas. Selain itu, keberadaan missing value pada data juga dapat memengaruhi hasil klasifikasi. Penelitian ini menggunakan metode Wang’s Boosted Support Vector Machine (WBSVM) yang menggabungkan Support Vector Machine (SVM), teknik boosting, dan asymmetric misclassification cost yang memberikan bobot lebih besar pada kesalahan klasifikasi kelas minoritas. Missing value dianalisis menggunakan uji Chi-Square dan Mann-Whitney yang menunjukkan mekanisme Missing Completely At Random (MCAR), sehingga ditangani dengan metode imputasi modus. Data yang digunakan merupakan data rekam medis pasien kanker paru-paru di RSUD Karsa Husada Batu tahun 2020–2025 dengan variabel usia, jenis kelamin, status merokok, komorbiditas, riwayat keluarga, dan stadium kanker. Tahapan penelitian meliputi preprocessing data dan stratified sampling menggunakan 5-fold cross validation yang diterapkan karena ukuran data relatif kecil. Pada setiap iterasi, data dibagi menjadi 64% data training, 16% data validation, dan 20% data testing. Model dibangun menggunakan kernel linier dengan parameter lambda = 1, C = 1, dan jumlah iterasi M = 40. Hasil penelitian menunjukkan bahwa model menghasilkan nilai G-mean sebesar 0.5864 yang menunjukkan performa klasifikasi model dalam membedakan kelas positif dan kelas negatif pada data yang tidak seimbang.
ENGLISH:
Imbalanced data is commonly found in medical classification tasks and can reduce model performance, particularly on the minority class. In addition, the presence of missing values in the data may also affect classification results. This study applies Wang’s Boosted Support Vector Machine (WBSVM), which combines Support Vector Machine (SVM), boosting techniques, and asymmetric misclassification cost to assign higher penalties to minority class misclassification. Missing values were analyzed using the Chi-Square and Mann-Whitney tests, indicating a Missing Completely At Random (MCAR) mechanism, and were therefore handled using mode imputation. The dataset consists of lung cancer patient medical records from RSUD Karsa Husada Batu for the period 2020–2025, with variables including age, gender, smoking status, comorbidities, family history, and cancer stage. The research procedure includes data preprocessing and stratified sampling using 5-fold cross validation, which is applied due to the relatively small dataset size. In each iteration, the data is split into 64% training, 16% validation, and 20% testing. The model is built using a linear kernel with parameters lambda = 1, C = 1, and M = 40 iterations. The results show that the model achieves a G-mean value of 0.5864, indicating its ability to distinguish between positive and negative classes in imbalanced data.
ARABIC:
تُعد مشكلة عدم توازن البيانات من المشكلات الشائعة في تصنيف البيانات الطبية، والتي قد تؤدي إلى انخفاض أداء النماذج، خاصةً في الفئة الأقلية. إضافةً إلى ذلك، فإن وجود القيم المفقودة في البيانات قد يؤثر أيضًا على نتائج التصنيف. وللتغلب على هذه المشكلة، استخدمت هذه الدراسة طريقة Wang’s Boosted Support Vector Machine (WBSVM) التي تجمع بين Support Vector Machine (SVM) وتقنيات الـ Boosting وAsymmetric Misclassification Cost، حيث تم إعطاء عقوبات أكبر لأخطاء تصنيف فئة الأقلية. تم تحليل القيم المفقودة باستخدام اختبار Chi-SquareواختبارMann-Whitney، مما أظهر أن آلية الفقد هي Missing Completely At Random (MCAR)، ولذلك تمت معالجتها باستخدام طريقة Mode Imputation. كبَتَ البيانات المستخدمة من السجلات الطبية لمرضى سرطان الرئة في مستشفى RSUD Karsa Husada Batu خلال الفترة ٢٠٢٠–٢٠٢٥، وتشمل المتغيرات: العمر، الجنس، حالة التدخين، الأمراض المصاحبة، التاريخ العائلي، ومرحلة السرطان. شملت إجراءات البحث Preprocessing Data و Stratified Sampling باستخدام ٥-Fold Cross Validation نظرًا لصغر حجم البيانات نسبيًا، حيث تم في كل تكرار تقسيم البيانات إلى ٦٤٪ بيانات تدريب، و١٦٪ بيانات تحقق، و٢٠٪ بيانات اختبار. تم بناء النموذج باستخدام Linear Kernel مع المعاملات \lambda = ١ و C = ١ وعدد التكرارات M = ٤٠، وأظهرت النتائج أن النموذج حقق قيمة G-Mean قدرها ٠٫٥٨٦٤، مما يشير إلى قدرة النموذج على التمييز بين الفئتين الإيجابية والسلبية في البيانات غير المتوازنة.
| Item Type: | Thesis (Undergraduate) |
|---|---|
| Supervisor: | Karisma, Ria Dhea Layla Nur and Juhari, Juhari |
| Keywords: | Data Imbalanced; Kanker Paru-Paru; Klasifikasi; Missing Value; WBSVM; Imbalanced Data; Lung Cancer; Classification; Missing Value; WBSVM; البيانات غير المتوازنة; القيم المفقودة، سرطان الرئة; التصنيف; WBSVM |
| Subjects: | 01 MATHEMATICAL SCIENCES > 0104 Statistics > 010401 Applied Statistics |
| Departement: | Fakultas Sains dan Teknologi > Jurusan Matematika |
| Depositing User: | Dhea Putri Ameliya |
| Date Deposited: | 17 Jun 2026 10:59 |
| Last Modified: | 17 Jun 2026 10:59 |
| URI: | http://etheses.uin-malang.ac.id/id/eprint/85376 |
Downloads
Downloads per month over past year
Actions (login required)
![]() |
View Item |
