Husna, Hida Muhimmatul (2023) Klasifikasi penyakit kanker paru-paru berdasarkan faktor risiko menggunakan metode k-means. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
|
Text (Fulltext)
18650115.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. Download (3MB) | Preview |
Abstract
Indonesia:
Penyakit kanker paru merupakan penyakit mematikan yang memiliki faktor risiko yang beragam. Faktor risiko yang terkait, diantaranya seperti riwayat merokok, paparan zat berbahaya, dan riwayat keluarga. Banyak orang yang terdiagnosis kanker paru terlambat mencari bantuan dikarenakan tidak menyadari gejala yang dialaminya, karena pada stadium awal sering terjadi tanpa gejala. Berdasarkan permasalahan tersebut, pada penelitian ini dilakukan pengklasifikasian penyakit kanker paru berdasarkan faktor risiko, dengan tujuan dapat membantu dalam diagnosis dini dan perencanaan perawatan yang tepat. Data yang digunakan diperoleh dari sistus data.world, datanya berisikan dataset pasien kanker paru berjumlah 1000 sampel, dan memiliki 22 atribut. Data ini dianalisis dengan menggunakan metode K-Means, merupakan metode pengelompokan yang populer dalam analisis data. Data diolah dari langkah mengubah tipe data kategori menjadi numerik, memisahkan data training dan data testing dengan 3 rasio perbandingan, 90:10, 80:20, dan 70:30, kemudian implementasi metode K-Means untuk klasifikasi. Untuk pengujian performa metode dalam melakukan klasifikasi dilakukan pengukuran evaluasi dengan memanfaatkan confusion matrix, untuk mendapatakan nilai accuracy, precision, dan recall. Hasil analisis menunjukkan bahwa pada rasio 90:10 dengan data yang digunakan untuk pengujian berjumlah 1000 data, menghasilkan nilai performa yang paling baik. Diperoleh nilai accuracy sebesar 73%, precision sebesar 73.61%, dan recall sebesar 73.51%.
English:
Lung cancer is a deadly disease with various risk factors. Some of the associated risk factors include smoking history, exposure to harmful substances, and family history. Many people diagnosed with lung cancer seek help late because they are unaware of the symptoms, as early-stage lung cancer often occurs without noticeable symptoms. Based on this problem, this research aims to classify lung cancer based on risk factors to assist in early diagnosis and appropriate treatment planning. The data used was obtained from the data.world dataset, consisting of 1000 samples of lung cancer patients with 22 attributes. The data was analyzed using the K-Means method, which is a popular clustering method in data analysis. The data was processed by converting categorical data into numerical data, separating the data into training and testing sets using three different ratios: 90:10, 80:20, and 70:30, and implementing the K-Means method for classification. The performance of the method in classification was evaluated using the confusion matrix to obtain accuracy, precision, and recall values. The analysis results showed that the 90:10 ratio with a dataset of 1000 samples used for testing yielded the best performance. The accuracy was found to be 73%, precision 73.61%, and recall 73.51%.
Arabic:
مرض سرطان الرئة هو مرض قاتل يحمل عوامل خطر متنوعة. تشمل هذه العوامل تاريخ التدخين السابق، والتعرض للمواد الضارة، وتاريخ الأمراض في العائلة. العديد من الأشخاص الذين يتم تشخيصهم بسرطان الرئة يتأخرون في طلب المساعدة بسبب عدم إدراكهم للأعراض التي يعانون منها، حيث يحدث ذلك في المراحل المبكرة دون أعراض واضحة. استنادًا إلى هذه المشكلة، تم إجراء هذه الدراسة لتصنيف سرطان الرئة بناءً على العوامل الخطرية، بهدف المساعدة في التشخيص المبكر والتخطيط للعلاج المناسب. تم الحصول على البيانات المستخدمة من منصة data.world ، وتحتوي هذه البيانات على مجموعة من مرضى سرطان الرئة يبلغ عددهم 1000 عينة، وتحتوي على 22 سمة. تم تحليل هذه البيانات باستخدام طريقة K-Means ، وهي طريقة شهيرة لتجميع البيانات. تم معالجة البيانات بتحويل البيانات الفئوية إلى بيانات رقمية، وتقسيم بيانات التدريب والاختبار باستخدام ثلاثة نسب مختلفة: 90:10، 80:20، و 70:30، ثم تم تنفيذ طريقة K-Means للتصنيف. تم قياس أداء الطريقة في التصنيف من خلال استخدام مصفوفة الارتباك (confusion matrix) للحصول على قيم الدقة، الدقة الاستدلالية، والاستدعاء. أظهرت نتائج التحليل أن النسبة 90:10 مع استخدام 1000 عينة للاختبار أعطت أف تظهر نتائج التحليل أن النسبة 90:10 ببيانات الاختبار المستخدمة التي تبلغ 1000 عينة أعطت أفضل أداء. تم الحصول على نسبة دقة بلغت 73%، دقة استدلالية بلغت 73.61%، واستدعاء بلغت 73.51%.
Item Type: | Thesis (Undergraduate) |
---|---|
Supervisor: | Aziz, Okta Qomaruddin and Crysdian, Cahyo |
Keywords: | Klasifikasi; Kanker Paru; K-Means Classification; Lung Cancer; K-Means التصنيف، سرطان الرئة،K-Means |
Subjects: | 08 INFORMATION AND COMPUTING SCIENCES > 0899 Other Information and Computing Sciences > 089999 Information and Computing Sciences not elsewhere classified |
Departement: | Fakultas Sains dan Teknologi > Jurusan Teknik Informatika |
Depositing User: | Hida Muhimmatul Husna |
Date Deposited: | 07 Aug 2023 13:33 |
Last Modified: | 07 Aug 2023 13:33 |
URI: | http://etheses.uin-malang.ac.id/id/eprint/52493 |
Downloads
Downloads per month over past year
Actions (login required)
View Item |