Responsive Banner

Klasifikasi infeksi HIV menggunakan integrasi principal component analysis dan support vector machine

Prasetyo, Gigih Agung (2025) Klasifikasi infeksi HIV menggunakan integrasi principal component analysis dan support vector machine. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.

[img] Text (Fulltext)
210605110138.pdf - Accepted Version
Available under License Creative Commons Attribution Non-commercial No Derivatives.

Download (2MB)

Abstract

INDONESIA:

Penelitian ini membahas klasifikasi infeksi HIV dengan pendekatan integratif antara Principal Component Analysis (PCA) dan Support Vector Machine (SVM). Permasalahan utama dalam klasifikasi infeksi HIV terletak pada tingginya kompleksitas data medis, yang sering kali terdiri dari banyak fitur dengan skala yang berbeda dan tingkat korelasi tinggi. Tujuan dari penelitian ini adalah untuk mereduksi dimensi data menggunakan PCA guna mengekstraksi fitur paling informatif, lalu mengklasifikasikannya menggunakan SVM agar diperoleh hasil klasifikasi yang akurat dan efisien. Penelitian ini menggunakan dataset “AIDS Virus Infection” dari AIDS Clinical Trials Group Study 175 yang terdiri dari 2.139 data pasien dan 23 fitur. Tahapan penelitian meliputi normalisasi data, reduksi dimensi dengan PCA, pelatihan dan pengujian model dengan SVM menggunakan kernel RBF, serta evaluasi hasil menggunakan confusion matrix. Evaluasi dilakukan dengan tiga rasio pembagian data (90:10, 80:20, 70:30) dan menghasilkan nilai akurasi tertinggi pada skenario 1 dengan rata-rata akurasi 80.92%, precision 83.24%, recall 77.82%, dan F1-score 80.32%. Hasil penelitian menunjukkan bahwa kombinasi PCA dan SVM dapat mengklasifikasikan infeksi HIV secara efektif dan efisien, serta dapat dijadikan sebagai referensi dalam pengembangan sistem deteksi penyakit berbasis machine learning.

ENGLISH:

This research addresses the classification of HIV infection using an integrative approach between Principal Component Analysis (PCA) and Support Vector Machine (SVM). The main problem in HIV infection classification lies in the high complexity of medical data, which often consists of many features with different scales and high levels of correlation. The purpose of this study is to reduce the dimensionality of the data using PCA to extract the most informative features, and then classify them using SVM to obtain accurate and efficient classification results. This study uses the “AIDS Virus Infection” dataset from AIDS Clinical Trials Group Study 175 which consists of 2,139 patient data and 23 features. The research stages include data normalization, dimension reduction with PCA, training and model testing with SVM using RBF kernel, and evaluation of results using confusion matrix. The evaluation was conducted with three data sharing ratios (90:10, 80:20, 70:30) and resulted in the highest accuracy value in scenario 1 with an average accuracy of 80.92%, precision 83.24%, recall 77.82%, and F1-score 80.32%. The results show that the combination of PCA and SVM can classify HIV infection effectively and efficiently, and can be used as a reference in the development of machine learning-based disease detection systems.

ARABIC:

تناقش هذه الدراسة تصنيف عدوى فيروس نقص المناعة البشرية باستخدام نهج تكاملي بين تحليل المكونات الرئيسية (PCA) وآلة الدعم المتجه (SVM). تكمن المشكلة الرئيسية في تصنيف الإصابة بفيروس نقص المناعة البشرية في التعقيد الكبير للبيانات الطبية، والتي تتكون في كثير من الأحيان من العديد من الميزات ذات المقاييس المختلفة ومستويات الارتباط العالية. الهدف من هذه الدراسة هو تقليل أبعاد البيانات باستخدام PCA لاستخراج الميزات الأكثر إفادة، ثم تصنيفها باستخدام SVM للحصول على نتائج تصنيف دقيقة وفعالة. استخدمت هذه الدراسة مجموعة بيانات "عدوى فيروس الإيدز" من دراسة مجموعة التجارب السريرية للإيدز رقم 175 والتي تتكون من 2139 بيانات مريض و23 سمة. تتضمن مراحل البحث تطبيع البيانات، وتقليل الأبعاد باستخدام PCA، وتدريب النموذج واختباره باستخدام SVM باستخدام نواة RBF، وتقييم النتائج باستخدام مصفوفة الارتباك. تم إجراء التقييم باستخدام ثلاث نسب لمشاركة البيانات (90:10، 80:20، 70:30) وأنتج أعلى قيمة دقة في السيناريو 1 بمتوسط دقة 80.92٪، ودقة 83.24٪، واسترجاع 77.82٪، ونتيجة F1 80.32٪. وتظهر نتائج الدراسة أن الجمع بين تحليل المكونات الرئيسية وتقنية SVM يمكن أن يصنف عدوى فيروس نقص المناعة البشرية بشكل فعال وكفء، ويمكن استخدامه كمرجع في تطوير نظام الكشف عن الأمراض القائم على التعلم الآلي.

Item Type: Thesis (Undergraduate)
Supervisor: Almais, Agung Teguh Wibowo and Chamidy, Totok
Keywords: HIV; Klasifikasi; PCA; SVM; HIV; Classification; PCA; SVM; فيروس نقص المناعة البشرية; التصنيف; تحليل المكونات الرئيسية; آلية الدعم المتجهي
Departement: Fakultas Sains dan Teknologi > Jurusan Teknik Informatika
Depositing User: Gigih Agung Prasetyo
Date Deposited: 03 Jun 2025 08:48
Last Modified: 03 Jun 2025 08:48
URI: http://etheses.uin-malang.ac.id/id/eprint/75169

Downloads

Downloads per month over past year

Actions (login required)

View Item View Item