Responsive Banner

Reduksi imbalanced data diagnosa hipertensi dengan Tomek Links pada regresi logistik

Fachreza, Putri Aulia (2025) Reduksi imbalanced data diagnosa hipertensi dengan Tomek Links pada regresi logistik. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.

[img]
Preview
Text (Fulltext)
210601110043.pdf - Accepted Version
Available under License Creative Commons Attribution Non-commercial No Derivatives.

(4MB) | Preview

Abstract

INDONESIA:
Masalah imbalanced data seringkali menghambat akurasi dalam proses klasifikasi, terutama dalam kasus diagnosis hipertensi, di mana jumlah data kelas minoritas jauh lebih sedikit dibandingkan kelas mayoritas. Penelitian ini bertujuan untuk membangun model regresi logistik yang akurat dengan mengatasi ketidakseimbangan data menggunakan metode Tomek Links. Metode ini bekerja dengan menghapus pasangan data terdekat dari kelas berbeda untuk mereduksi noise dan memperbaiki distribusi data. Setelah dilakukan undersampling dengan Tomek Links, model regresi logistik dibentuk dengan pendekatan Maximum Likelihood Estimation melalui metode iteratif Newton-Raphson. Evaluasi model dilakukan melalui pengujian multikolinearitas, uji signifikansi parameter, uji kesesuaian model, dan pengukuran ketepatan klasifikasi berdasarkan nilai Apparent Error Rate (APER). Hasil penelitian menunjukkan bahwa variabel jenis kelamin, konsumsi gula berlebih, lemak berlebih, dan usia secara signifikan memengaruhi kemungkinan seseorang menderita hipertensi. Model akhir menghasilkan tingkat akurasi sebesar 89,5%. Penelitian ini menunjukkan bahwa kombinasi metode Tomek Links dan regresi logistik dapat menjadi pendekatan efektif dalam menangani imbalanced data pada diagnosa hipertensi.

ENGLISH:
The problem of imbalanced data often hampers accuracy in the classification process, especially in the case of hypertension diagnosis, where the amount of minority class data is much less than the majority class. This study aims to build an accurate logistic regression model by overcoming data imbalance using the Tomek Links method. This method works by removing the closest pair of data from different classes to reduce noise and improve data distribution. After undersampling with Tomek Links, a logistic regression model is formed using the Maximum Likelihood Estimation approach through the Newton-Raphson iterative method. Model evaluation was conducted through multicollinearity testing, parameter significance testing, model fit testing, and measurement of classification accuracy based on Apparent Error Rate (APER) values. The results showed that the variables of gender, excess sugar consumption, excess fat, and age significantly influenced the likelihood of a person suffering from hypertension. The final model produced an accuracy rate of 89,5%. This study shows that the combination of Tomek Links method and logistic regression can be an effective approach in handling imbalanced data in hypertension diagnosis.

ARABIC:
إن مشكلة البيانات غير المتوازنة غالبا ما تعيق الدقة في عملية التصنيف، وخاصة في حالة تشخيص ارتفاع ضغط الدم، حيث يكون عدد المصابين (فئة الأقلية) أقل بكثير من عدد غير المصابين (فئة الأغلبية). هدفت هذه الدراسة إلى بناء نموذج انحدار لوجستي ثنائي دقيق من خلال التغلب على اختلال توازن البيانات باستخدام طريقة .Tomek Links عملت هذه الطريقة عن طريق إزالة أقرب زوج من البيانات من فئات مختلفة لتقليل الضوضاء وتحسين توزيع البيانات. بعد أخذ العينات الناقصة باستخدام روابط توميك، تم تشكيل نموذج الانحدار اللوجستي باستخدام نهج تقدير الاحتمالية القصوى من خلال طريقة نيوتن-رافسون التكرارية. تم إجراء تقييم النموذج من خلال اختبار التعدد الخطي، واختبار أهمية المعلمات، واختبار ملاءمة النموذج، وقياس دقة التصنيف بناءً على قيم معدل الخطأ الظاهري .(APER) وأظهرت النتائج أن متغيرات الضغط الانقباضي والضغط الانبساطي أثرت بشكل كبير على احتمالية إصابة الشخص بارتفاع ضغط الدم. حقق النموذج النهائي معدل دقة قدره ٨٩،٥%، مما يشير إلى تحسن أداء التصنيف بعد تقليل البيانات باستخدام .Tomek Links ظهرت هذه الدراسة أن الجمع بين روابط توميك وطريقة الانحدار اللوجستي يمكن أن يكون نهجًا فعالًا في التعامل مع البيانات غير المتوازنة في تشخيص ارتفاع ضغط الدم

Item Type: Thesis (Undergraduate)
Supervisor: Karisma, Ria Dhea Layla Nur and Herawati, Erna
Keywords: Klasifikasi; Imbalanced Data; Tomek Links; Regresi Logistik; Hipertensi; Classification; Imbalanced Data; Tomek Links; Logistic Regression; Hypertension; التصنيف؛ البيانات غير المتوازنة؛ روابط تومِك؛ الانحدار اللوجستي؛ ارتفاع ضغط الدم
Departement: Fakultas Sains dan Teknologi > Jurusan Matematika
Depositing User: Putri Aulia Fachreza
Date Deposited: 15 Jul 2025 09:36
Last Modified: 15 Jul 2025 09:36
URI: http://etheses.uin-malang.ac.id/id/eprint/76426

Downloads

Downloads per month over past year

Actions (login required)

View Item View Item