Adnan, M. Sayyidul (2026) Prediksi kesehatan mental menggunakan Machine Learning. Masters thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
|
Text (Fulltext)
230605210008.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. (4MB) |
Abstract
INDONESIA:
Tingginya prevalensi gangguan kesehatan mental di kalangan mahasiswa menegaskan pentingnya deteksi dini berbasis data. Penelitian ini mengevaluasi metode machine learning yang paling optimal untuk memprediksi risiko depresi mahasiswa berdasarkan performa klasifikasi dan efisiensi komputasi. Dataset yang digunakan adalah "Student Mental Health in a Multicultural Environment" dari lingkungan akademik Jepang, terdiri dari 27 fitur prediktor mencakup data demografis, kemampuan bahasa, keterlibatan keagamaan, riwayat ideasi bunuh diri, skor keterhubungan sosial (ToSC), tujuh subdimensi stres akulturatif (APD, AHome, APH, AFear, ACS, AGuilt, AMiscell), dukungan sosial, dan skor total PHQ-9 (ToDep), dengan variabel target status depresi mahasiswa (Dep: Yes/No) berdasarkan instrumen PHQ-9. Empat model tunggal (Logistic Regression/LR, SVM, Random Forest, XGBoost) dan dua model ensemble (Majority Voting dan Stacking) dievaluasi menggunakan 5-Fold Stratified Cross-Validation, Paired T-Test, dan lima metrik efisiensi komputasi: waktu training, waktu inferensi, RAM puncak, rata-rata CPU, dan Cyclomatic Complexity (CC), yang diintegrasikan dalam Skor Komposit berbasis normalisasi Min-Max dengan bobot setara pada sembilan dimensi. Ensemble Stacking mencapai akurasi sebesar 72,41% dan presisi sebesar 72,02%. Namun, Ensemble Stacking menunjukkan recall terendah sebesar 38,47%, akibat Conservative Bias. XGBoost menunjukkan kinerja yang lebih unggul dalam hal recall, dengan persentase 48,89%, dan dalam metrik F1-Score, mencapai skor 52,83%. Dalam hal efisiensi, LR menunjukkan tingkat efektivitas tertinggi, dengan waktu pelatihan 0,056 detik, penggunaan RAM 0,10 MB, penggunaan CPU 10%, dan CC = 3. Sebaliknya, Ensemble Stacking menunjukkan efisiensi yang jauh lebih rendah dibandingkan dengan semua model lainnya. Analisis menunjukkan bahwa, berdasarkan skor komposit, LR menunjukkan kinerja optimal (0,7181), sedangkan Ensemble Stacking menunjukkan kinerja yang paling tidak optimal (0,3172). LR direkomendasikan untuk diterapkan dalam pengaturan dengan sumber daya terbatas, sedangkan Ensemble Stacking disarankan untuk skrining klinis formal. Studi ini menyajikan kerangka evaluasi komprehensif yang selaras dengan misi Hifz an-Nafs dalam maqashid syariah.
ENGLISH:
The high prevalence of mental health disorders among college students underscores the importance of data-driven early detection. This study evaluates the most optimal machine learning method for predicting the risk of depression among college students based on classification performance and computational efficiency. The dataset used is “Student Mental Health in a Multicultural Environment” from a Japanese academic setting, consisting of 27 predictor features covering demographic data, language proficiency, religious engagement, history of suicidal ideation, social connectedness scores (ToSC), seven sub-dimensions of acculturative stress (APD, AHome, APH, AFear, ACS, AGuilt, AMiscell), social support, and total PHQ-9 scores (ToDep), with the target variable being the student’s depression status (Dep: Yes/No) based on the PHQ-9 instrument. Four single models (Logistic Regression/LR, SVM, Random Forest, XGBoost) and two ensemble models (Majority Voting and Stacking) were evaluated using 5-Fold Stratified Cross-Validation, Paired T-Test, and five computational efficiency metrics: training time, inference time, peak RAM, average CPU usage, and Cyclomatic Complexity (CC), which were integrated into a Min-Max normalized Composite Score with equal weights across the nine dimensions. Ensemble Stacking achieved an accuracy of 72.41% and a precision of 72.02%. However, Ensemble Stacking exhibited the lowest recall at 38.47%, due to Conservative Bias. XGBoost demonstrated superior performance in terms of recall, with a percentage of 48.89%, and in the F1-Score metric, achieving a score of 52.83%. In terms of efficiency, LR demonstrated the highest level of effectiveness, with a training time of 0.056 seconds, RAM usage of 0.10 MB, CPU usage of 10%, and CC = 3. Conversely, Ensemble Stacking showed significantly lower efficiency compared to all other models. Analysis shows that, based on the composite score, LR demonstrates optimal performance (0.7181), while Ensemble Stacking demonstrates the least optimal performance (0.3172). LR is recommended for implementation in resource-constrained settings, while Ensemble Stacking is recommended for formal clinical screening. This study presents a comprehensive evaluation framework aligned with the mission of Hifz an-Nafs within the maqashid al-sharia.
ARAB:
ارتفاع انتشار اضطرابات الصحة النفسية بين الطلاب يؤكد أهمية الكشف المبكر القائم على البيانات. تقيم هذه الدراسة طرق التعلم الآلي الأكثر فعالية للتنبؤ بمخاطر الاكتئاب لدى الطلاب بناءً على أداء التجميع وكفاءة الحوسبة. مجموعة البيانات المستخدمة هي "الصحة النفسية للطلاب في بيئة متعددة الثقافات" من البيئة الأكاديمية في اليابان، وتتكون من 27 ميزة تنبؤية تشمل البيانات الديموغرافية، مهارات اللغة، المشاركة الدينية، تاريخ التفكير الانتحاري، درجة التواصل الاجتماعي (ToSC)، سبعة أبعاد فرعية للتوتر الثقافي؛ التمرد الثقافي، العزلة الثقافية، الاغتراب عن الذات، العزلة الاجتماعية، غياب المعنى، غياب المعايير، والشعور بالعجز (APD، AHome، APH، AFear، ACS، AGuilt، Amiscell)، الدعم الاجتماعي، والمجموع الكلي لمقياس PHQ-9 (ToDep)، مع المتغير المستهدف وهو حالة الاكتئاب لدى الطلاب (اكتئاب: نعم أو لا) بناءً على أداة PHQ-9. تم تقييم أربعة نماذج فردية (الانحدار اللوجستي/LR، SVM، الغابة العشوائية، XGBoost) ونموذجين جماعيين (تصويت أغلبية وتراصي) باستخدام التحقق المتقاطع المتدرج ذو 5 طيات، واختبار ت المزدوج، وخمسة مقاييس لكفاءة الحوسبة: وقت التدريب، وقت الاستدلال، ذروة استخدام RAM، متوسط استخدام CPU، وتعقيد سيكلوماتي (CC)، والتي تم دمجها في فارق معياري يعتمد على التطبيع أقل-أعلى مع وزن متساوٍ على الأبعاد التسعة. حقق نموذج التجميع التراصي دقة بنسبة 72.41٪ وثبات بنسبة 72.02٪. ومع ذلك، أظهر هذا النموذج أدنى نسبة الاسترجاع بنسبة 38.47٪، نتيجة التحفظ في الانحياز. أظهر XGBoost أداءً أفضل من حيث الاسترجاع، بنسبة 48.89٪، وفي مقياس درجة ف1، حيث وصلت إلى 52.83٪. من حيث الكفاءة، أظهر الانحدار اللوجستي أعلى مستوى من الفعالية، مع وقت تدريب 0.056 ثانية. استخدام ذاكرة الوصول العشوائي 0,10 ميغابايت، واستخدام وحدة المعالجة المركزية 10٪، و CC = 3. على العكس من ذلك، يُظهر التجميع التراصي كفاءة أقل بكثير مقارنة بجميع النماذج الأخرى. تُظهر التحليلات أنه، بناءً على الفارق المعياري، يُظهر LR أداءً مثاليًا (0,7181)، بينما يُظهر التجميع التراصي أقل أداءً (0,3172). يُوصى بتطبيقLR في البيئات ذات الموارد المحدودة، بينما يُنصح بـالتجميع التراصي للفحص السريري الرسمي. قدمت هذه الدراسة إطار تقييم شامل يتماشى مع مهمة حفظ النفس في مقاصد الشريعة.
Downloads
Downloads per month over past year
Actions (login required)
![]() |
View Item |
