Ulya, Diah Mariatul (2026) Evaluasi kinerja algoritma regresi logistik menggunakan oversampling smote untuk analisis sentimen ulasan pengguna aplikasi mobile JKN. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
|
Text (Fulltext)
220601110002.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. (8MB) |
Abstract
Abstrak:
Penelitian ini membahas penerapan algoritma Regresi Logistik dalam klasifikasi sentimen berbasis teks serta pengaruh penggunaan Synthetic Minority Over-sampling Technique (SMOTE) pada data dengan distribusi kelas tidak seimbang. Data yang digunakan berupa kumpulan ulasan pengguna aplikasi Mobile JKN yang diperoleh dari Google Play Store melalui proses pengumpulan data web scraping, kemudian dilakukan pelabelan sentimen untuk keperluan analisis. Pendekatan penelitian dilakukan melalui pengolahan data teks dan pembentukan fitur numerik, kemudian model klasifikasi dilatih pada kondisi tanpa SMOTE dan dengan SMOTE untuk dibandingkan kinerjanya. Evaluasi performa model dilakukan menggunakan metrik klasifikasi umum serta dianalisis melalui pola learning curve untuk melihat dinamika pembelajaran model. Hasil penelitian menunjukkan bahwa perbedaan performa akhir antara model tanpa SMOTE dan dengan SMOTE secara numerik relatif kecil, sehingga peningkatan yang diperoleh bersifat moderat. Meskipun demikian, analisis learning curve memperlihatkan bahwa model dengan SMOTE menghasilkan pola pembelajaran yang lebih stabil, memiliki fluktuasi performa yang lebih rendah, serta menunjukkan konvergensi yang lebih konsisten seiring bertambahnya ukuran data latih dibandingkan model tanpa SMOTE. Temuan ini menunjukkan bahwa kontribusi utama SMOTE tidak terletak pada peningkatan nilai metrik secara signifikan, melainkan pada perbaikan stabilitas dan proses pembelajaran model dalam menangani data teks yang tidak seimbang.
Abstract:
This study examines the application of the Regresi Logistik algorithm in text-based sentiment classification and analyzes the effect of the Synthetic Minority Over-sampling Technique (SMOTE) on datasets with imbalanced class distributions. The dataset consists of user reviews of the Mobile JKN application collected from the Google Play Store through a web scraping process, followed by sentiment labeling for analytical purposes. The research methodology involves text preprocessing and numerical feature representation, after which classification models are trained under two conditions: without SMOTE and with SMOTE, to enable performance comparison. Model performance is evaluated using standard classification metrics and further analyzed through learning curve patterns to observe the dynamics of the learning process. The experimental results indicate that the numerical difference in final performance between models without SMOTE and with SMOTE is relatively small, resulting in only moderate performance improvement. Nevertheless, the learning curve analysis demonstrates that the model trained with SMOTE exhibits a more stable learning pattern, lower performance fluctuation, and more consistent convergence as the training data size increases compared to the model without SMOTE. These findings suggest that the primary contribution of SMOTE lies not in significantly boosting evaluation metrics, but in improving the stability and learning process of the model when handling imbalanced text data.
مستخلص البحث:
يهدف هذا البحث إلى دراسة تطبيق خوارزمية الانحدار اللوجستي في تحليل المشاعر النصية، وكذلك تحليل تأثير استخدام تقنية SMOTE على البيانات ذات التوزيع غير المتوازن. استخدمت الدراسة بيانات تعليقات مستخدمي تطبيق Mobile JKN التي تم جمعها من متجر Google Play من خلال أسلوب WebScraping ، ثم جرى تصنيفها إلى فئات مشاعر لغرض التحليل. تم تنفيذ منهجية البحث عبر مراحل المعالجة المسبقة للنصوص، وبناء تمثيل عددي للبيانات باستخدام TF-IDF ، ثم تدريب نموذج الانحدار اللوجستي في حالتين، الأولى بدون استخدام SMOTE ، والثانية باستخدامها، وذلك لمقارنة أداء النموذجين. أظهرت نتائج البحث أن الفارق في الأداء النهائي بين النموذجين كان محدودًا نسبيًا، حيث لم يحقق استخدام SMOTE زيادة كبيرة في قيم مقاييس الأداء. ومع ذلك، أوضح تحليل منحنى التعلم أن النموذج المدعوم بتقنية SMOTE يتمتع بدرجة أعلى من الاستقرار وتقارب أكثر اتساقًا مع زيادة حجم بيانات التدريب مقارنة بالنموذج بدون SMOTE. وتشير هذه النتائج إلى أن الدور الأساسي لتقنية SMOTE يتمثل في تحسين استقرار عملية التعلم والتعامل مع عدم توازن البيانات، وليس في تحقيق ارتفاع كبير في قيم مقاييس الأداء النهائية.
| Item Type: | Thesis (Undergraduate) |
|---|---|
| Supervisor: | Jamhuri, Mohammad and Herawati, Erna |
| Keywords: | Sentiment Analysis; Logistic Regression; SMOTE; TF-IDF; Mobile JKN Analisis Sentimen; Regresi Logistik; SMOTE; TF-IDF; Mobile JKN تليل املشاعر; االحندار ; SMOTE ; TF-IDF; Mobile JKN |
| Subjects: | 01 MATHEMATICAL SCIENCES > 0103 Numerical and Computational mathematics > 010399 Numerical and Computational Mathematics not elsewhere classified 01 MATHEMATICAL SCIENCES > 0104 Statistics > 010404 Probability Theory 08 INFORMATION AND COMPUTING SCIENCES > 0802 Computation Theory and Mathematics > 080204 Mathematical Software 08 INFORMATION AND COMPUTING SCIENCES > 0803 Computer Software > 080308 Programming Languages |
| Departement: | Fakultas Sains dan Teknologi > Jurusan Matematika |
| Depositing User: | Diah Mariatul Ulya |
| Date Deposited: | 06 Apr 2026 13:48 |
| Last Modified: | 06 Apr 2026 13:48 |
| URI: | http://etheses.uin-malang.ac.id/id/eprint/83691 |
Downloads
Downloads per month over past year
Actions (login required)
![]() |
View Item |
