Pranata, Farahnas Imaniyah (2026) Evaluasi seleksi fitur dan oversampling pada LGORITMA Support Vector Machine untuk analisis sentimen terhadap review perplexity di google play store. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
|
Text (Fulltext)
220601110067.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. (1MB) |
Abstract
INDONESIA:
Penelitian ini membahas analisis sentimen terhadap ulasan pengguna aplikasi Perplexity di Google Play Store menggunakan algoritma Support Vector Machine (SVM). Permasalahan dalam penelitian ini adalah ketidakseimbangan data sentimen, di mana jumlah ulasan positif jauh lebih banyak dibandingkan ulasan negatif dan netral sehingga berpotensi menyebabkan model klasifikasi menjadi bias terhadap kelas mayoritas. Penelitian ini bertujuan untuk menganalisis kinerja algoritma SVM serta mengetahui pengaruh penerapan seleksi fitur Chi-Square dan oversampling SMOTE terhadap hasil klasifikasi sentimen. Data yang digunakan berupa 3.305 ulasan pengguna aplikasi Perplexity berbahasa Indonesia yang diperoleh melalui proses web scraping. Tahapan penelitian meliputi preprocessing (case folding, cleaning, tokenizing, stopwords removal, dan stemming), pembobotan TF-IDF, seleksi fitur menggunakan Chi-Square, serta penyeimbangan data menggunakan SMOTE. Dataset dibagi menjadi data training dan testing dengan perbandingan 70:30. Model dibangun menggunakan SVM kernel linier dengan parameter C=0,5 dan dievaluasi menggunakan confusion matrix, akurasi, presisi, recall, F1-score, serta 5-fold cross validation. Hasil penelitian menunjukkan bahwa model SVM tanpa penanganan data tidak seimbang memperoleh akurasi sebesar 91,03%, namun masih memiliki kemampuan rendah dalam mengenali kelas minoritas. Setelah diterapkan Chi-Square dan SMOTE, recall kelas negatif meningkat dari 21,05% menjadi 73,68% dan recall kelas netral meningkat dari 33,33% menjadi 83,33%. Selain itu, SVM menunjukkan performa terbaik dibandingkan KNN dan Naive Bayes dengan akurasi sebesar 90%. Berdasarkan hasil tersebut, penerapan Chi-Square dan SMOTE mampu meningkatkan keseimbangan performa model dalam klasifikasi sentimen.
ENGLISH:
This study examines sentiment analysis of user reviews for the Perplexity app on the Google Play Store using the Support Vector Machine (SVM) algorithm. The challenge in this study is the imbalance in sentiment data, where the number of positive reviews far exceeds that of negative and neutral reviews, potentially causing the classification model to be biased toward the majority class. This study aims to analyze the performance of the SVM algorithm and to determine the effect of applying Chi-Square feature selection and SMOTE oversampling on sentiment classification results. The data used consists of 3,305 Indonesian-language user reviews of the Perplexity app obtained through web scraping. The research stages include preprocessing (case folding, cleaning, tokenization, stopword removal, and stemming), TF-IDF weighting, feature selection using Chi-Square, and data balancing using SMOTE. The dataset was divided into training and testing sets in a 70:30 ratio. The model was built using a linear SVM kernel with a C parameter of 0.5 and evaluated using a confusion matrix, accuracy, precision, recall, F1-score, and 5-fold cross-validation. The results of the study show that the SVM model without imbalanced data handling achieved an accuracy of 91.03%, but still had poor performance in recognizing the minority class. After applying Chi-Square and SMOTE, the negative class recall increased from 21.05% to 73.68%, and the neutral class recall increased from 33.33% to 83.33%. Furthermore, SVM demonstrated the best performance compared to KNN and Naive Bayes, with an accuracy of 90%. Based on these results, the application of Chi-Square and SMOTE was able to improve the model’s performance balance in sentiment classification.
ARABIC:
ناقست هذه الدراسة تحليل المشاعر لمراجعات المستخدمين لتطبيق Perplexity على متجر Google Play باستخدام خوارزمية Support Vector Machine (SVM)). المشكلة في هذه الدراسة هي عدم توازن بيانات المشاعر، حيث يكون عدد المراجعات الإيجابية أعلى بكثير من المراجعات السلبية والمحايدة، مما قد يؤدي إلى تحيز نموذج التصنيف لصالح الطبقة الغالبة. تهدف هذه الدراسة إلى تحليل أداء خوارزمية SVM وتحديد تأثير تطبيق اختيار ميزات Chi-Square وأخذ عينات SMOTE الزائدة على نتائج تصنيف المشاعر. كانت البيانات المستخدمة في شكل 3,305 مراجعة للمستخدمين لتطبيق Perplexity باللغة الإندونيسية تم الحصول عليها من خلال عملية جمع البيانات عبر الويب. تشمل مراحل البحث المعالجة المسبقة (طي الحافظة، التنظيف، الترميز، إزالة الكلمات المؤقتة، والتأصل)، ووزن TF-IDF، واختيار الميزات باستخدام Chi-Square، وموازنة البيانات باستخدام SMOTE. تم تقسيم مجموعة البيانات إلى بيانات تدريب واختبار بنسبة 70:30. تم بناء النموذج باستخدام SVM خطي للنواة بمعامل C=0.5 وتم تقييمه باستخدام مصفوفة الالتباس، الدقة، الدقة، الاسترجاع، درجة F1، والتحقق المتقاطع الخماسي من الخلف. أظهرت النتائج أن نموذج SVM بدون معالجة بيانات غير متوازنة حصل على دقة بلغت 91.03٪، لكنه لا يزال يتمتع بقدرة منخفضة على التعرف على فئات الأقليات. بعد تطبيق كاي-سكوير وSMOTE، ارتفع استدعاء الفئة السلبية من 21.05٪ إلى 73.68٪، وارتفع استدعاء الفئة المحايدة من 33.33٪ إلى 83.33٪. بالإضافة إلى ذلك، يقدم SVM أفضل أداء مقارنة ب KNN وNaive Bayes بدقة 90٪. استنادا إلى هذه النتائج، تمكن تطبيق Chi-Square وSMOTE من تحسين توازن أداء النموذج في تصنيف المشاعر.
| Item Type: | Thesis (Undergraduate) |
|---|---|
| Supervisor: | Fahmi, Hisyam and Nashichuddin, Achmad |
| Keywords: | Analisis Sentimen; Support Vector Macine; SMOTE; Chi-Square; TF-IDF. Sentiment Analysis; الكلمات الأساسية: تحليل المشاعر; متجه الدعم ماكين; SMOTE; تشي-سكوير، TF-IDF. |
| Subjects: | 08 INFORMATION AND COMPUTING SCIENCES > 0801 Artificial Intelligence and Image Processing > 080107 Natural Language Processing |
| Departement: | Fakultas Sains dan Teknologi > Jurusan Matematika |
| Depositing User: | Farahnas Imaniyah Pranata |
| Date Deposited: | 24 Jun 2026 13:08 |
| Last Modified: | 24 Jun 2026 13:08 |
| URI: | http://etheses.uin-malang.ac.id/id/eprint/86448 |
Downloads
Downloads per month over past year
Actions (login required)
![]() |
View Item |
