Putra, Kurniawan Tri (2023) Analisis Feature Extraction pada Text Processing untuk Analisis Sentimen. Masters thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
|
Text (Fulltext)
200605210019.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. Download (1MB) | Preview |
Abstract
ABSTRAK
Seiring pesatnya kemajuan perkembangan zaman mendorong peralihan digitalisasi, paling signifikan kita bisa rasakan sekarang ini adalah dalam bidang media sosial. Dengan banyaknya jumlah pengguna maka semakin banyak pula data yang tersimpan serta pemanfaatan yang paling tepat dan optimal adalah tuntutan yang harus terslesaikan. Dalam permasalahan tersebut langkah yang paling tepat adalah melakukan pemanfaatan data untuk tujuan analisis sentimen dengan membandingkan kinerja teknik GloVe dan FastText beracuan hasil accuracy, precision, recall dan F1-score serta pengaruh terhadap implementasi dari keduanya. Hasil menunjukkan bahwa teknik FastText mencapai kinerja lebih unggul dibandingkan dengan GloVe, dengan accuracy 85% dan precision 87%, sedangkan GloVe hanya mencapai 83% dan 85% secara berturut-turut. Meskipun recall model FastText hanya sedikit lebih tinggi, namun nilai F1-score yang mencapai 87% menunjukkan keseimbangan yang baik antara ketepatan dan keberhasilan dalam menemukan informasi. Selain itu, terdapat beberapa permasalahan dalam penerapan teknik feature extraction untuk analisis sentimen yaitu ukuran korpus teks yang besar, ketidakseimbangan kelas, dan sensitivitas Support Vector Machine terhadap skala fitur. Solusinya seperti subset data, oversampling/undersampling, dan normalisasi fitur dipergunakan untuk meningkatkan kinerja dan kehandalan model. Kesimpulan akhir dari penelitian ini mendukung penggunaan teknik FastText sebagai pendekatan yang lebih efektif dalam melakukan analisis sentimen dibandingkan dengan teknik GloVe.
ABSTRACT
Since the rapid development of the era encourages the transition of digitalization, the most significant change we can feel today is social media. With the large number of users, the more data are stored. Therefore, the most appropriate and optimal utilization become demands that must be resolved. To tackle this problem, the most appropriate step is using data for sentiment analysis purposes by comparing the performance of GloVe and FastText techniques based on the results of accuracy, precision, recall and F1-score as well as the effect on the implementation of both. The results showed that the FastText technique achieved superior performance compared to GloVe, with 85% accuracy and 87% precision. Meanwhile, GloVe only reached 83% and 85% respectively. Although the FastText model recall is only slightly higher, the F1-score, which is 87%, shows a good balance between accuracy and success in finding information. In addition, there are several problems in the application of feature extraction techniques for sentiment analysis that is the large size of the text corpus, class imbalances, and the sensitivity of the Support Vector Machine to feature scales. As the solutions, subsets of data, oversampling/undersampling, and normalization of features are used to improve the model performance and reliability. The final conclusion of this study supports the use of the FastText technique as a more effective approach in conducting sentiment analysis compared to the GloVe technique.
مستخلص البحث
نظرا لأن التقدم السريع في العصر يشجع على الانتقال إلى الرقمنة، فإن أهم ما يمكن أن نشعر به الآن هو في مجال وسائل التواصل الاجتماعي. مع العدد الكبير من المستخدمين، يتم تخزين المزيد من البيانات والاستخدام الأنسب والأمثل هو مطلب يجب حله. في هذه المشكلة، فإن الخطوة الأنسب هي استخدام البيانات لأغراض تحليل المشاعر من خلال مقارنة أداء تقنية GloVe وFastText بناء على نتائج الدقة والثبات والاستدعاء ودرجة ف١ بالإضافة إلى التأثير على تنفيذ كليهما. أظهرت النتائج أن تقنية نص سريع حققت أداء فائقا مقارنة بقفاز، بدقة ٨٥% وثبات ٨٧%، بينما حققت قفاز على ٨٣% و٨٥% فقط على التوالي. على الرغم من أن استدعاء نموذج نص سريع أعلى قليلا فقط، إلا أن درجة ف١ البالغة ٨٧% تحقق توازنا جيدا بين الدقة والنجاح في العثور على المعلومات. بالإضافة إلى ذلك، هناك العديد من المشكلات في تطبيق تقنيات استخراج الميزات لتحليل المشاعر، وهي الحجم الكبير لمجموعة النص، وعدم التوازن الطبقي، وحساسية آلة المنتجة الداعم لمقياس الميزات. يتم استخدام حلول مثل بيانات المجموعة الفرعية، وأخذ العينات الزائدة / الناقصة، وتطبيع الميزات لتحسين أداء النموذج وموثوقيته. يدعم الاستنتاج النهائي لهذا البحث استخدام تقنية FastText كنهج أكثر فعالية في إجراء تحليل المشاعر مقارنة بتقنية GloVe.
Item Type: | Thesis (Masters) |
---|---|
Supervisor: | Hariyadi, M. Amin and Crysdian, Cahyo |
Keywords: | Kata kunci : Analisis Sentimen, Feature Extraction, Glove, Fasttext, Support Vector Machine Keywords: Sentiment Analysis, Feature Extraction, Glove, Fast text, Support Vector Machine الكلمات الرئيسية: تحليل المشاعر، استخراج الميزة، Glove، Fasttext، آلة المنتجة الداعم. |
Subjects: | 08 INFORMATION AND COMPUTING SCIENCES > 0801 Artificial Intelligence and Image Processing > 080107 Natural Language Processing |
Departement: | Fakultas Sains dan Teknologi > Jurusan Magister Tehnik Informatika |
Depositing User: | KURNIAWAN TRI PUTRA |
Date Deposited: | 03 Jan 2024 08:37 |
Last Modified: | 15 Nov 2024 09:25 |
URI: | http://etheses.uin-malang.ac.id/id/eprint/60018 |
Downloads
Downloads per month over past year
Actions (login required)
View Item |