Christianto, Yudhi (2025) Klasifikasi tingkat literasi digital menggunakan model SVM dan LSTM dengan ekstraksi fitur TF-IDF dan Bert Embedding. Masters thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
|
Text (Fulltext)
220605210005.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. (6MB) |
Abstract
INDONESIA
Perkembangan teknologi digital yang pesat menuntut masyarakat memiliki tingkat literasi digital yang memadai, khususnya dalam kemampuan mengakses, memahami, mengevaluasi, dan memanfaatkan informasi secara kritis. Namun pengklasifikasian tingkat literasi digital yang dilakukan secara manual cenderung tidak efisien dan sulit diterapkan pada data berskala besar, oleh karena itu diperlukan pendekatan otomatis berbasis Natural Language Processing (NLP) untuk mendukung pengukuran secara objektif dan sistematis, penelitian ini bertujuan untuk mengembangkan serta membandingkan kinerja empat skenario model klasifikasi tingkat literasi digital, yaitu Support Vector Machine (SVM) dan Long Short-Term Memory (LSTM) yang masing-masing dikombinasikan dengan metode ekstraksi fitur TF-IDF dan BERT Embedding. Tahapan penelitian meliputi preprocessing teks, ekstraksi fitur, pelatihan model, serta evaluasi menggunakan skema K-Fold Cross Validation (k = 10) dan uji signifikansi statistik paired t-test, hasil penelitian menunjukkan bahwa kombinasi algoritma dan representasi fitur berpengaruh signifikan terhadap performa model, model LSTM dengan BERT Embedding menghasilkan performa terbaik dengan rata-rata accuracy 87.59% dan f1-score 87.52%, lebih unggul dibandingkan SVM dengan TF-IDF yang memperoleh accuracy 79.43% dan f1-score 79.45%. Uji paired t-test menunjukkan perbedaan yang signifikan secara t-statistic sebesar 10.0793 dengan p-value 0.000003 (p < 0.05), temuan ini menegaskan bahwa model LSTM dan BERT Embedding secara signifikan unggul dibandingkan SVM + TF-IDF dalam melakukan klasifikasi tingkat literasi digital.
ENGLISH
The rapid development of digital technology requires society to possess an adequate level of digital literacy, particularly in the ability to access, understand, evaluate, and critically utilize information. However, the manual classification of digital literacy levels tends to be inefficient and difficult to apply to large-scale data. Therefore, an automated approach based on Natural Language Processing (NLP) is needed to support objective and systematic measurement. This study aims to develop and compare the performance of four digital literacy classification model scenarios, namely Support Vector Machine (SVM) and Long Short-Term Memory (LSTM), each combined with TF-IDF and BERT Embedding feature extraction methods. The research stages include text preprocessing, feature extraction, model training, and evaluation using K-Fold Cross-Validation (k = 10) and a paired t-test for statistical significance. The results indicate that the combination of algorithms and feature representations significantly affects model performance. The LSTM model with BERT Embedding achieves the best performance, with an average accuracy of 87.59% and an F1-score of 87.52%, outperforming SVM with TF-IDF, which achieves an accuracy of 79.43% and an F1-score of 79.45%. The paired t-test results show a statistically significant difference, with a t-statistic of 10.0793 and a p-value of 0.000003 (p < 0.05). These findings confirm that the LSTM model with BERT Embedding significantly outperforms SVM with TF-IDF in classifying digital literacy levels.
ARABIC
يتطلب التطور السريع للتكنولوجيا الرقمية من المجتمع أن يمتلك مستوى كافٍ من الثقافة الرقمية، وخاصة في القدرة على الوصول إلى المعلومات وفهمها وتقييمها واستخدامها بشكل نقدي. ومع ذلك، فإن تصنيف مستوى الثقافة الرقمية الذي يتم يدويًا يميل إلى أن يكون غير فعال ويصعب تطبيقه على البيانات واسعة النطاق، لذلك هناك حاجة إلى مدخل آلي قائم على معالجة اللغة الطبيعية (NLP) لدعم القياس بشكل موضوعي ومنهجي. يهدف هذا البحث إلى تطوير ومقارنة أداء أربعة سيناريوهات لنماذج تصنيف مستوى الثقافة الرقمية، وهي آلة المتجه الداعم (SVM) و ذاكرة طويلة وقصيرة المدى (LSTM) التي تم دمج كل منها مع طرق استخراج الميزات TF-IDF و
BERT Embedding. تشمل مراحل البحث معالجة النصوص المسبقة، واستخراج الميزات، وتدريب النماذج، وتقييمها باستخدام مخطط K-Fold Cross Validation (k = 10) واختبار الدلالة الإحصائية باستخدام اختبار ت المزدوج. أظهرت نتائج البحث أن مزيج الخوارزمية وتمثيل الميزات يؤثر بشكل كبير على أداء النموذج، حيث أنتج نموذج LSTM مع تضمين BERT أفضل أداء بمعدل دقة متوسط بلغ 87.59% ودرجة ف1 بمقدار 87.52%، متفوقًا مقارنةً بـ SVM مع TF-IDF الذي حصل على دقة 79.43% ودرجة ف1 بمقدار 79.45%. أظهر اختبار ت المزدوج فرقًا معنويًا إحصائيًا بقيمة ت تبلغ 10.0793 مع قيمة ف تساوي 0.000003 (ف <0.05)، أكدت هذه النتائج أن نموذج LSTM مع تضمين BERT يتفوق بشكل كبير مقارنةً بـ SVM وTF-IDF في تصنيف مستوى الثقافة الرقمية.
| Item Type: | Thesis (Masters) |
|---|---|
| Supervisor: | Crysdian, Cahyo and Abidin, Zainal |
| Keywords: | Analisis Teks; Klasifikasi, Literasi Digital; Long Short-Term Memory (LSTM); Machine Learning; Support Vector Machine (SVM); Text Analysis; Classification; Digital Literacy; Long Short-Term Memory (LSTM), Machine Learning; Support Vector Machine (SVM); الكلمات الرئيسية: تحليل نصوص، تصنيف، ثقافة رقمية، ذاكرة طويلة وقصيرة مدى (LSTM)، تعلم آلي، آلة المتجه الداعم (SVM). |
| Subjects: | 08 INFORMATION AND COMPUTING SCIENCES > 0801 Artificial Intelligence and Image Processing > 080107 Natural Language Processing |
| Departement: | Fakultas Sains dan Teknologi > Jurusan Magister Tehnik Informatika |
| Depositing User: | Yudhi Christianto |
| Date Deposited: | 29 Dec 2025 10:01 |
| Last Modified: | 29 Dec 2025 10:01 |
| URI: | http://etheses.uin-malang.ac.id/id/eprint/82057 |
Downloads
Downloads per month over past year
Actions (login required)
![]() |
View Item |
