Responsive Banner

Klasifikasi sentimen komentar publik di YouTube tentang Kecerdasan Buatan (AI) dalam pendidikan menggunakan BERT dan IndoRoBERTa

Alallah, Muhammad Mutawakkil (2026) Klasifikasi sentimen komentar publik di YouTube tentang Kecerdasan Buatan (AI) dalam pendidikan menggunakan BERT dan IndoRoBERTa. Masters thesis, Universitas Islam Negeri Maulana Malik Ibrahim.

[img]
Preview
Text (Fulltext)
240605220005.pdf - Accepted Version
Available under License Creative Commons Attribution Non-commercial No Derivatives.

(3MB) | Preview

Abstract

ABSTRAK

Meningkatnya penggunaan media sosial dalam penyampaian opini publik terkait kecerdasan buatan (AI) di bidang pendidikan mendorong kebutuhan akan metode otomatis untuk klasifikasi sentimen yang lebih sistematis dan akurat. Penelitian ini bertujuan untuk mengklasifikasikan sentimen komentar publik berbahasa Indonesia pada platform YouTube ke dalam tiga kategori, yaitu positif, netral, dan negatif, menggunakan model BERT dan IndoRoBERTa. Data dikumpulkan menggunakan YouTube Data API dengan pendekatan keyword-based crawling pada periode Agustus 2020 hingga Desember 2025. Setelah proses validasi, dilakukan pelabelan manual terhadap 10.834 komentar yang berasal dari 167 video dan 145 kanal YouTube. Tahap pre-processing meliputi case folding, cleaning, stopword removal, penghapusan data duplikat, filtering topik, serta penanganan data teks sehingga diperoleh 4.726 data yang digunakan dalam eksperimen. Proses tokenization dilakukan menggunakan WordPiece Tokenizer pada BERT dan Byte Pair Encoding (BPE) pada IndoRoBERTa untuk menyesuaikan representasi teks masing-masing model. Pengujian dilakukan melalui skenario baseline tanpa fine-tuning dan skenario fine-tuning dengan pembagian data 70:15:15, 80:10:10, dan 90:5:5 serta penerapan class weight untuk mengatasi ketidakseimbangan kelas. Hasil penelitian menunjukkan bahwa kedua model mengalami peningkatan performa setelah fine-tuning, dengan IndoRoBERTa secara konsisten memberikan hasil yang lebih baik dibandingkan BERT pada sebagian besar skenario pengujian. Secara keseluruhan, penelitian ini menunjukkan bahwa pendekatan berbasis Transformer efektif digunakan untuk klasifikasi sentimen komentar publik berbahasa Indonesia pada topik kecerdasan buatan dalam pendidikan.

ABSTRACT

The increasing use of social media as a medium for expressing public opinions regarding Artificial Intelligence (AI) in education has created a need for systematic and accurate automated sentiment classification methods. This study aims to classify public comments in Indonesian language on YouTube into three categories, namely positive, neutral, and negative, using BERT and IndoRoBERTa models. Data were collected using the YouTube Data API through a keyword-based crawling approach from August 2020 to December 2025. After validation, manual labeling was conducted on 10,834 comments obtained from 167 videos and 145 YouTube channels. The preprocessing stage included case folding, cleaning, stopword removal, duplicate elimination, topic filtering, and text handling, resulting in 4,726 data samples used for experiments. Tokenization was performed using WordPiece Tokenizer for BERT and Byte Pair Encoding (BPE) for IndoRoBERTa to adapt text representation to each model. Experiments were conducted using a baseline scenario without fine-tuning and fine-tuning scenarios with data splits of 70:15:15, 80:10:10, and 90:5:5, along with class weight implementation to address class imbalance. The results show that both models improved after fine-tuning, with IndoRoBERTa consistently outperforming BERT in most experimental settings. Overall, the study demonstrates that Transformer-based approaches are effective for sentiment classification of Indonesian-language public comments on AI in education.

الملخص

إن الاستخدام المتزايد لوسائل التواصل الاجتماعي كوسيلة للتعبير عن آراء الجمهور حول الذكاء الاصطناعي في مجال التعليم أدى إلى الحاجة إلى أساليب آلية دقيقة ومنهجية لتصنيف المشاعر. تهدف هذه الدراسة إلى تصنيف تعليقات الجمهور باللغة الإندونيسية على منصة يوتيوب إلى ثلاث فئات هي: إيجابية ومحايدة وسلبية باستخدام نموذجي BERT و IndoRoBERTa. تم جمع البيانات باستخدام واجهة برمجة تطبيقات يوتيوب (YouTube Data API) من خلال أسلوب الزحف المعتمد على الكلمات المفتاحية خلال الفترة من أغسطس 2020 إلى ديسمبر 2025. وبعد عملية التحقق، تم إجراء التصنيف اليدوي على 10,834 تعليقاً مأخوذة من 167 فيديو و145 قناة على يوتيوب. شملت مرحلة المعالجة المسبقة تطبيع النصوص (case folding)، والتنظيف، وإزالة الكلمات الشائعة، وحذف البيانات المكررة، وتصفية الموضوع، ومعالجة النصوص، مما أدى إلى الحصول على 4,726 عينة مستخدمة في التجارب. تم تنفيذ عملية الترميز باستخدام WordPiece Tokenizer في نموذج BERT و Byte Pair Encoding (BPE) في نموذج IndoRoBERTa لملاءمة تمثيل النص مع كل نموذج. أُجريت التجارب باستخدام سيناريو أساسي بدون ضبط دقيق (fine-tuning) وسيناريوهات مع الضبط الدقيق بتقسيمات بيانات 70:15:15 و80:10:10 و90:5:5، مع استخدام أوزان الفئات لمعالجة عدم توازن البيانات. أظهرت النتائج أن كلا النموذجين حققا تحسناً بعد الضبط الدقيق، مع تفوق IndoRoBERTa بشكل مستمر على BERT في معظم الإعدادات التجريبية. وبشكل عام، تثبت الدراسة أن الأساليب المعتمدة على نماذج Transformer فعالة في تصنيف مشاعر تعليقات الجمهور باللغة الإندونيسية حول الذكاء الاصطناعي في التعليم.

Item Type: Thesis (Masters)
Supervisor: Hariyadi, Mokhamad Amin and Supriyatno, Triyo
Keywords: Klasifikasi Sentimen, BERT, IndoRoBERTa, YouTube, Kecerdasan Buatan Sentiment Classification, BERT, IndoRoBERTa, YouTube, Artificial Intelligence تصنيف المشاعر، BERT، IndoRoBERTa، يوتيوب، الذكاء الاصطناعي
Subjects: 08 INFORMATION AND COMPUTING SCIENCES > 0801 Artificial Intelligence and Image Processing > 080107 Natural Language Processing
Departement: Fakultas Sains dan Teknologi > Jurusan Magister Tehnik Informatika
Depositing User: Muhammad Mutawakkil Alallah
Date Deposited: 01 Jul 2026 14:38
Last Modified: 01 Jul 2026 14:38
URI: http://etheses.uin-malang.ac.id/id/eprint/88325

Downloads

Downloads per month over past year

Actions (login required)

View Item View Item