Juhaeda, Zul Iflah Al (2024) Klasifikasi sentimen ujaran kebencian terhadap agama Islam pada platform Twitter menggunakan Multinomial Naive Bayes. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
![]() |
Text (Fulltext)
200605110139.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. Download (1MB) |
Abstract
INDONESIA:
Twitter merupakan salah satu media sosial yang banyak digunakan oleh tokoh masyarakat, politisi, selebritas, dan organisasi untuk berkomunikasi dengan publik. Namun, kebebasan berbicara di Twitter sering disalahgunakan yang menyebabkan adanya konflik, salah satunya berupa ujaran kebencian, khususnya terhadap agama Islam. Untuk mengatasi masalah tersebut, pada penelitian ini dirancang sistem klasifikasi teks ujaran kebencian terhadap agama Islam, dengan tujuan untuk mengevaluasi kinerja Multinomial Naïve Bayes (MNB) dalam mengklasifikasikan teks ujaran kebencian. Data penelitian diperoleh melalui data crawlingdari platform twitter. Dataset diproses melalui tahap preprocessing, yaitu cleaning, case folding, tokenizing, stopwords removal, dan stemming. Data hasil preprocessing diekstraksi menggunakan Bag of Words untuk menghitung frekuensi kemunculan kata, yang kemudian digunakan sebagai input pada MNB. Pengujian pertama dilakukan dengan membandingkan rasio data latih dan data uji menggunakan hyperparameter tuning pada parameter alpha dalam rentang minimal dan maksimal. Pengujian kedua menggunakan k-fold cross validation untuk validasi model. Hasil penelitian menunjukkan akurasi tertinggi sebesar 85% pada rasio 90:10 dengan parameter alpha maksimal. Pengujian menggunakan 10-fold cross validation menghasilkan rata-rata akurasi 79.09%, dengan akurasi tertinggi pada iterasi ke-4 sebesar 85.05%. Selain itu didapatkan hasil bahwa penggunaan rasio data latih dan data uji, hyperparameter alpha, serta validasi silang dapat mempengaruhi kinerja MNB dalam klasifikasi teks ujaran kebencian.
ENGLISH:
Twitter is one of the social media that is widely used by public figures, politicians, celebrities, and organizations to communicate with the public. However, the freedom of speech on Twitter is often misused which causes conflict, one of which is hate speech, especially against Islam. To overcome this problem, this study designed a text classification system for hate speech against Islam, with the aim of evaluating the performance of Multinomial Naïve Bayes (MNB) in classifying hate speech texts. The research data was obtained through data crawling from the twitter platform. The dataset is processed through the preprocessing stage, namely cleaning, case folding, tokenizing, stopwords removal, and stemming. The preprocessing data is extracted using Bag of Words to calculate the frequency of word occurrence, which is then used as input to MNB. The first test was conducted by comparing the ratio of training data and test data using hyperparameter tuning on the alpha parameter in the minimum and maximum ranges. The second test uses k-fold cross validation for model validation. The results showed the highest accuracy of 85% at a ratio of 90:10 with the maximum alpha parameter. Testing using 10-fold cross validation resulted in an average accuracy of 79.09%, with the highest accuracy at the 4th iteration of 85.05%. In addition, it was found that the use of training and test data ratio, alpha hyperparameter, and cross validation can affect the performance of MNB in hate speech text classification.
ARABIC:
تويتر هو أحد وسائل التواصل الاجتماعي التي تستخدم على نطاق واسع من قبل الشخصيات العامة والسياسيين والمشاهير والمنظمات للتواصل مع الجمهور. ومع ذلك، غالبًا ما يتم إساءة استخدام حرية التعبير على تويتر، مما يتسبب في صراعات، أحدها خطاب الكراهية، خاصة ضد الدين الإسلامي. وللتغلب على هذه المشكلة، تم في هذه الدراسة تصميم نظام تصنيف لنصوص خطاب الكراهية ضد الإسلام، بهدف تقييم أداء Multinomial Naïve Bayes (MNB) في تصنيف نصوص خطاب الكراهية. تم الحصول على بيانات البحث من خلال زحف البيانات من منصة تويتر. تتم معالجة مجموعة البيانات من خلال مراحل المعالجة المسبقة، وهي التنظيف، وطي الحالة، والترميز، وإزالة كلمات التوقف، والقطع. يتم استخراج بيانات المعالجة المسبقة باستخدام حقيبة الكلمات لحساب تكرار تكرار الكلمات، والتي يتم استخدامها بعد ذلك كمدخل إلى MNB. تم إجراء الاختبار الأول من خلال مقارنة نسبة بيانات التدريب وبيانات الاختبار باستخدام ضبط المعلمة الفائقة على معلمة ألفا في النطاقين الأدنى والأقصى. يستخدم الاختبار الثاني التحقق المتقاطع k-fold للتحقق من صحة النموذج. أظهرت نتائج البحث أعلى دقة بلغت 85% بنسبة 90:10 مع الحد الأقصى لمعلمات ألفا. أنتج الاختبار باستخدام التحقق المتبادل بعشرة أضعاف متوسط دقة يبلغ 79.09%، مع أعلى دقة في التكرار الرابع بنسبة 85.05%. بالإضافة إلى ذلك، أظهرت النتائج أن استخدام نسبة بيانات التدريب لاختبار البيانات، ومقياس ألفا الفائق، والتحقق المتبادل يمكن أن يؤثر على أداء MNB في تصنيف نصوص خطاب الكراهية.
Item Type: | Thesis (Undergraduate) |
---|---|
Supervisor: | Faisal, Muhammad and Suhartono, Suhartono |
Keywords: | Ujaran Kebencian; Klasifikasi Sentimen; Multinomial Naïve Bayes; Hate Speech; Sentiment Classification; خطاب الكراهية، تصنيف المشاعر; متعدد الحدود الساذج |
Departement: | Fakultas Sains dan Teknologi > Jurusan Teknik Informatika |
Depositing User: | Zul Iflah Al Juhaeda |
Date Deposited: | 17 Jan 2025 10:23 |
Last Modified: | 17 Jan 2025 10:23 |
URI: | http://etheses.uin-malang.ac.id/id/eprint/71638 |
Downloads
Downloads per month over past year
Actions (login required)
![]() |
View Item |