Klasifikasi hierarkis ujaran kebencian multi-label dengan Indobertweet dan Regresi Ordinal

Maghfiroh, Siti Wasi'atul (2026) Klasifikasi hierarkis ujaran kebencian multi-label dengan Indobertweet dan Regresi Ordinal. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.

Text (Fulltext)
220605110035.pdf - Accepted Version
Available under License Creative Commons Attribution Non-commercial No Derivatives.
(2MB)

Abstract

INDONESIA :

Ujaran kebencian pada media sosial merupakan permasalahan yang kompleks karena tidak hanya memerlukan deteksi ujaran kebencian, tetapi juga identifikasi kategori dan tingkat keparahannya. Penelitian ini bertujuan membangun sistem klasifikasi hierarkis multi-label berbasis IndoBERTweet untuk mendeteksi ujaran kebencian berbahasa Indonesia pada platform Twitter/X. Pendekatan hierarkis diterapkan melalui tiga tahap, yaitu klasifikasi biner, klasifikasi multi-label, dan klasifikasi ordinal menggunakan metode CORN untuk menentukan tingkat keparahan. Selain itu, penelitian ini menerapkan augmentasi data berbasis Masked Language Modeling (MLM) untuk mengatasi ketidakseimbangan data pada tahap multi-label. Hasil penelitian menunjukkan bahwa model klasifikasi biner memperoleh Accuracy sebesar 90,67% dan F1-score sebesar 90,37%. Pada tahap klasifikasi multi-label, model menghasilkan Macro F1-score sebesar 78,68% dan Hamming Loss sebesar 9,39%. Sementara itu, pada tahap klasifikasi ordinal diperoleh Accuracy sebesar 82,56% dan Quadratic Weighted Kappa sebesar 76,80%. Evaluasi end-to-end system menghasilkan performa sebesar 80,33%. Hasil uji paired t-test menunjukkan bahwa peningkatan performa akibat augmentasi data berbasis MLM belum signifikan secara statistik. Secara keseluruhan, metode klasifikasi hierarkis multi-label berbasis IndoBERTweet mampu mendeteksi ujaran kebencian dengan mempertimbangkan kategori multi-label dan tingkat keparahan secara ordinal pada data Twitter/X berbahasa Indonesia dengan performa yang baik.

ENGLISH:

Hate speech detection on social media is a challenging task due to the need to identify both hate speech categories and severity levels. This study proposes a hierarchical multi-label classification system based on IndoBERTweet for Indonesian hate speech detection on Twitter/X. The system consists of three stages: binary classification, multi label classification, and ordinal classification using the CORN method. To address data imbalance in the multi-label stage, Masked Language Modeling (MLM)-based data augmentation was applied. The results show that the binary classification model achieved an Accuracy of 90.67% and an F1-Score of 90.37%. The multi-label classification stage obtained a Macro F1-Score of 78.68% and a Hamming Loss of 9.39%, while the ordinal classification stage achieved an Accuracy of 82.56% and a Quadratic Weighted Kappa of 76.80%. The end-to-end evaluation reached 80.33%. Overall, the proposed hierarchical multi-label classification approach demonstrated good performance in detecting hate speech, identifying hate speech categories, and predicting severity levels in Indonesian Twitter/X data.

ARABIC :

تُعَدُّ خطابات الكراهية على وسائل التواصل الاجتماعي مشكلةً معقّدة، لأنها تتضمن تحديد فئات الخطاب ومستويات شدّته. يهدف هذا البحث إلى بناء نظام تصنيف هرمي متعدد العلامات (Multi-Label) قائم على نموذج IndoBERTweet للكشف عن خطابات الكراهية باللغة الإندونيسية على منصة تويتر/إكس (Twitter/X). تم تطبيق النهج الهرمي من خلال ثلاث مراحل، وهي التصنيف الثنائي، والتصنيف متعدد العلامات، والتصنيف الترتيبي باستخدام منهجية CORN لتحديد مستوى الشدة. كما اعتمد هذا البحث على تعزيز البيانات باستخدام تقنية Masked Language Modeling (MLM) لمعالجة مشكلة عدم توازن البيانات في مرحلة التصنيف متعدد العلامات. أظهرت نتائج البحث أن نموذج التصنيف الثنائي حقق دقة بلغت 90.67% وقيمة F1-score بلغت 90.37%. وفي مرحلة التصنيف متعدد العلامات، حقق النموذج قيمة Macro F1-score بلغت 78.68% مع Hamming Loss بنسبة 9.39%. أما في مرحلة التصنيف الترتيبي، فقد حقق النموذج دقة بلغت 82.56% وقيمة Quadratic Weighted Kappa بنسبة 76.80%. كما أظهر التقييم الشامل للنظام (End-to-End) أداءً بلغ 80.33%. وأظهرت نتائج اختبار paired t-test أن التحسن الناتج عن تعزيز البيانات لم يكن ذا دلالة إحصائية. وبشكل عام، أظهرت طريقة التصنيف الهرمي متعدد العلامات القائمة على IndoBERTweet قدرةً جيدة على اكتشاف خطابات الكراهية، .والتعرّف على الفئات متعددة العلامات، والتنبؤ بمستوى شدة خطابات الكراهية باللغة الإندونيسية

Item Type:	Thesis (Undergraduate)
Supervisor:	Holle, Khadijah Fahmi Hayati and Santoso, Irwan Budi
Keywords:	Ujaran kebencian; klasifikasi hierarkis; multi-label; IndoBERTweet; CORN; Twitter/X; NLP; Hate speech; hierarchical classification; multi-label; IndoBERTweet; CORN; Twitter/X; NLP; IndoBERTweet; خطاب الكراهية; التصنيف اهلرمي; التصنيف متعدد التصنيفا ;متعاجلة اللغة الطبيعية ;CORN،Twitter/X; معالجة اللغة الطبيعية
Subjects:	08 INFORMATION AND COMPUTING SCIENCES > 0801 Artificial Intelligence and Image Processing > 080107 Natural Language Processing
Departement:	Fakultas Sains dan Teknologi > Jurusan Teknik Informatika
Depositing User:	Siti Wasi'atul Maghfiroh
Date Deposited:	12 Jun 2026 09:23
Last Modified:	12 Jun 2026 09:23
URI:	http://etheses.uin-malang.ac.id/id/eprint/85289

Downloads

Downloads per month over past year

Actions (login required)

View Item

Link Terkait

Media Sosial

Alamat

Gedung Abdurrahman Wahid

Jl. Gajayana No.50, Dinoyo, Lowokwaru, Malang,

Jawa Timur 65149, Indonesia

Email: csc@uin-malang.ac.id