Kunaefi, Aang (2025) Klasifikasi berita hoaks bahasa Indonesia menggunakan Indobert Fine-Tuning dengan pendekatan Focal Loss pada data tidak seimbang. Masters thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
![]() |
Text (Fulltext)
210605210009.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. Download (1MB) |
Abstract
ABSTRAK
Penyebaran berita hoaks di media daring menjadi isu serius di tengah meningkatnya konsumsi informasi digital di kalangan masyarakat. Klasifikasi berita hoaks berbahasa Indonesia memiliki peran penting untuk menekan penyebaran informasi palsu. Salah satu tantangan utama dalam sistem klasifikasi ini adalah ketidakseimbangan distribusi data, di mana jumlah berita non-hoaks jauh lebih banyak dibandingkan berita hoaks. Penelitian ini mengusulkan pendekatan klasifikasi berita hoaks berbahasa Indonesia melalui teknologi Natural Languange Processing (NLP) menggunakan fine-tuning model IndoBERT, yang merupakan pre-trained language model berbasis arsitektur BERT (Bidirectional Encoder Representations from Transformers) dan disesuaikan untuk Bahasa Indonesia. Ketidakseimbangan data diatasi menggunakan metode Focal Loss. Pendekatan focal loss dirancang untuk lebih menekankan pembelajaran pada sampel kelas minoritas yang sulit diklasifikasikan. Dataset mencakup berita Bahasa Indonesia dengan jumlah data berita hoaks jauh lebih kecil dari berita non hoaks. Hasil evaluasi menunjukkan bahwa kombinasi IndoBERT dan Focal Loss mampu meningkatkan performa model dengan akurasi sebesar 97.2% dibandingkan dengan pendekatan Cross-Entropy Loss yang mendapat akurasi 96.2% Penelitian ini menunjukkan bahwa penggabungan model berbasis bahasa alami dengan strategi penanganan data tidak seimbang dapat memberikan hasil yang lebih akurat dalam mendeteksi berita hoaks
ABSTRACT
The spread of hoax news on online media is becoming a serious issue amidst society's increasing digital information consumption. The classification of Indonesian-language hoax news plays an important role in decreasing the spread of fake information. One main challenge in the classification system is the imbalanced data distribution, in which the number of factual news is significantly higher than hoax ones. The research proposes an Indonesian-language hoax news classification approach using Natural Language Processing (NLP) technology of fine-tuning IndoBERT model, a pre-trained language model based on BERT (Bidirectional Encoder Representations from Transformers), which is adjusted for the Indonesian language. The imbalanced data can be solved using the Focal Loss method. It is designed to emphasize learning on minority class samples, which are hard to classify. The dataset consisting of Indonesian-language news shows that the number of hoax news is significantly fewer than the factual news. The evaluation result shows that the combination of IndoBERT and Focal Loss can improve the model performance with an accuracy of 97.2% compared to the Cross-Entropy Loss approach with an accuracy of 96.2%. The research shows that the model combination based on natural language with the strategy to deal with imbalanced data can provide a more accurate result in detecting hoax news
مستخلص البحث
أصبح انتشار الأخبار الكاذبة عبر وسائل الإعلام الرقمية قضية خطيرة في ظل تزايد استهلاك المعلومات الرقمية بين المجتمع. تصنيف الأخبار الكاذبة باللغة الإندونيسية يلعب دورًا مهمًا في تقليل انتشار المعلومات المزيفة. من أكبر التحديات في نظام التصنيف هذا هي عدم توازن توزيع البيانات، حيث أن عدد الأخبار غير الكاذبة أكثر بكثير مقارنةً بالأخبار الكاذبة. اقترحت هذه الرسالة مدخلا لتصنيف الأخبار الكاذبة باللغة الإندونيسية من خلال تقنية معالجة اللغة الطبيعية (NLP) باستخدام تقنية الضبط الدقيق لنموذج IndoBERT، وهو نموذج اللغة مسبق التدريب على أساس بنية BERT (تمثيل التشفير ثنائي الاتجاه من المحولات) والذي تم ضبطه للغة الإندونيسية. يتم معالجة عدم توازن البيانات باستخدام طريقة الفقدان المركزي (Focal Loss). تم تصميم هذه الطريقة لزيادة التركيز على التعليم من عينات الفئة الأقلية التي يصعب تصنيفها. شملت مجموعة البيانات أخبارًا باللغة الإندونيسية مع عدد أكبر بكثير من الأخبار الحقيقية مقارنةً بالأخبار الكاذبة. أظهرت نتائج التقييم أن الجمع بين IndoBERT و Focal Lossقادر على تحسين أداء النموذج بدقة بلغت 97.2٪ مقارنةً بطريقة الفقدان الانتروبيا المتقاطع التي حصلت على دقة بنسبة 96.2٪. أشارت هذه النتيجة إلى أن دمج النموذج الذي يعتمد على معالجة اللغة الطبيعية مع استراتيجية التعامل مع البيانات غير المتوازنة يمكن تحقيق نتائج أكثر دقة في كشف الأخبار الكاذبة.
Item Type: | Thesis (Masters) |
---|---|
Supervisor: | Abidin, Zainal and Ririen, Kusumawati |
Keywords: | Berita Hoaks, Fine Tuning, Focal Loss, IndoBERT, Pemrosesan Bahasa Alami; Hoax News, Fine Tuning, Focal Loss, IndoBERT, Natural Language Processing; أخبار كاذبة، ضبط دقيق، فقدان مركزي، إندوبيرت، معالجة اللغة الطبيعية |
Subjects: | 08 INFORMATION AND COMPUTING SCIENCES > 0802 Computation Theory and Mathematics > 080201 Analysis of Algorithms and Complexity 08 INFORMATION AND COMPUTING SCIENCES > 0899 Other Information and Computing Sciences > 089999 Information and Computing Sciences not elsewhere classified |
Departement: | Fakultas Sains dan Teknologi > Jurusan Magister Tehnik Informatika |
Depositing User: | Aang Kunaefi |
Date Deposited: | 23 Jun 2025 11:12 |
Last Modified: | 23 Jun 2025 11:12 |
URI: | http://etheses.uin-malang.ac.id/id/eprint/76060 |
Downloads
Downloads per month over past year
Actions (login required)
![]() |
View Item |