Klasifikasi berita hoaks bahasa Indonesia menggunakan Indobert Fine-Tuning dengan pendekatan Focal Loss pada data tidak seimbang

Kunaefi, Aang (2025) Klasifikasi berita hoaks bahasa Indonesia menggunakan Indobert Fine-Tuning dengan pendekatan Focal Loss pada data tidak seimbang. Masters thesis, Universitas Islam Negeri Maulana Malik Ibrahim.

Preview

Text (Fulltext)
210605210009.pdf - Accepted Version
Available under License Creative Commons Attribution Non-commercial No Derivatives.
(1MB) | Preview

Abstract

ABSTRAK

Penyebaran berita hoaks di media daring menjadi isu serius di tengah meningkatnya konsumsi informasi digital di kalangan masyarakat. Klasifikasi berita hoaks berbahasa Indonesia memiliki peran penting untuk menekan penyebaran informasi palsu. Salah satu tantangan utama dalam sistem klasifikasi ini adalah ketidakseimbangan distribusi data, di mana jumlah berita non-hoaks jauh lebih banyak dibandingkan berita hoaks. Penelitian ini mengusulkan pendekatan klasifikasi berita hoaks berbahasa Indonesia melalui teknologi Natural Languange Processing (NLP) menggunakan fine-tuning model IndoBERT, yang merupakan pre-trained language model berbasis arsitektur BERT (Bidirectional Encoder Representations from Transformers) dan disesuaikan untuk Bahasa Indonesia. Ketidakseimbangan data diatasi menggunakan metode Focal Loss. Pendekatan focal loss dirancang untuk lebih menekankan pembelajaran pada sampel kelas minoritas yang sulit diklasifikasikan. Dataset mencakup berita Bahasa Indonesia dengan jumlah data berita hoaks jauh lebih kecil dari berita non hoaks. Hasil evaluasi menunjukkan bahwa kombinasi IndoBERT dan Focal Loss mampu meningkatkan performa model dengan akurasi sebesar 97.2% dibandingkan dengan pendekatan Cross-Entropy Loss yang mendapat akurasi 96.2% Penelitian ini menunjukkan bahwa penggabungan model berbasis bahasa alami dengan strategi penanganan data tidak seimbang dapat memberikan hasil yang lebih akurat dalam mendeteksi berita hoaks

ABSTRACT

The spread of hoax news on online media is becoming a serious issue amidst society's increasing digital information consumption. The classification of Indonesian-language hoax news plays an important role in decreasing the spread of fake information. One main challenge in the classification system is the imbalanced data distribution, in which the number of factual news is significantly higher than hoax ones. The research proposes an Indonesian-language hoax news classification approach using Natural Language Processing (NLP) technology of fine-tuning IndoBERT model, a pre-trained language model based on BERT (Bidirectional Encoder Representations from Transformers), which is adjusted for the Indonesian language. The imbalanced data can be solved using the Focal Loss method. It is designed to emphasize learning on minority class samples, which are hard to classify. The dataset consisting of Indonesian-language news shows that the number of hoax news is significantly fewer than the factual news. The evaluation result shows that the combination of IndoBERT and Focal Loss can improve the model performance with an accuracy of 97.2% compared to the Cross-Entropy Loss approach with an accuracy of 96.2%. The research shows that the model combination based on natural language with the strategy to deal with imbalanced data can provide a more accurate result in detecting hoax news

مستخلص البحث

أصبح انتشار الأخبار الكاذبة عبر وسائل الإعلام الرقمية قضية خطيرة في ظل تزايد استهلاك المعلومات الرقمية بين المجتمع. تصنيف الأخبار الكاذبة باللغة الإندونيسية يلعب دورًا مهمًا في تقليل انتشار المعلومات المزيفة. من أكبر التحديات في نظام التصنيف هذا هي عدم توازن توزيع البيانات، حيث أن عدد الأخبار غير الكاذبة أكثر بكثير مقارنةً بالأخبار الكاذبة. اقترحت هذه الرسالة مدخلا لتصنيف الأخبار الكاذبة باللغة الإندونيسية من خلال تقنية معالجة اللغة الطبيعية (NLP) باستخدام تقنية الضبط الدقيق لنموذج IndoBERT، وهو نموذج اللغة مسبق التدريب على أساس بنية BERT (تمثيل التشفير ثنائي الاتجاه من المحولات) والذي تم ضبطه للغة الإندونيسية. يتم معالجة عدم توازن البيانات باستخدام طريقة الفقدان المركزي (Focal Loss). تم تصميم هذه الطريقة لزيادة التركيز على التعليم من عينات الفئة الأقلية التي يصعب تصنيفها. شملت مجموعة البيانات أخبارًا باللغة الإندونيسية مع عدد أكبر بكثير من الأخبار الحقيقية مقارنةً بالأخبار الكاذبة. أظهرت نتائج التقييم أن الجمع بين IndoBERT و Focal Lossقادر على تحسين أداء النموذج بدقة بلغت 97.2٪ مقارنةً بطريقة الفقدان الانتروبيا المتقاطع التي حصلت على دقة بنسبة 96.2٪. أشارت هذه النتيجة إلى أن دمج النموذج الذي يعتمد على معالجة اللغة الطبيعية مع استراتيجية التعامل مع البيانات غير المتوازنة يمكن تحقيق نتائج أكثر دقة في كشف الأخبار الكاذبة.

Item Type:	Thesis (Masters)
Supervisor:	Abidin, Zainal and Ririen, Kusumawati
Keywords:	Berita Hoaks, Fine Tuning, Focal Loss, IndoBERT, Pemrosesan Bahasa Alami; Hoax News, Fine Tuning, Focal Loss, IndoBERT, Natural Language Processing; أخبار كاذبة، ضبط دقيق، فقدان مركزي، إندوبيرت، معالجة اللغة الطبيعية
Subjects:	08 INFORMATION AND COMPUTING SCIENCES > 0802 Computation Theory and Mathematics > 080201 Analysis of Algorithms and Complexity 08 INFORMATION AND COMPUTING SCIENCES > 0899 Other Information and Computing Sciences > 089999 Information and Computing Sciences not elsewhere classified
Departement:	Fakultas Sains dan Teknologi > Jurusan Magister Tehnik Informatika
Depositing User:	Aang Kunaefi
Date Deposited:	23 Jun 2025 11:12
Last Modified:	23 Jun 2025 11:12
URI:	http://etheses.uin-malang.ac.id/id/eprint/76060

Downloads

Downloads per month over past year

Actions (login required)

View Item

Link Terkait

Media Sosial

Alamat

Gedung Abdurrahman Wahid

Jl. Gajayana No.50, Dinoyo, Lowokwaru, Malang,

Jawa Timur 65149, Indonesia

Email: csc@uin-malang.ac.id