Responsive Banner

Peringkasan teks ekstraktif pada artikel berita bahasa Indonesia menggunakan metode Bert dan Cosine Similarity

Fadlilah, Nurma Romihim (2025) Peringkasan teks ekstraktif pada artikel berita bahasa Indonesia menggunakan metode Bert dan Cosine Similarity. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.

[img]
Preview
Text (Fulltext)
18650017.pdf - Accepted Version
Available under License Creative Commons Attribution Non-commercial No Derivatives.

(6MB) | Preview

Abstract

INDONESIA:

Volume informasi berita online yang meningkat secara cepat menyebabkan pembaca kesulitan dalam menyaring informasi penting secara efisien. Penelitian ini bertujuan mengembangkan sistem peringkasan teks ekstraktif untuk artikel berita berbahasa Indonesia dengan mengombinasikan metode Bidirectional Encoder Representations from Transformers (BERT) dan Cosine Similarity. BERT digunakan untuk memahami konteks semantik kalimat secara bidirectional, sementara Cosine Similarity mengukur keterkaitan antar kalimat untuk mengurangi redundansi. Penelitian menggunakan dataset IndoSum pada file “train.03.jsonl” yang menggunakan 2000 artikel berita dengan pembagian 70% data training (1400 artikel), 20% data validasi (400 artikel), dan 10% data testing (200 artikel). Proses penelitian meliputi tahapan preprocessing (text cleaning dan case folding), fine-tuning model IndoBERT selama 12 epoch, ekstraksi fitur BERT, perhitungan Cosine Similarity, dan kombinasi skor dengan parameter alpha optimal 0.9 (90% bobot BERT, 10% bobot Cosine Similarity). Evaluasi menggunakan metrik ROUGE menunjukkan hasil ROUGE-1: 0.537 (±0.155), ROUGE-2: 0.456 (±0.191), dan ROUGE-L: 0.499 (±0.178) pada 200 artikel test set. Sistem mencapai compression rate rata-rata 72.7% dengan waktu eksekusi 0.8 detik per artikel. Hasil tersebut menunjukkan bahwa sistem dapat menghasilkan ringkasan yang cukup baik dalam konteks peringkasan teks ekstraktif.

ENGLISH:

The rapid growth of online news has made it increasingly challenging for readers to efficiently filter and identify key information. The research aims to develop an extractive text summarization system for Indonesian-language news articles by combining the Bidirectional Encoder Representations from Transformers (BERT) method to capture the semantic meaning and Cosine Similarity method to measure sentence cohesion and minimize redundancy. The research uses file train.03.jsonl of the IndoSum dataset, consisting of 2,000 news articles split into 70% training data (1,400 articles), 20% validation data (400 articles), and 10% test data (200 articles). The process includes preprocessing (text cleaning and case folding), fine-tuning the IndoBERT model over 12 epochs, extracting BERT features, calculating Cosine Similarity, and combining scores using an optimal alpha parameter of 0.9—giving 90% weight to BERT and 10% to Cosine Similarity. Evaluation using ROUGE metrics produced the following results on 200 test set articles: ROUGE-1: 0.537 (±0.155), ROUGE-2: 0.456 (±0.191), and ROUGE-L: 0.499 (±0.178). The system achieved an average compression rate of 72.7% and an execution time of 0.8 seconds per article. These results demonstrate that the system can generate concise and fairly accurate extractive text summaries.

ARABIC:

الزيادة السريعة في حجم المعلومات الإخبارية عبر الإنترنت تجعل من الصعب على القراء فرز المعلومات الهامة بكفاءة. تهدف هذه الدراسة إلى تطوير نظام تلخيص نصوص استخراجية لمقالات الأخبار باللغة الإندونيسية من خلال الجمع بين طريقة BERT (تمثيلات المبرمجين الثنائية الاتجاه من المحولات) وتشابه جيب التمام. يتم استخدام BERT لفهم السياق الدلالي للجمل بشكل ثنائي الاتجاه، بينما يقيس تشابه جيب التمام العلاقة بين الجمل لتقليل التكرار. تستخدم الدراسة مجموعة بيانات IndoSum في ملف "train.03.jsonl" الذي يحتوي على ٢٠٠٠ مقال إخباري، مع تقسيم ٧٠٪ للتدريب (١٤٠٠ مقال)، ٢٠٪ للتحقق (٤٠٠ مقال)، و١٠٪ للاختبار (٢٠٠ مقال). تشمل عملية البحث مراحل المعالجة المسبقة (تنظيف النص وطي الحالة)، وضبط النموذج IndoBERT لمدة ١٢ حقبة، واستخراج ميزات BERT، وحساب تشابه جيب التمام، ودمج النقاط مع المعلمة ألفا المثلى ٠.٩ (٩٠٪ وزن BERT، ١٠٪ وزن تشابه جيب التمام). تظهر التقييمات باستخدام مقياس ROUGE النتائج التالية: ROUGE-1: ٠.٥٣٧ (±٠.١٥٥)، ROUGE-2: ٠.٤٥٦ (±٠.١٩١)، وROUGE-L: ٠.٤٩٩ (±٠.١٧٨) على ٢٠٠ مقال اختبار. حقق النظام معدل ضغط متوسط قدره ٧٢.٧٪ مع وقت تنفيذ ٠.٨ ثانية لكل مقال. تشير النتائج إلى أن النظام يمكن أن ينتج ملخصات جيدة إلى حد ما في سياق تلخيص النصوص الاستخراجية.

Item Type: Thesis (Undergraduate)
Supervisor: Abidin, Zainal and Imamudin, Mochamad
Keywords: Peringkasan Teks Ekstraktif; BERT; Cosine Similarity; ROUGE Extractive Text Summarization; BERT; Cosine Similarity; ROUGE الكلمات المفتاحية: تلخيص النصوص الاستخراجية; BERT; تشابه جيب التمام; ROUGE.
Subjects: 08 INFORMATION AND COMPUTING SCIENCES > 0801 Artificial Intelligence and Image Processing > 080107 Natural Language Processing
08 INFORMATION AND COMPUTING SCIENCES > 0803 Computer Software > 080309 Software Engineering
Departement: Fakultas Sains dan Teknologi > Jurusan Teknik Informatika
Depositing User: Nurma Romihim Fadlilah
Date Deposited: 08 Sep 2025 11:10
Last Modified: 08 Sep 2025 11:10
URI: http://etheses.uin-malang.ac.id/id/eprint/79135

Downloads

Downloads per month over past year

Actions (login required)

View Item View Item