Setiawan, Andri (2025) Model peringkasan abstraktif pada artikel berbahasa Indonesia menggunakan Bi-GRU dan LSTM. Masters thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
|
Text (Fulltext)
230605210019.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. (2MB) |
Abstract
ABSTRAK
Perkembangan pesat konten berita daring pada era digital menuntut solusi efisien untuk mengekstraksi informasi penting dari volume teks yang semakin besar. Peringkasan abstraktif menawarkan jawaban ideal dengan menghasilkan ringkasan yang padat, koheren, dan menyerupai tulisan manusia, namun dalam implementasinya pada bahasa Indonesia masih terbatas karena kompleksitas linguistik dan keterbatasan dataset berkualitas tinggi. Untuk mengatasi tantangan ini, penelitian ini mengusulkan kerangka kerja peringkasan hibrida yang menggabungkan tahap ekstraktif. Pertama, kalimat-kalimat inti dipilih menggunakan pembobotan TF-IDF dan penilaian semantik berbasis SBERT untuk menghasilkan input yang terfokus. Kemudian, model abstraktif berbasis RNN terdiri dari encoder Bi-GRU, dan decoder LSTM digunakan untuk menghasilkan ringkasan akhir. Evaluasi menunjukkan bahwa model abstraktif mencapai performa moderat namun menjanjikan. Lebih penting lagi, perbandingan eksperimen menunjukkan bahwa model mencapai performa jauh lebih tinggi ketika menggunakan input ringkasan ekstraktif (ROUGE-1: 0.5439, ROUGE-L: 0.5205) dibandingkan teks artikel lengkap (ROUGE-1: 0.4123, ROUGE-L: 0.3793), mengindikasikan bahwa preprocessing ekstraktif sangat krusial untuk meningkatkan kohesi dan akurasi ringkasan. Hasil ini membuktikan bahwa arsitektur RNN tetap relevan dan efektif untuk peringkasan abstraktif bahasa Indonesia jika didukung oleh input yang terfilter, tanpa harus bergantung pada model transformer berukuran besar. Secara keseluruhan, penelitian ini memberikan kontribusi praktis berupa sistem ringkas yang ringan, efisien, dan peka konteks, cocok untuk aplikasi nyata di lingkungan sumber daya terbatas.
ABSTRACT
The rapid development of online news content in the digital age demands efficient solutions for extracting important information from increasingly large volumes of text. Abstractive summarization offers an ideal answer by producing concise, coherent summaries that resemble human writing, but its implementation in Indonesian is still limited due to linguistic complexity and the scarcity of high-quality datasets. To address these challenges, this study proposes a hybrid summarization framework that combines extractive and abstractive stages. First, key sentences are selected using TF-IDF weighting and SBERT-based semantic scoring to generate focused input. Then, an RNN-based abstractive model consisting of a Bi-GRU encoder and an LSTM decoder is used to generate the final summary. The evaluation shows that the abstractive model achieves moderate but promising performance. More importantly, experimental comparisons show that the model achieves significantly higher performance when using extractive summary input (ROUGE-1: 0.5439, ROUGE-L: 0.5205) compared to full article text (ROUGE-1: 0.4123, ROUGE-L: 0.3793), indicating that extractive preprocessing is crucial for improving the cohesion and accuracy of summaries. These results prove that RNN architecture remains relevant and effective for abstractive summarization of Indonesian language when supported by filtered input, without having to rely on large transformer models. Overall, this research provides a practical contribution in the form of a lightweight, efficient, and context-sensitive summarization system, suitable for real-world applications in resource-constrained environments.
مستخلص البحث
تطلب التطور السريع لمحتوى الأخبار عبر الإنترنت في العصر الرقمي حلولاً فعالة لاستخراج المعلومات المهمة من أحجام متزايدة من النصوص. يقدم التلخيص التجريدي حلاً مثالياً من خلال إنتاج ملخصات موجزة ومتسقة تشبه الكتابة البشرية. ومع ذلك، لا يزال تطبيقه في اللغة الإندونيسية محدوداً بسبب التعقيد اللغوي وندرة مجموعات البيانات عالية الجودة. لمواجهة هذه التحديات، تقترح هذه الدراسة إطارًا توليفيًا للملخصات يجمع بين المراحل الاستخلاصية والتجريدية. أولاً، يتم اختيار الجمل الرئيسية باستخدام ترجيح TF-IDF والتقييم الدلالي القائم على SBERT لإنتاج مدخلات مركزة. ثم يتم استخدام نموذج تجريدي قائم على RNN يتكون من مشفر Bi-GRU ومفكك LSTM لإنشاء الملخص النهائي. يُظهر التقييم أن النموذج التجريدي يحقق أداءً متواضعًا ولكنه واعد. والأهم من ذلك، تُظهر المقارنات التجريبية أن النموذج يحقق أداءً أعلى بكثير عند استخدام مدخلات الملخص الاستخراجي (ROUGE-1: 0.5439، ROUGE-L: 0.5205) مقارنةً بنص المقالة الكامل (ROUGE-1: 0.4123، ROUGE-L: 0.3793)، مما يشير إلى أن المعالجة الأولية الاستخلاصية ضرورية لتحسين تماسك ودقة الملخصات. تثبت هذه النتائج أن بنية RNN لا تزال ملائمة وفعالة للتلخيص التجريدي للغة الإندونيسية عندما تكون مدعومة بمدخلات مفلترة، دون الحاجة إلى الاعتماد على نماذج محولات كبيرة. بشكل عام، يقدم هذا البحث مساهمة عملية في شكل نظام موجز وخفيف الوزن وفعال وحساس للسياق، ومناسب للتطبيقات الواقعية في البيئات المحدودة الموارد.
| Item Type: | Thesis (Masters) |
|---|---|
| Supervisor: | Abidin, Zainal and Imamudin, Muhammad |
| Keywords: | NLP, Extractive Summarization, Abstractive Summarization, Bi-GRU, LSTM NLP, Extractive Summarization, Abstractive Summarization, Bi-GRU, LSTM NLP، التلخيص الاستخلاصي، التلخيص التجريدي، Bi-GRU، LSTM |
| Subjects: | 08 INFORMATION AND COMPUTING SCIENCES > 0801 Artificial Intelligence and Image Processing > 080107 Natural Language Processing |
| Departement: | Fakultas Sains dan Teknologi > Jurusan Magister Tehnik Informatika |
| Depositing User: | Andri Setiawan |
| Date Deposited: | 04 Feb 2026 08:31 |
| Last Modified: | 04 Feb 2026 08:31 |
| URI: | http://etheses.uin-malang.ac.id/id/eprint/82112 |
Downloads
Downloads per month over past year
Actions (login required)
![]() |
View Item |
