Responsive Banner

Analisis perbandingan K-Means Clustering dan Textrank dalam peringkasan teks berita berbahasa Indonesia

Saputra, Muhammad Daffa Pramuditya (2025) Analisis perbandingan K-Means Clustering dan Textrank dalam peringkasan teks berita berbahasa Indonesia. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.

[img] Text (Fulltext)
210605110010.pdf - Accepted Version
Available under License Creative Commons Attribution Non-commercial No Derivatives.

Download (2MB)

Abstract

INDONESIA:

Penelitian ini membandingkan kinerja metode K-Means Clustering dan Textrank dalam peringkasan teks otomatis berita berbahasa Indonesia. Menggunakan dataset IndoSum dengan 2.500 dokumen berita, kedua metode dievaluasi pada lima tingkat kompresi berbeda (30%, 40%, 50%, 60%, dan 70%) dengan metrik ROUGE-1, ROUGE-2, dan ROUGE-L. Hasil menunjukkan bahwa metode Textrank mengungguli K-Means Clustering pada tingkat kompresi rendah hingga menengah, dengan nilai F1-score tertinggi 0.589 pada kompresi 30%, sementara K-Means Clustering menunjukkan performa yang lebih stabil pada tingkat kompresi tinggi yaitu 60-70%. Penelitian ini juga mengidentifikasi fenomena menarik di mana nilai recall meningkat sementara precision menurun seiring bertambahnya tingkat kompresi. Untuk ROUGE-2, Textrank mencapai performa terbaik pada kompresi 40% dengan nilai F1-score 0.501, sedangkan untuk ROUGE-L pada kompresi yang sama dengan nilai 0.531. Keseimbangan optimal antara cakupan informasi dan ketepatan ditemukan pada rentang kompresi 30-50%. Hasil ini memberikan landasan untuk pemilihan metode peringkasan yang optimal sesuai dengan kebutuhan ringkasan pada berbagai tingkat kompresi untuk dokumen berita berbahasa Indonesia.

ENGLISH:

This research compares the performance of K-Means Clustering and TextRank methods in automatic text summarization of Indonesian news. Using the IndoSum dataset with 2,500 news documents, both methods were evaluated at five different compression levels (30%, 40%, 50%, 60%, and 70%) using ROUGE-1, ROUGE-2, and ROUGE-L metrics. Results show that the TextRank method outperforms K-Means Clustering at low to medium compression levels, with the highest F1-score of 0.589 at 30% compression, while K-Means Clustering demonstrates more stable performance at higher compression levels (60-70%). The research also identifies an interesting phenomenon where recall values increase while precision decreases as compression levels rise. For ROUGE-2, TextRank achieves best performance at 40% compression with an F1-score of 0.501, while for ROUGE-L at the same compression level with a value of 0.531. The optimal balance between information coverage and accuracy was found in the 30-50% compression range. These findings provide an empirical basis for selecting the optimal summarization method according to summary requirements at various compression levels for Indonesian news documents.

ARABIC:

يقارن هذا البحث بين أداء طريقتَي التجميع العنقودي ك-مجموعة وسائل, تيكسترك في التلخيص التلقائي للنصوص للأخبار الإندونيسية. باستخدام مجموعة بيانات IndoSum التي تحتوي على 2,500 مستند إخباري، تم تقييم كلتا الطريقتين على خمسة مستويات ضغط مختلفة )%30 %,40 %,50 %,60 %,70( باستخدام مقاييس ROUGE-1 ، التجميع العنقودي ك-مجموعة وسائل ,ROUGE-2 وROUGE-L. تُظهر النتائج أن طريقة تيكسترك تتفوق على طريقة عند مستويات ضغط منخفضة إلى متوسطة، حيث بلغت أعلى قيمة لنتيجة F1 0.589 عند ضغط 30%، بينما تُظهر طريقة التجميع العنقودي ك-مجموعة وسائل أداءً أكثر استقرارًا عند مستويات ضغط عالية تتراوح بين %,60%,70 حدد هذا البحث أيضًا ظاهرة مثيرة للاهتمام حيث تزداد قيمة الاسترجاع بينما تقل الدقة مع زيادة مستوى الضغط. بالنسبة إلى ROUGE-2، حقق, تيكسترك أفضل أداء عند ضغط بنسبة %70 مع درجة F1 تبلغ 0.501، بينما حقق ROUGE-L عند نفس الضغط 0.531. تم العثور على التوازن الأمثل بين تغطية المعلومات والدقة في نطاق ضغط يتراوح بين% 30-%50. توفر هذه النتائج أساسًا لاختيار طريقة التلخيص المثلى وفقًا لاحتياجات التلخيص عند مستويات ضغط مختلفة للوثائق الإخبارية الإندونيسية.

Item Type: Thesis (Undergraduate)
Supervisor: Faisal, Muhammad and Imamudin, Muhammad
Keywords: Peringkasan Teks Otomatis; K-Means Clustering; TextRank; Automatic Text Summarization; K-Means Clustering; TextRank; التلخيص التلقائي للنصوص; التلخيص التلقائي للنصوص; التجميع العنقودي ك-مجموعة وسائل; تيكسترك
Departement: Fakultas Sains dan Teknologi > Jurusan Teknik Informatika
Depositing User: Muhammad Daffa Pramuditya Saputra
Date Deposited: 04 Jun 2025 09:16
Last Modified: 04 Jun 2025 09:16
URI: http://etheses.uin-malang.ac.id/id/eprint/75235

Downloads

Downloads per month over past year

Actions (login required)

View Item View Item