Saputra, Muhammad Daffa Pramuditya (2025) Analisis perbandingan K-Means Clustering dan Textrank dalam peringkasan teks berita berbahasa Indonesia. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
![]() |
Text (Fulltext)
210605110010.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. Download (2MB) |
Abstract
INDONESIA:
Penelitian ini membandingkan kinerja metode K-Means Clustering dan Textrank dalam peringkasan teks otomatis berita berbahasa Indonesia. Menggunakan dataset IndoSum dengan 2.500 dokumen berita, kedua metode dievaluasi pada lima tingkat kompresi berbeda (30%, 40%, 50%, 60%, dan 70%) dengan metrik ROUGE-1, ROUGE-2, dan ROUGE-L. Hasil menunjukkan bahwa metode Textrank mengungguli K-Means Clustering pada tingkat kompresi rendah hingga menengah, dengan nilai F1-score tertinggi 0.589 pada kompresi 30%, sementara K-Means Clustering menunjukkan performa yang lebih stabil pada tingkat kompresi tinggi yaitu 60-70%. Penelitian ini juga mengidentifikasi fenomena menarik di mana nilai recall meningkat sementara precision menurun seiring bertambahnya tingkat kompresi. Untuk ROUGE-2, Textrank mencapai performa terbaik pada kompresi 40% dengan nilai F1-score 0.501, sedangkan untuk ROUGE-L pada kompresi yang sama dengan nilai 0.531. Keseimbangan optimal antara cakupan informasi dan ketepatan ditemukan pada rentang kompresi 30-50%. Hasil ini memberikan landasan untuk pemilihan metode peringkasan yang optimal sesuai dengan kebutuhan ringkasan pada berbagai tingkat kompresi untuk dokumen berita berbahasa Indonesia.
ENGLISH:
This research compares the performance of K-Means Clustering and TextRank methods in automatic text summarization of Indonesian news. Using the IndoSum dataset with 2,500 news documents, both methods were evaluated at five different compression levels (30%, 40%, 50%, 60%, and 70%) using ROUGE-1, ROUGE-2, and ROUGE-L metrics. Results show that the TextRank method outperforms K-Means Clustering at low to medium compression levels, with the highest F1-score of 0.589 at 30% compression, while K-Means Clustering demonstrates more stable performance at higher compression levels (60-70%). The research also identifies an interesting phenomenon where recall values increase while precision decreases as compression levels rise. For ROUGE-2, TextRank achieves best performance at 40% compression with an F1-score of 0.501, while for ROUGE-L at the same compression level with a value of 0.531. The optimal balance between information coverage and accuracy was found in the 30-50% compression range. These findings provide an empirical basis for selecting the optimal summarization method according to summary requirements at various compression levels for Indonesian news documents.
ARABIC:
يقارن هذا البحث بين أداء طريقتَي التجميع العنقودي ك-مجموعة وسائل, تيكسترك في التلخيص التلقائي للنصوص للأخبار الإندونيسية. باستخدام مجموعة بيانات IndoSum التي تحتوي على 2,500 مستند إخباري، تم تقييم كلتا الطريقتين على خمسة مستويات ضغط مختلفة )%30 %,40 %,50 %,60 %,70( باستخدام مقاييس ROUGE-1 ، التجميع العنقودي ك-مجموعة وسائل ,ROUGE-2 وROUGE-L. تُظهر النتائج أن طريقة تيكسترك تتفوق على طريقة عند مستويات ضغط منخفضة إلى متوسطة، حيث بلغت أعلى قيمة لنتيجة F1 0.589 عند ضغط 30%، بينما تُظهر طريقة التجميع العنقودي ك-مجموعة وسائل أداءً أكثر استقرارًا عند مستويات ضغط عالية تتراوح بين %,60%,70 حدد هذا البحث أيضًا ظاهرة مثيرة للاهتمام حيث تزداد قيمة الاسترجاع بينما تقل الدقة مع زيادة مستوى الضغط. بالنسبة إلى ROUGE-2، حقق, تيكسترك أفضل أداء عند ضغط بنسبة %70 مع درجة F1 تبلغ 0.501، بينما حقق ROUGE-L عند نفس الضغط 0.531. تم العثور على التوازن الأمثل بين تغطية المعلومات والدقة في نطاق ضغط يتراوح بين% 30-%50. توفر هذه النتائج أساسًا لاختيار طريقة التلخيص المثلى وفقًا لاحتياجات التلخيص عند مستويات ضغط مختلفة للوثائق الإخبارية الإندونيسية.
Item Type: | Thesis (Undergraduate) |
---|---|
Supervisor: | Faisal, Muhammad and Imamudin, Muhammad |
Keywords: | Peringkasan Teks Otomatis; K-Means Clustering; TextRank; Automatic Text Summarization; K-Means Clustering; TextRank; التلخيص التلقائي للنصوص; التلخيص التلقائي للنصوص; التجميع العنقودي ك-مجموعة وسائل; تيكسترك |
Departement: | Fakultas Sains dan Teknologi > Jurusan Teknik Informatika |
Depositing User: | Muhammad Daffa Pramuditya Saputra |
Date Deposited: | 04 Jun 2025 09:16 |
Last Modified: | 04 Jun 2025 09:16 |
URI: | http://etheses.uin-malang.ac.id/id/eprint/75235 |
Downloads
Downloads per month over past year
Actions (login required)
![]() |
View Item |