Responsive Banner

Peringkasan teks artikel berita menggunakan Algoritma TextRank dengan WIDF dan LSA

Halmahera, Shafira (2025) Peringkasan teks artikel berita menggunakan Algoritma TextRank dengan WIDF dan LSA. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.

[img] Text (Fulltext)
210605110008.pdf - Accepted Version
Available under License Creative Commons Attribution Non-commercial No Derivatives.

Download (2MB)

Abstract

INDONESIA :
Pesatnya perkembangan teknologi informasi, khususnya internet, telah mempercepat penyebaran berita secara online. Masyarakat kini dapat mengakses berbagai informasi dengan mudah melalui platform media online. Namun, banyaknya informasi yang tersedia menimbulkan tantangan bagi pembaca untuk menemukan inti berita dengan cepat. Untuk mengatasi hal ini, dibutuhkan peringkasan teks otomatis. Salah satu metode peringkasan adalah peringkasan ekstraktif, yang bertujuan mencari kalimat-kalimat penting dalam dokumen yang mewakili keseluruhan isi dokumen. Penelitian ini menggunakan metode TextRank yang dikombinasikan dengan pembobotan WIDF (Weighted Inverse Document Frequency) dan reduksi dimensi menggunakan LSA (Latent Semantic Analysis). WIDF menghitung bobot kata berdasarkan frekuensi kemunculannya dalam suatu teks dan total kemunculannya di kumpulan teks. LSA mereduksi dimensi matriks WIDF dan merepresentasikan kalimat dalam ruang semantik berdimensi rendah melalui dekomposisi matriks SVD. TextRank digunakan untuk memeringkatkan kalimat-kalimat dalam dokumen berdasarkan kemiripan semantik yang dihitung menggunakan cosine similarity, kemudian memilih kalimat dengan peringkat tertinggi sebagai ringkasan. Hasil uji coba dengan 14.261 artikel berita menunjukkan bahwa metode TextRank dengan pembobotan WIDF tanpa menggunakan LSA menghasilkan performa yang lebih baik dibandingkan dengan kombinasi yang menggunakan LSA. Pada tingkat kompresi 50%, diperoleh nilai rata-rata ROUGE-1 dengan recall sebesar 0,6884, precision 0,3664, dan f1-score 0,4658. Sementara itu, pada tingkat kompresi 30%, diperoleh recall sebesar 0,5442, precision 0,4345, dan f1-score 0,4666.

ENGLISH :
The rapid development of information technology, especially the internet, has accelerated the spread of news online. People can now access various information easily through online media platforms. However, the sheer amount of information available poses a challenge for readers to find the gist of the news quickly. To overcome this, automatic text summarization is needed. One of the summarization methods is extractive summarization, which aims to find important sentences in the document that represent the entire content of the document. This research uses the TextRank method combined with WIDF (Weighted Inverse Document Frequency) weighting and dimension reduction using LSA (Latent Semantic Analysis). WIDF calculates the weight of a word based on the frequency of its occurrence in a text and its total occurrence in the text set. LSA reduces the dimension of the WIDF matrix and represents sentences in a low-dimensional semantic space through SVD matrix decomposition. TextRank is used to rank the sentences in the document based on semantic similarity calculated using cosine similarity, and then select the highest ranked sentence as the summary. Experimental results with 14,261 news articles show that the TextRank method with WIDF weighting without using LSA produces better performance than the combination using LSA. At 50% compression level, the ROUGE-1 average value is obtained with recall of 0.6884, precision of 0.3664, and f1-score of 0.4658. Meanwhile, at a compression level of 30%, a recall of 0.5442, precision of 0.4345, and f1-score of 0.4666 were obtained.

ARABIC :
أدى التطور السريع لتكنولوجيا المعلومات، وخاصة الإنترنت، إلى تسريع انتشار الأخبار عبر الإنترنت. ويمكن للأشخاص الآن الوصول إلى المعلومات المختلفة بسهولة من خلال منصات وسائل الإعلام عبر الإنترنت. ومع ذلك، فإن كمية المعلومات المتاحة تشكل تحديًا للقراء للعثور على جوهر الأخبار بسرعة. للتغلب على ذلك، هناك حاجة إلى تلخيص النص تلقائيًا. إحدى طرق التلخيص هي التلخيص الاستخراجي الذي يهدف إلى العثور على الجمل المهمة في المستند التي تمثل محتوى المستند بأكمله. يستخدم هذا البحث طريقة TextRank مع ترجيح WIDF (التردد العكسي المرجح للمستند) وتقليل الأبعاد باستخدام LSA (التحليل الدلالي الكامن). يحسب WIDF وزن الكلمة بناءً على تكرار ورودها في النص وإجمالي ورودها في مجموعة النصوص. يقلل LSA من أبعاد مصفوفة WIDF ويمثل الجمل في فضاء دلالي منخفض الأبعاد من خلال تحليل مصفوفة SVD. يتم استخدام TextRank لترتيب الجمل في المستند بناءً على التشابه الدلالي المحسوب باستخدام تشابه جيب التمام، ثم تحديد الجملة الأعلى مرتبة كملخص. تُظهر النتائج التجريبية التي أجريت على 14,261 مقالة إخبارية أن طريقة TextRank مع ترجيح WIDF دون استخدام LSA تنتج أداءً أفضل من الجمع باستخدام LSA. عند مستوى ضغط بنسبة 50%، يتم الحصول على متوسط قيمة ROUGE-1 مع استدعاء 0.6884، ودقة 0.3664، ودرجة f1 0.4658. وفي الوقت نفسه، عند مستوى ضغط بنسبة 30%، تم الحصول على استدعاء 0.5442، ودقة 0.4345، ودرجة f1 0.4666.

Item Type: Thesis (Undergraduate)
Supervisor: Faisal, Muhammad and Crysdian, Cahyo
Keywords: Peringkasan Teks Otomatis; TextRank; WIDF; LSA; Automatic Text Summarization; Textrank; WIDF; LSA; التلخيص التلقائي للنصوص، تلخيص النص التلقائي; TextRank; WIDF; LSA
Departement: Fakultas Sains dan Teknologi > Jurusan Teknik Informatika
Depositing User: Shafira Halmahera
Date Deposited: 27 May 2025 11:12
Last Modified: 27 May 2025 11:12
URI: http://etheses.uin-malang.ac.id/id/eprint/74957

Downloads

Downloads per month over past year

Actions (login required)

View Item View Item