Analisis perbandingan textrank dan long short term memory dalam peringkasan teks berita bahasa Inggris

Abdillah, Muhammad Faza (2024) Analisis perbandingan textrank dan long short term memory dalam peringkasan teks berita bahasa Inggris. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim Malang.

This is the latest version of this item.

Text
200605110068.pdf - Accepted Version
Available under License Creative Commons Attribution Non-commercial No Derivatives.
(2MB)

Abstract

Abstrak:
Penelitian ini bertujuan untuk mengembangkan sistem peringkasan teks otomatis untuk artikel berita, menggunakan dua teknik peringkasan: ekstraktif dengan algoritma TextRank dan abstraktif dengan algoritma Long Short Term Memory (LSTM). Berita yang mudah ditemukan di berbagai media kini tersebar luas di internet, sehingga pembaca sering kesulitan menemukan artikel yang relevan. Teknologi informasi diharapkan dapat membantu mengatasi tantangan ini dengan mengolah, menganalisis, dan menyajikan informasi yang lebih ringkas dan akurat. Teknik peringkasan dibagi menjadi ekstraktif, yang mempertahankan kalimat asli dari dokumen, dan abstraktif, yang menghasilkan kalimat baru berdasarkan pemahaman konteks dokumen. Hasil penelitian menunjukkan bahwa metode LSTM menghasilkan nilai rata-rata tertinggi untuk recall, precision, dan f1-score dalam skenario dengan 90% data training dan 10% data testing, masing-masing sebesar 0.462, 0.507, dan 0.480. Semakin banyak data yang digunakan untuk melatih model, semakin akurat hasil ringkasan yang dihasilkan. Namun, terdapat beberapa indeks berita dengan nilai akurasi rendah, menunjukkan bahwa model peringkasan masih dapat disempurnakan. Kesimpulannya, metode LSTM menunjukkan kinerja terbaik dalam peringkasan teks berita berbahasa Inggris, meskipun nilai rata-rata masih di bawah 0.5, sehingga konfigurasi model dan parameter perlu ditingkatkan untuk mencapai akurasi yang lebih tinggi.

Abstract:
This study aims to develop an automatic text summarization system for news articles using two summarization techniques: extractive summarization with the TextRank algorithm and abstractive summarization with the Long Short Term Memory (LSTM) algorithm. News, easily found in various media, is now widely disseminated on the internet, making it difficult for readers to find relevant articles. Information technology is expected to help overcome this challenge by processing, analyzing, and presenting more concise and accurate information. Summarization techniques are divided into extractive, which retains the original sentences from the document, and abstractive, which generates new sentences based on the document's context. The study results show that the LSTM method achieved the highest average scores for recall, precision, and f1-score in a scenario with 90% training data and 10% testing data, with scores of 0.462, 0.507, and 0.480, respectively. The more data used to train the model, the more accurate the summary produced. However, some news indices had low accuracy scores, indicating that the summarization model can still be improved. In conclusion, the LSTM method demonstrated the best performance in summarizing English news texts, although the average scores were still below 0.5, suggesting that model configuration and parameters need to be enhanced to achieve higher accuracy.

:مستخلص البحث
يهدف هذا البحث إلى تطوير نظام لتلخيص النصوص تلقائيًا للمقالات الإخبارية باستخدام تقنيتين للتلخيص: التلخيص الاستخراجي باستخدام خوارزمية TextRank والتلخيص التجريدي باستخدام خوارزمية Long Short Term Memory (LSTM). تنتشر الأخبار التي يمكن العثور عليها بسهولة في وسائل الإعلام المختلفة الآن على الإنترنت بشكل واسع، مما يجعل من الصعب على القراء العثور على المقالات ذات الصلة. من المتوقع أن تساعد تكنولوجيا المعلومات في التغلب على هذا التحدي من خلال معالجة وتحليل وتقديم معلومات أكثر دقة واختصارًا. تقنيات التلخيص مقسمة إلى تلخيص استخراجي، والذي يحتفظ بالجمل الأصلية من المستند، وتلخيص تجريدي، والذي يولد جملًا جديدة بناءً على سياق المستند. أظهرت نتائج الدراسة أن طريقة LSTM حققت أعلى متوسط للنقاط في الاستدعاء، والدقة، ودرجة F1 في سيناريو يحتوي على 90٪ من بيانات التدريب و10٪ من بيانات الاختبار، حيث كانت الدرجات 0.462، 0.507، و0.480 على التوالي. كلما زادت البيانات المستخدمة لتدريب النموذج، كان الملخص الناتج أكثر دقة. ومع ذلك، كانت هناك بعض المؤشرات الإخبارية التي حصلت على درجات دقة منخفضة، مما يشير إلى أن نموذج التلخيص لا يزال بحاجة إلى تحسين. في الختام، أظهرت طريقة LSTM أفضل أداء في تلخيص النصوص الإخبارية الإنجليزية، على الرغم من أن المتوسطات كانت لا تزال أقل من 0.5، مما يشير إلى أن تكوين النموذج والمعايير تحتاج إلى تحسين لتحقيق دقة أعلى.

Item Type:	Thesis (Undergraduate)
Supervisor:	Suhartono, Suhartono and Santoso, Irwan Budi
Keywords:	Long Short Term Memory; Peringkasan Teks Otomatis; Textrank. Automatic Text Summary; Long Short Term Memory; Textrank. تلخيص النص; تلخيص النص; تلخيص النص، الذاكرة طويلة المدى
Subjects:	01 MATHEMATICAL SCIENCES > 0199 Other Mathematical Sciences > 019999 Mathematical Sciences not elsewhere classified 08 INFORMATION AND COMPUTING SCIENCES > 0801 Artificial Intelligence and Image Processing > 080107 Natural Language Processing 08 INFORMATION AND COMPUTING SCIENCES > 0899 Other Information and Computing Sciences > 089999 Information and Computing Sciences not elsewhere classified
Departement:	Fakultas Sains dan Teknologi > Jurusan Teknik Informatika
Depositing User:	Muhammad Faza Abdillah
Date Deposited:	23 Jul 2024 07:31
Last Modified:	02 Aug 2024 09:15
URI:	http://etheses.uin-malang.ac.id/id/eprint/65984

Downloads

Downloads per month over past year

Available Versions of this Item

Analisis perbandingan textrank dan long short term memory dalam peringkasan teks berita bahasa Inggris. (deposited 23 Jul 2024 07:31) [Currently Displayed]

Actions (login required)

View Item

Link Terkait

Media Sosial

Alamat

Gedung Abdurrahman Wahid

Jl. Gajayana No.50, Dinoyo, Lowokwaru, Malang,

Jawa Timur 65149, Indonesia

Email: csc@uin-malang.ac.id